Gensim هي مكتبة بايثون مجانية لبناء المستندات والميزات المستخرجة من النص، والتي تستخدم لإجراء معالجة اللغة الطبيعية والتنقيب عن النص. تم تطويره وصيانته بواسطة Radim Řehůřek وفريقه في RaRe Technologies. تم تصميم Gensim لتوفير إطار عمل موثوق وفعال وقابل للتوسيع لتنفيذ موضوعات ذات أحجام مختلفة. وينصب تركيزها على قابلية التوسع والأداء والنشر السهل.

يعتمد Gensim على فكرة "المسافة" أو "التشابه" بين المستندات، والتي يتم بناؤها حول مجموعة من النصوص، أو مجموعة من المستندات. ويستخدم تمثيلات المتجهات لتمثيل المستندات لتسهيل قياس المسافات بين المستندات. يقدم Gensim طريقتين رئيسيتين لمقارنة المستندات: نماذج المواضيع (LDA، LSI) وتضمين الكلمات (word2vec، glove).

يتم بناء نماذج المواضيع على افتراض أنه يمكن تمثيل المستند على أنه "حقيبة كلمات" - أو قائمة من رموز الكلمات، دون أي هيكل. تتوافق كل كلمة مع موضوع ما، ويقوم نموذج الموضوع بتعيين وزن لكل موضوع في المستند. تسمح لنا هذه الأوزان بمقارنة المستندات وتحديد الكلمات والموضوعات الأكثر أهمية.

تعد تضمينات الكلمات تمثيلات أكثر تعقيدًا تأخذ في الاعتبار السياق والعلاقات الدلالية بين الكلمات بدلاً من مجرد مجموعة من الكلمات. توفر تضمينات الكلمات تفسيرًا أكثر دقة للغة، ولهذا السبب تحظى بشعبية كبيرة في معالجة اللغة الطبيعية واستخراج النصوص. يتم استخدام تضمينات الكلمات لإنشاء متجهات الميزات من الكلمات، مما يتيح مقارنة التشابه بين الكلمات والمستندات.

يوفر Gensim أيضًا عددًا كبيرًا من الأدوات المساعدة المفيدة، مثل خوارزميات البث والوصول إلى واجهة برمجة التطبيقات (API). بالإضافة إلى ذلك، فإن سهولة استخدامه تجعله شائعًا لدى المطورين وعلماء البيانات الذين يرغبون في إنشاء نماذج قوية لاستخراج النصوص ومعالجة اللغة الطبيعية بسرعة ودون عناء.

اختر وشراء الوكيل

وكلاء مركز البيانات

وكلاء الدورية

وكلاء UDP

موثوق به من قبل أكثر من 10000 عميل حول العالم

العميل الوكيل
العميل الوكيل
وكيل العميلflowch.ai
العميل الوكيل
العميل الوكيل
العميل الوكيل