Gensim is een gratis Python-bibliotheek voor het bouwen van documenten en het extraheren van kenmerken uit de tekst, die worden gebruikt om natuurlijke taalverwerking en tekst mining uit te voeren. Het is ontwikkeld en wordt onderhouden door Radim Řehůřek en zijn team bij RaRe Technologies. Gensim is ontworpen om een betrouwbaar, efficiënt en uitbreidbaar framework te bieden voor de implementatie van onderwerpen van verschillende groottes. De nadruk ligt op schaalbaarheid, prestaties en eenvoudige implementatie.

Gensim is gebaseerd op het idee van 'afstand' of 'gelijkenis' tussen documenten, dat is opgebouwd rond een corpus van tekst, of een verzameling documenten. Het gebruikt vectorrepresentaties om documenten voor te stellen en zo het meten van afstanden tussen documenten te vergemakkelijken. Gensim biedt twee belangrijke benaderingen om documenten te vergelijken: onderwerpmodellen (LDA, LSI) en woordinbeddingen (word2vec, glove).

Topic modellen zijn gebaseerd op de veronderstelling dat een document kan worden voorgesteld als een 'zak woorden' - of een lijst van woordentokens, zonder enige structuur. Elk woord komt overeen met een onderwerp en het onderwerpmodel kent een gewicht toe aan elk onderwerp in het document. Deze gewichten laten ons dan toe om documenten te vergelijken en te bepalen welke woorden en onderwerpen belangrijker zijn.

Woordinbeddingen zijn meer verfijnde representaties die rekening houden met context en semantische relaties tussen woorden in plaats van alleen maar een zak woorden. Woord inbeddingen geven een veel nauwkeurigere interpretatie van taal, daarom zijn ze populair in natuurlijke taalverwerking en tekst mining. Woordinbeddingen worden gebruikt om kenmerkvectoren van woorden te genereren, waardoor de gelijkenis tussen woorden en documenten kan worden vergeleken.

Gensim biedt ook een overvloed aan handige hulpprogramma's, zoals streaming algoritmen en API-toegang. Daarnaast maakt het gebruiksgemak het populair bij ontwikkelaars en datawetenschappers die snel en pijnloos krachtige tekst mining en natuurlijke taalverwerkingsmodellen willen bouwen.

Proxy kiezen en kopen

Datacenter Proxies

Roterende volmachten

UDP-proxy's

Vertrouwd door meer dan 10.000 klanten wereldwijd

Proxy-klant
Proxy-klant
Proxyklant flowch.ai
Proxy-klant
Proxy-klant
Proxy-klant