Stemming in Natural Language Processing on tekstianalüüsi tehnika, mida kasutatakse arvutites ja programmeerimises küberturvalisuse eesmärgil. Seda kasutatakse keeletöötlussüsteemis, et taandada käänulised (või mõnikord tuletatud) sõnad nende sõnatüveks, põhi- või tüvivormiks. Selleks eemaldatakse afiksid, mis muidu on sõnatüve külge kinnitatud.

Stemmingut kasutatakse peamiselt arvutilingvistika ja arvutiteaduse valdkondades teabe hankimise ja loomuliku keele töötlemise ülesannete jaoks. Tüvede moodustamise abil saab mitme morfoloogilise tõlgendusega sõnu taandada üheks tüvivormiks, mis võib optimeerida tekste indekseerimiseks ja otsimiseks. Näiteks sõnad “naer”, “naer” ja “naerab” võib taandada tulemuste asjakohasemaks muutmiseks sõnatüveks “naer”. Tüvesõna kasutatakse ka sentimentianalüüsis teksti sentimentide määramisel, liites komponentide tundeid lisatähenduse konstrueerimiseks.

Tüvealgoritmid luuakse sõltuvalt kasutatavast keelest, kuna igal keelel on oma reeglid sõnade koostamiseks. Sõnade täpseks sõelumiseks peab iga algoritm võtma arvesse keele grammatikat, morfoloogiat ja süntaktilisi nüansse. Näiteks inglise keeles on Porter Stemming algoritmi kasutatud alates 1980. aastast tõhusa algoritmina sõnade taandamiseks nende tüvekujule.

Üldiselt on loomuliku keele töötlemisel tulenev tuletamine oluline tehnika, mida kasutatakse arvutite, programmeerimise ja küberturvalisuse valdkonnas. Sõnade taandamine tüvekujuliseks suurendab otsimise tõhusust ja sentimentide analüüsi täpsust ning saavutatakse andmetest asjakohasem arusaam.

Vali ja osta proxy

Andmekeskuse proksid

Pöörlevad proksid

UDP Proxy'd

Usaldab üle 10 000 kliendi kogu maailmas

Puhverklient
Puhverklient
Puhverklient flowch.ai
Puhverklient
Puhverklient
Puhverklient