SpaCy je bezplatná knihovna s otevřeným zdrojovým kódem pro zpracování přirozeného jazyka (NLP) napsaná v Pythonu a Cythonu. Vytvořili ji v roce 2015 Matthew Honnibal a Ines Montani a od té doby se stala jednou z nejpopulárnějších knihoven NLP používaných vývojáři a datovými vědci po celém světě.
SpaCy je rychlý a snadno použitelný a funguje rychleji než jiné přední knihovny NLP, jako jsou NLTK a CoreNLP. Je také vysoce přesný a je schopen provádět širokou škálu úkolů, jako je zpracování vět na tagy slovních druhů (POS), seskupování frází, rozpoznávání pojmenovaných entit, značkování slovních druhů, parsování závislostí, rozlišení koreference, klasifikace textu a analýza sentimentu.
Kromě toho nabízí SpaCy některé jedinečné a pokročilé funkce pro vytváření vlastních modelů. Nabízí různé cvičné algoritmy pro strukturované modely, jako je klasifikace textu, rozpoznávání pojmenovaných entit a značkování slovních druhů, stejně jako nestrukturované modely, jako je analýza závislostí a analýza sentimentu. Podporuje také řadu jazykových modelů, jako je word2vec, GloVe a vkládání na úrovni znaků.
V roce 2016 byl SpaCy zabudován do větší sady open source knihoven pro Python ("Natural Language Toolkit"). Tyto knihovny umožňují vývojářům extrahovat složitější jazykové informace, jako je zjišťování podobností mezi slovy a frázemi nebo rozpoznání, že věta souvisí s konkrétním tématem.
Od roku 2021 se SpaCy rozrostla a stala se jednou z nejoblíbenějších a nejkomplexnějších knihoven pro zpracování a porozumění textu. I nadále zůstává oblíbenou knihovnou pro úlohy NLP díky svým účinným algoritmům, robustním funkcím a snadnému použití.