Analysis of Python libraries for NLP application development

Thesis title: Analýza knihoven jazyka Python pro vývoj NLP aplikací
Author: Janeček, Antonio
Thesis type: Diplomová práce
Supervisor: Vencovský, Filip
Opponents: Bruckner, Tomáš
Thesis language: Česky
Abstract:
Python, jako nástroj pro zpracování NLP disponuje mnoha knihovnami, které zvládají různé úlohy po svém. Mají různé kvality, přednosti a nevýhody. Tato práce analyzuje zmíněné kvality pomocí kriteriálního schéma, navrženého s využitím dat, sesbíraných od oslovených odborníků. Struktura schématu čerpá ze zdrojů, uvedených v přehledu literatury a nabízí sedm hledisek hodnocení pro každou zařazenou knihovnu. Knihovny byly do výzkumu zařazeny po sesbírání dat z anonymního pracovního prostředí. Zůčastnilo se 77 různých respondentů přes vybrané dotazovací nástroje. Je popsán jejich přínos pro uživatele, který se rozhoduje tyto knihovny využít, nebo mezi nimi volí. Samotné závěry jsou z dat vyvozeny v diskuzi, kde autor srovnává situační využití všech zkoumaných nástrojů. Všechny knihovny, až na nástroj „DeepPavlov“, který byl vyřazen kvůli nedostatečnému vzorku nasbíraných odpovědí, jsou součástí finální analýzy. Vzestupně od nejméně po nejvíce bodů jsou knihovny seřazeny následovně: PyTorch, NLTK, PYNLPl, SpaCy, ChatterBot.
Keywords: NLP; knihovny; PyTorch; Python; SpaCy; PyNLPl; NLTK; ChatterBot; Programování
Thesis title: Analysis of Python libraries for NLP application development
Author: Janeček, Antonio
Thesis type: Diploma thesis
Supervisor: Vencovský, Filip
Opponents: Bruckner, Tomáš
Thesis language: Česky
Abstract:
Python, as a tool for NLP processing, has many libraries that handle various tasks in their own way. They have different qualities, advantages and disadvantages. This work analyzes the mentioned qualities using a criteria scheme, designed using data collected from the addressed experts. The structure of the scheme draws on the sources listed in the literature review and offers seven evaluation aspects for each library included. Libraries were included in the research after collecting data from an anonymous work environment. 77 different respondents participated through selected survey tools. It describes their benefits for the user who decides to use these libraries or chooses between them. The conclusions themselves are drawn from the data in a discussion, where the author compares the situational use of all the tools examined. All libraries, except for the "DeepPavlov" tool, which was discarded due to an insufficient sample of collected responses, are part of the final analysis. Ascending from least to most points, the libraries are sorted as follows: PyTorch, NLTK, PYNLP1, SpaCy, ChatterBot.
Keywords: NLP; libraries; SpaCy; PyNLPl; Programming; NLTK; Python; ChatterBot; PyTorch

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 9. 2020
Date of submission: 4. 12. 2022
Date of defense: 25. 1. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/76028/podrobnosti

Files for download

    Last update: