Comparison of text mining platforms

Thesis title: Srovnání platforem pro text mining
Author: Tran, Tuan Anh
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Sklenák, Vilém
Thesis language: Česky
Abstract:
Hlavním cílem této bakalářské práce je porovnat volně dostupné platformy pro text mining pomocí vícekriteriální analýzy a doporučit vybraný nástroj nebo nástroje dalším uživatelům, kteří se rozhodnou pracovat v této oblasti. Pro dosažení daného cíle je potřeba porozumět okruhu text miningu v širším kontextu, jak z hlediska teoretického, tak i historického. Teoretická část se zabývá definičním vymezením pojmu text mining, jeho historií od počátků až po budoucí vyhlídky. Následně jsou podrobně popsány aplikace a procesy text miningu. Praktická část začíná popisem výběru platforem, představením použitých datasetů, seznámením s metodou srovnání platforem, způsobem rozdělení a váhou kritérií. Následně jsou srovnány platformy za pomocí vybraných datasetů a kritérií.
Keywords: Dobývání z textu; RapidMiner; KNIME; IBM SPSS Modeler; Vícekriteriální kritéria
Thesis title: Comparison of text mining platforms
Author: Tran, Tuan Anh
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Sklenák, Vilém
Thesis language: Česky
Abstract:
The main objective of this bachelor thesis is to compare freely available text mining platforms using multi-criteria analysis and recommend the selected tool or tools to other users who decide to work in this field. To achieve this goal, it is necessary to understand the field of text mining in a broader context, both in terms of theory and history. In the theoretical part of the thesis, we have a definition of the term text mining, its historical origins to prospects. A detailed descriptions of the applications and processes of text mining are covered. The practical part of the thesis starts with a description of the selected platforms, introducing of the datasets used, introducing the method of comparing platforms, the distribution method and the weighting criteria used as well. Subsequently, the platforms were compared using the selected datasets and criteria.
Keywords: IBM SPSS Modeler; RapidMiner; KNIME; Text mining; Multicriteria Analysis

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 16. 9. 2021
Date of submission: 8. 5. 2023
Date of defense: 21. 6. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/77779/podrobnosti

Files for download

    Last update: