Empirical comparison of free software suites for knowledge discovery from data

Thesis title: Empirické porovnání volně dostupných systémů dobývání znalostí z databází
Author: Kasík, Josef
Thesis type: Diplomová práce
Supervisor: Berka, Petr
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
Tématem a cílem práce je srovnání volně dostupných systémů k dobývání znalostí z databází. Předmětem srovnání je šest konkrétních aplikací vyvíjených v rámci univerzitních projektů jako experimentální nástroje v oblasti data miningu i jako prostředky pro výukové účely. Kritéria srovnání jsou odvozena ze čtyř obecných pohledů, dle kterých je na jednotlivé systémy nahlíženo. Každý z nich je hodnocen jako nástroj k řešení reálných úloh dobývání, nástroj podporující fáze metodiky CRISP-DM, nástroj schopný praktického nasazení na konkrétních datech a také jako běžný softwarový systém. Z těchto pohledů vyplývá 31 dílčích kritérií srovnání, jejichž ohodnocení bylo stanoveno důkladným rozborem všech systémů. Výsledky komparace potvrdily předpokládanou skutečnost. Nejlépe dopadl program Weka, který vyniká především množstvím dostupných metod strojového učení, bohatými nástroji k předzpracování dat a rychlostí zpracování.
Keywords: kritéria srovnání; porovnání; srovnání; dobývání znalostí; sady k dobývání znalostí; systémy k dobývání znalostí; data mining
Thesis title: Empirical comparison of free software suites for knowledge discovery from data
Author: Kasík, Josef
Thesis type: Diploma thesis
Supervisor: Berka, Petr
Opponents: Rauch, Jan
Thesis language: Česky
Abstract:
Both topic and main objective of the diploma thesis is a comparison of free data mining suites. Subjects of comparison are six particular applications developed under university projects as experimental tools for data mining and mediums for educational purposes. Criteria of the comparison are derived from four general aspects that form the base for further analyses. Each system is evaluated as a tool for handling real-time data mining tasks, a tool supporting various phases of the CRISP-DM methodology, a tool capable of practical employment on certain data and as a common software system. These aspects bring 31 particular criteria for comparison, evaluation of whose was determined by thorough analysis of each system. The results of comparison confirmed the anticipated assumption. As the best tool the Weka data mining suite was evaluated. The main advantages of Weka are high number of machine learning algorithms, numerous data preparation tools and speed of processing.
Keywords: criteria; software suites; knowledge discovery from data; comparison; data mining

Information about study

Study programme: Aplikovaná informatika/Znalostní technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 11. 2. 2009
Date of submission: 11. 5. 2009
Date of defense: 2. 9. 2009
Identifier in the InSIS system: https://insis.vse.cz/zp/18718/podrobnosti

Files for download

    Last update: