Classification of electronic documents using cluster analysis

Thesis title: Klasifikace elektronických dokumentů s využitím shlukové analýzy
Author: Ševčík, Radim
Thesis type: Diplomová práce
Supervisor: Řezanková, Hana
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
Současná doba je charakteristická nebývalým kumulováním informací, ať už co do množství, tak i komplexity. Většina z nich je dostupná v digitální formě a lze je analyzovat pomocí metod shlukové analýzy. Na kolekci 20 Newsgroups jsme se pokusili klasifikovat elektronické dokumenty na základě obsahu. Cílem bylo hodnotit dostupné shlukovací metody v širokém spektru aplikací. Po transformaci do binární vektorové reprezentace jsme provedli řadu experimentů a sledovali hodnoty ukazatelů entropie, čistoty a doby provádění v aplikaci CLUTO. Pro menší počet shluků si nejlépe vedla metoda přímá (obecně nehierarchická), pro větší metoda opakované bisekce (divizivní). Aglomerativní přístup nebyl úspěšný. Modelováním jsme určili optimální počet shluků na 10. Pro toto řešení jsme do detailu rozebrali vlastnosti jednotlivých shluků při použití metody opakované bisekce a kriteriální funkce i2. V budoucnu by bylo vhodné se zaměřit na možnost realizace binárního shlukování pomocí některého dostupného programovacího jazyka, jako je např. Perl nebo C++. Závěry práce by mohly najít uplatnění mezi webovými vývojáři vyhledávačů nebo správci elektronických katalogů.
Keywords: získávání informací; shluková analýza; klasifikace; binární data typu dokument-vlastnost; shlukování dokumentů
Thesis title: Classification of electronic documents using cluster analysis
Author: Ševčík, Radim
Thesis type: Diploma thesis
Supervisor: Řezanková, Hana
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
The current age is characterised by unprecedented information growth, whether it is by amount or complexity. Most of it is available in digital form so we can analyze it using cluster analysis. We have tried to classify the documents from 20 Newsgroups collection in terms of their content only. The aim was to asses available clustering methods in a variety of applications. After the transformation into binary vector representation we performed several experiments and measured the values of entropy, purity and time of execution in application CLUTO. For a small number of clusters the best results offered the direct method (generally hierarchical method), but for more it was the repeated bisection (divisive). Agglomerative method proved not to be suitable. Using simulation we estimated the optimal number of clusters to be 10. For this solution we described in detail features of each cluster using repeated bisection method and i2 criterion function. In the future focus should be set on realisation of binary clustering with advantage of programming languages like Perl or C++. Results of this work might be of interest to web search engine developers and electronic catalogue administrators.
Keywords: document-term binary data; document clustering; information retrieval; clustering methods; classification

Information about study

Study programme: Kvantitativní metody v ekonomice/Statisticko-pojistné inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 7. 11. 2009
Date of submission: 20. 5. 2010
Date of defense: 10. 6. 2010
Identifier in the InSIS system: https://insis.vse.cz/zp/22758/podrobnosti

Files for download

    Last update: