The possibilities of automated extraction of data from publicly available sources

Thesis title: Možnosti automatizovaného získávání dat z veřejně dostupných zdrojů
Author: Jelínek, Martin
Thesis type: Bakalářská práce
Supervisor: Maryška, Miloš
Opponents: Pavlíčková, Jarmila
Thesis language: Česky
Abstract:
Teoretická část této práce se zabývá možnostmi automatického získávání dat z různých zdrojů. Je zde popsán proces zpracování těchto dat od nástrojů, které umožňují potřebná data z daných zdrojů extrahovat, přes technologie, které lze použít pro ukládání získaných dat, až po postupy a technologie, které je možné využít při následném zpracování získaných dat a tvorbě analýz z těchto dat. Konkrétně se tedy tato část práce věnuje zejména popisu různých typů databází, nebo data mimingu a některým typům analýz. Praktická část této práce je věnována vytvoření aplikace pro automatické stahování článků ze zpravodajských serverů. Aplikace umožňuje stažení článků ze zvolených zpravodajských serverů, jejich naparsování a uložení textu článku do souboru a doplňujících informací do databáze. Smyslem aplikace je zejména sběr dat, která jsou zpracována pro další použití. Vytvořená aplikace umožňuje uživatelům vyhledávat ve stažených článcích pomocí klíčových slov, vytvářet skupiny témat a sledovat např. vývoj situace k danému tématu v čase. Hlavní motivací je archivace starších článků a doplňujících informací k nim, jelikož články na zpravodajských serverech se neustále mění. Díky tomu by po určité době bylo možné takto získaná data podrobit různých analýzám.
Keywords: vyhledávání článků; data mining; databáze; automatické zpracování dat; zpravodajské servery
Thesis title: The possibilities of automated extraction of data from publicly available sources
Author: Jelínek, Martin
Thesis type: Bachelor thesis
Supervisor: Maryška, Miloš
Opponents: Pavlíčková, Jarmila
Thesis language: Česky
Abstract:
The theoretical part of this work describes some options that can be used to retrieve data from different information sources. It also discusses the possibility of automatic data processing and tools and technologies that can be used to do this. Mainly technologies which can be used to store acquired data and to analyze them. This includes description of different types of databases or data mining methods. The practical part of this work is devoted to the creation of an application for automatic downloading of articles from news sites. The application allows you to download articles from selected news sites, and save parsed article text into a file and additional information to the database. The purpose of the application is mainly collecting data that can be used for further analysis . The application allows searching in downloaded articles using keywords, create topic groups from articles and monitor articles history. This allows for example to monitor possible differences between articles whitch belongs to the same topic and were downloaded from different news sites or to monitor progress in some topic. Another motivation is archiving of old articles for further analysis, because the articles on news sites are constantly changing.
Keywords: automatic data processing; news servers; publications search; data mining; databases

Information about study

Study programme: Aplikovaná informatika/Informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 2. 2012
Date of submission: 30. 6. 2012
Date of defense: 6. 2. 2013
Identifier in the InSIS system: https://insis.vse.cz/zp/36754/podrobnosti

Files for download

    Last update: