The possibilities of automated extraction of data from publicly available sources
Thesis title: | Možnosti automatizovaného získávání dat z veřejně dostupných zdrojů |
---|---|
Author: | Jelínek, Martin |
Thesis type: | Bakalářská práce |
Supervisor: | Maryška, Miloš |
Opponents: | Pavlíčková, Jarmila |
Thesis language: | Česky |
Abstract: | Teoretická část této práce se zabývá možnostmi automatického získávání dat z různých zdrojů. Je zde popsán proces zpracování těchto dat od nástrojů, které umožňují potřebná data z daných zdrojů extrahovat, přes technologie, které lze použít pro ukládání získaných dat, až po postupy a technologie, které je možné využít při následném zpracování získaných dat a tvorbě analýz z těchto dat. Konkrétně se tedy tato část práce věnuje zejména popisu různých typů databází, nebo data mimingu a některým typům analýz. Praktická část této práce je věnována vytvoření aplikace pro automatické stahování článků ze zpravodajských serverů. Aplikace umožňuje stažení článků ze zvolených zpravodajských serverů, jejich naparsování a uložení textu článku do souboru a doplňujících informací do databáze. Smyslem aplikace je zejména sběr dat, která jsou zpracována pro další použití. Vytvořená aplikace umožňuje uživatelům vyhledávat ve stažených článcích pomocí klíčových slov, vytvářet skupiny témat a sledovat např. vývoj situace k danému tématu v čase. Hlavní motivací je archivace starších článků a doplňujících informací k nim, jelikož články na zpravodajských serverech se neustále mění. Díky tomu by po určité době bylo možné takto získaná data podrobit různých analýzám. |
Keywords: | vyhledávání článků; data mining; databáze; automatické zpracování dat; zpravodajské servery |
Thesis title: | The possibilities of automated extraction of data from publicly available sources |
---|---|
Author: | Jelínek, Martin |
Thesis type: | Bachelor thesis |
Supervisor: | Maryška, Miloš |
Opponents: | Pavlíčková, Jarmila |
Thesis language: | Česky |
Abstract: | The theoretical part of this work describes some options that can be used to retrieve data from different information sources. It also discusses the possibility of automatic data processing and tools and technologies that can be used to do this. Mainly technologies which can be used to store acquired data and to analyze them. This includes description of different types of databases or data mining methods. The practical part of this work is devoted to the creation of an application for automatic downloading of articles from news sites. The application allows you to download articles from selected news sites, and save parsed article text into a file and additional information to the database. The purpose of the application is mainly collecting data that can be used for further analysis . The application allows searching in downloaded articles using keywords, create topic groups from articles and monitor articles history. This allows for example to monitor possible differences between articles whitch belongs to the same topic and were downloaded from different news sites or to monitor progress in some topic. Another motivation is archiving of old articles for further analysis, because the articles on news sites are constantly changing. |
Keywords: | automatic data processing; news servers; publications search; data mining; databases |
Information about study
Study programme: | Aplikovaná informatika/Informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 1. 2. 2012 |
---|---|
Date of submission: | 30. 6. 2012 |
Date of defense: | 6. 2. 2013 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/36754/podrobnosti |