Možnosti automatizovaného získávání dat z veřejně dostupných zdrojů
Název práce: | Možnosti automatizovaného získávání dat z veřejně dostupných zdrojů |
---|---|
Autor(ka) práce: | Jelínek, Martin |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Maryška, Miloš |
Oponenti práce: | Pavlíčková, Jarmila |
Jazyk práce: | Česky |
Abstrakt: | Teoretická část této práce se zabývá možnostmi automatického získávání dat z různých zdrojů. Je zde popsán proces zpracování těchto dat od nástrojů, které umožňují potřebná data z daných zdrojů extrahovat, přes technologie, které lze použít pro ukládání získaných dat, až po postupy a technologie, které je možné využít při následném zpracování získaných dat a tvorbě analýz z těchto dat. Konkrétně se tedy tato část práce věnuje zejména popisu různých typů databází, nebo data mimingu a některým typům analýz. Praktická část této práce je věnována vytvoření aplikace pro automatické stahování článků ze zpravodajských serverů. Aplikace umožňuje stažení článků ze zvolených zpravodajských serverů, jejich naparsování a uložení textu článku do souboru a doplňujících informací do databáze. Smyslem aplikace je zejména sběr dat, která jsou zpracována pro další použití. Vytvořená aplikace umožňuje uživatelům vyhledávat ve stažených článcích pomocí klíčových slov, vytvářet skupiny témat a sledovat např. vývoj situace k danému tématu v čase. Hlavní motivací je archivace starších článků a doplňujících informací k nim, jelikož články na zpravodajských serverech se neustále mění. Díky tomu by po určité době bylo možné takto získaná data podrobit různých analýzám. |
Klíčová slova: | vyhledávání článků; data mining; databáze; automatické zpracování dat; zpravodajské servery |
Název práce: | The possibilities of automated extraction of data from publicly available sources |
---|---|
Autor(ka) práce: | Jelínek, Martin |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Maryška, Miloš |
Oponenti práce: | Pavlíčková, Jarmila |
Jazyk práce: | Česky |
Abstrakt: | The theoretical part of this work describes some options that can be used to retrieve data from different information sources. It also discusses the possibility of automatic data processing and tools and technologies that can be used to do this. Mainly technologies which can be used to store acquired data and to analyze them. This includes description of different types of databases or data mining methods. The practical part of this work is devoted to the creation of an application for automatic downloading of articles from news sites. The application allows you to download articles from selected news sites, and save parsed article text into a file and additional information to the database. The purpose of the application is mainly collecting data that can be used for further analysis . The application allows searching in downloaded articles using keywords, create topic groups from articles and monitor articles history. This allows for example to monitor possible differences between articles whitch belongs to the same topic and were downloaded from different news sites or to monitor progress in some topic. Another motivation is archiving of old articles for further analysis, because the articles on news sites are constantly changing. |
Klíčová slova: | automatic data processing; news servers; publications search; data mining; databases |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 1. 2. 2012 |
---|---|
Datum podání práce: | 30. 6. 2012 |
Datum obhajoby: | 6. 2. 2013 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/36754/podrobnosti |