Možnosti automatizovaného získávání dat z veřejně dostupných zdrojů

Název práce: Možnosti automatizovaného získávání dat z veřejně dostupných zdrojů
Autor(ka) práce: Jelínek, Martin
Typ práce: Bakalářská práce
Vedoucí práce: Maryška, Miloš
Oponenti práce: Pavlíčková, Jarmila
Jazyk práce: Česky
Abstrakt:
Teoretická část této práce se zabývá možnostmi automatického získávání dat z různých zdrojů. Je zde popsán proces zpracování těchto dat od nástrojů, které umožňují potřebná data z daných zdrojů extrahovat, přes technologie, které lze použít pro ukládání získaných dat, až po postupy a technologie, které je možné využít při následném zpracování získaných dat a tvorbě analýz z těchto dat. Konkrétně se tedy tato část práce věnuje zejména popisu různých typů databází, nebo data mimingu a některým typům analýz. Praktická část této práce je věnována vytvoření aplikace pro automatické stahování článků ze zpravodajských serverů. Aplikace umožňuje stažení článků ze zvolených zpravodajských serverů, jejich naparsování a uložení textu článku do souboru a doplňujících informací do databáze. Smyslem aplikace je zejména sběr dat, která jsou zpracována pro další použití. Vytvořená aplikace umožňuje uživatelům vyhledávat ve stažených článcích pomocí klíčových slov, vytvářet skupiny témat a sledovat např. vývoj situace k danému tématu v čase. Hlavní motivací je archivace starších článků a doplňujících informací k nim, jelikož články na zpravodajských serverech se neustále mění. Díky tomu by po určité době bylo možné takto získaná data podrobit různých analýzám.
Klíčová slova: vyhledávání článků; data mining; databáze; automatické zpracování dat; zpravodajské servery
Název práce: The possibilities of automated extraction of data from publicly available sources
Autor(ka) práce: Jelínek, Martin
Typ práce: Bachelor thesis
Vedoucí práce: Maryška, Miloš
Oponenti práce: Pavlíčková, Jarmila
Jazyk práce: Česky
Abstrakt:
The theoretical part of this work describes some options that can be used to retrieve data from different information sources. It also discusses the possibility of automatic data processing and tools and technologies that can be used to do this. Mainly technologies which can be used to store acquired data and to analyze them. This includes description of different types of databases or data mining methods. The practical part of this work is devoted to the creation of an application for automatic downloading of articles from news sites. The application allows you to download articles from selected news sites, and save parsed article text into a file and additional information to the database. The purpose of the application is mainly collecting data that can be used for further analysis . The application allows searching in downloaded articles using keywords, create topic groups from articles and monitor articles history. This allows for example to monitor possible differences between articles whitch belongs to the same topic and were downloaded from different news sites or to monitor progress in some topic. Another motivation is archiving of old articles for further analysis, because the articles on news sites are constantly changing.
Klíčová slova: automatic data processing; news servers; publications search; data mining; databases

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 2. 2012
Datum podání práce: 30. 6. 2012
Datum obhajoby: 6. 2. 2013
Identifikátor v systému InSIS: https://insis.vse.cz/zp/36754/podrobnosti

Soubory ke stažení

    Poslední aktualizace: