Data Quality of Unstructured Data
Thesis title: | Data Quality of Unstructured Data |
---|---|
Author: | Liashchuk, Hanna |
Thesis type: | Bachelor thesis |
Supervisor: | Matějka, Martin |
Opponents: | Novotný, Ota |
Thesis language: | English |
Abstract: | This bachelor thesis is focused on considering data quality concerning unstructured data. The data structure or its storage do not determine data quality. In general, the purpose of data quality management is to provide a user with data in a format appropriate for their further processing and evaluation. Many literary sources describe how to measure and maintain data quality. There is a variety of software to support this activity. Most data quality problems are analyzed concerning structured data, although most of the information in organizations occurs in the unstructured format, such as documents, emails, and messages. The thesis applies findings to unstructured data, suggests an approach to data quality evaluation for unstructured data. The goals of the thesis are to describe the concept of data quality briefly and to define the term unstructured data. To specify data quality dimensions and ways to measure them. To apply the most relevant dimensions to unstructured data and suggest approach how to measure them. The final goal is to create a program that will be analyzing unstructured textual data.The primary method used to fulfill the goals is literary research. The thesis evaluates and compares opinions of experts, results of professional researchers and view of research companies.The main contribution of this work is the proposal of a method to measure unstructured data quality, application and evaluation efficiency of already defined dimensions from the perspective of unstructured data. As a result of the research and applying gained knowledge on a practical case, a data quality analyzing tool is created to work with unstructured textual data. The tool was tested on a set of emails, to improve its functionality and bring value. |
Keywords: | data quality; dimension; unstructured data |
Thesis title: | Datová kvalita nestrukturovaných dat |
---|---|
Author: | Liashchuk, Hanna |
Thesis type: | Bakalářská práce |
Supervisor: | Matějka, Martin |
Opponents: | Novotný, Ota |
Thesis language: | English |
Abstract: | Bakalářská práce je zaměřena na zohlednění problematiky datové kvality z hlediska nestrukturovaných dat. Datová kvalita není dána strukturou dat nebo jejich uložením. Obecně účelem řízení datové kvality je poskytování uživateli data ve formátu vhodném pro jejich další zpracování a vyhodnocení. Ve mnoha literárních zdrojích je popsáno jak měřit a udržovat kvalitu dat, existují různé softwary na podporu této činnosti. Většinou datová kvalita je rozebíraná z hlediska strukturovaných dat, i když většina informaci v organizacích je obsazena ve formátu nestrukturovaném, např. dokumenty, emaily, zprávy. Práce aplikuje nalezené poznatky na nestrukturovaná data, navrhuje přístup k hodnocení datové kvality u nestrukturovaných dat.Cílem práce je stručně popsat pojem datová kvalita a vymezit pojem nestrukturovaná data. Popsat dimenze datové kvality a způsoby její měření, zhodnotit je z hlediska nestrukturovaných dat. Navrhnout přístup k ohodnocení datové kvality pro textové dokumenty.Hlavni metodikou použitou při psáni práce je literární rešerše. Zhodnocuje se a porovnává názor odborníků, uvádí se výsledky profesionálních výzkumů a názor výzkumných společností.Hlavním přínosem práce je návrh způsobů měření kvality nestrukturovaných dat, aplikování a zhodnocení účelnosti již definovaných dimenzí z pohledu nestrukturovaných dat. Jako jiný přínos této práce se da považovat vytvořeny nastroj na analýzu nestrukturovaných dat. Konkrétně nastroj se zabývá analýzou emailu pro účely zefektivnění práce studijního oddělení. |
Keywords: | datová kvalita; dimenze; nestrukturovaná data |
Information about study
Study programme: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 1. 2. 2018 |
---|---|
Date of submission: | 30. 4. 2018 |
Date of defense: | 15. 6. 2018 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/65116/podrobnosti |