Data Quality of Unstructured Data

Thesis title: Data Quality of Unstructured Data
Author: Liashchuk, Hanna
Thesis type: Bachelor thesis
Supervisor: Matějka, Martin
Opponents: Novotný, Ota
Thesis language: English
Abstract:
This bachelor thesis is focused on considering data quality concerning unstructured data. The data structure or its storage do not determine data quality. In general, the purpose of data quality management is to provide a user with data in a format appropriate for their further processing and evaluation. Many literary sources describe how to measure and maintain data quality. There is a variety of software to support this activity. Most data quality problems are analyzed concerning structured data, although most of the information in organizations occurs in the unstructured format, such as documents, emails, and messages. The thesis applies findings to unstructured data, suggests an approach to data quality evaluation for unstructured data. The goals of the thesis are to describe the concept of data quality briefly and to define the term unstructured data. To specify data quality dimensions and ways to measure them. To apply the most relevant dimensions to unstructured data and suggest approach how to measure them. The final goal is to create a program that will be analyzing unstructured textual data.The primary method used to fulfill the goals is literary research. The thesis evaluates and compares opinions of experts, results of professional researchers and view of research companies.The main contribution of this work is the proposal of a method to measure unstructured data quality, application and evaluation efficiency of already defined dimensions from the perspective of unstructured data. As a result of the research and applying gained knowledge on a practical case, a data quality analyzing tool is created to work with unstructured textual data. The tool was tested on a set of emails, to improve its functionality and bring value.
Keywords: data quality; dimension; unstructured data
Thesis title: Datová kvalita nestrukturovaných dat
Author: Liashchuk, Hanna
Thesis type: Bakalářská práce
Supervisor: Matějka, Martin
Opponents: Novotný, Ota
Thesis language: English
Abstract:
Bakalářská práce je zaměřena na zohlednění problematiky datové kvality z hlediska nestrukturovaných dat. Datová kvalita není dána strukturou dat nebo jejich uložením. Obecně účelem řízení datové kvality je poskytování uživateli data ve formátu vhodném pro jejich další zpracování a vyhodnocení. Ve mnoha literárních zdrojích je popsáno jak měřit a udržovat kvalitu dat, existují různé softwary na podporu této činnosti. Většinou datová kvalita je rozebíraná z hlediska strukturovaných dat, i když většina informaci v organizacích je obsazena ve formátu nestrukturovaném, např. dokumenty, emaily, zprávy. Práce aplikuje nalezené poznatky na nestrukturovaná data, navrhuje přístup k hodnocení datové kvality u nestrukturovaných dat.Cílem práce je stručně popsat pojem datová kvalita a vymezit pojem nestrukturovaná data. Popsat dimenze datové kvality a způsoby její měření, zhodnotit je z hlediska nestrukturovaných dat. Navrhnout přístup k ohodnocení datové kvality pro textové dokumenty.Hlavni metodikou použitou při psáni práce je literární rešerše. Zhodnocuje se a porovnává názor odborníků, uvádí se výsledky profesionálních výzkumů a názor výzkumných společností.Hlavním přínosem práce je návrh způsobů měření kvality nestrukturovaných dat, aplikování a zhodnocení účelnosti již definovaných dimenzí z pohledu nestrukturovaných dat. Jako jiný přínos této práce se da považovat vytvořeny nastroj na analýzu nestrukturovaných dat. Konkrétně nastroj se zabývá analýzou emailu pro účely zefektivnění práce studijního oddělení.
Keywords: datová kvalita; dimenze; nestrukturovaná data

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 2. 2018
Date of submission: 30. 4. 2018
Date of defense: 15. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/65116/podrobnosti

Files for download

    Last update: