Data Quality Tools Benchmark
Thesis title: | Benchmark nástrojů pro řízení datové kvality |
---|---|
Author: | Černý, Jan |
Thesis type: | Diplomová práce |
Supervisor: | Pejčoch, David |
Opponents: | Máša, Petr |
Thesis language: | Česky |
Abstract: | Společnosti po celém světě stále více a více promrhávají své rozpočty v důsledku nekvalitních dat. Logicky, se zvyšujících se množstvím zpracovávaných informací roste i množství chyb v nich. Tato práce vysvětluje co je datová kvalita, příčiny vzniku chyb v datech, jejich důsledky i to jakým způsobem lze datovou kvalitu měřit. A pokud něco lze měřit, lze to i zlepšit. K tomu slouží nástroje pro řízení datové kvality. Trh s nástroji pro řízení datové kvality nabízí jak komerční, tak open-source řešení. Porovnáním nástroje DataCleaner (open-source) a DataFlux (komerční) na modelovém příkladu dle definovaných kritérií bylo v této práci dokázáno, že nástroje si mohou být rovné v oblasti profilace dat, obohacování a monitorování. Standardizaci a validaci zvládá lépe DataFlux. Deduplikace v DataCleaneru chybí, přestože byla výrobcem uváděna. Jednou z velkých překážek bránících firmám nákupu nástroje pro řízení datové kvality může být právě jeho vysoká cena. V tuto chvíli je již možné považovat DataCleaner za plnohodnotné levné řešení v oblasti profilace dat. Za podmínky, že společnost Human Inference doplní do DataCleaneru i deduplikaci dat, bude ho možné považovat za konkurenci v oblasti celého procesu řízení dat. |
Keywords: | porovnání; DataFlux; DataCleaner; benchmark; datová kvalita; nástroje pro řízení datové kvality |
Thesis title: | Data Quality Tools Benchmark |
---|---|
Author: | Černý, Jan |
Thesis type: | Diploma thesis |
Supervisor: | Pejčoch, David |
Opponents: | Máša, Petr |
Thesis language: | Česky |
Abstract: | Companies all around the world are wasting their funds due to the poor data quality. Rationally speaking as the volume of processed data increase, the volume of error data increase too. This diploma thesis explains what is it data quality about, what are the causes of data quality errors, the impact of poor data and the way it can be measured. If you can measure it, you can improve it. This is where data quality tools are used. There are vendors that offer commercial solutions and there are also vendors that offer open-source solutions of data quality tools. Comparing DataCleaner (open-source tool) with DataFlux (commercial tool) using defined criteria this diploma thesis proves that those two tools could be equal in terms of data profiling, data enhancement and data monitoring. DataFlux is slightly better in standardization and data validation. Data deduplication is not included in tested version of DataCleaner, although DataCleaner's vendor claimed it should be. One of the biggest obstacles why companies don't buy data quality tools could be its price. At this moment, it is possible to consider DataCleaner as an inexpensive solution for companies looking for data profiling tool. If Human Inference added data deduplication to DataCleaner, it could be also possible to consider it as an inexpensive solution covers whole data quality process. |
Keywords: | Data Quality; DataFlux; DataCleaner; Data Quality Tools; Comparison; Benchmark |
Information about study
Study programme: | Aplikovaná informatika/Znalostní technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 26. 12. 2013 |
---|---|
Date of submission: | 31. 5. 2014 |
Date of defense: | 9. 6. 2014 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/46010/podrobnosti |