Párování uchazečů a veřejných zakázek pomocí propojených otevřených dat

Název práce: Matchmaking of bidders and public contracts using linked open data
Autor(ka) práce: Mynarz, Jindřich
Typ práce: Dissertation thesis
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Kučera, Jan; Skuhrovec, Jiří; Vitvar, Tomáš; Heitmann, Benjamin
Jazyk práce: English
Abstrakt:
Matchmaking searches the space of possible pairs of demands and offers and ranks them according to the degree to which the offer satisfies the demand. We demonstrate how two generic approaches, namely case-based reasoning and statistical relational learning, can be applied to matchmaking of public contracts to bidders. Both adaptations use a combination of logical and statistical reasoning for matchmaking in comparable, semi-structured, and semantically described data. We designed and implemented a novel method using case-based reasoning for matchmaking via SPARQL, an RDF query language. It employs a similarity-based search that learns from past awarded contracts, which are treated as experiences of solved problems. In the context of statistical relational learning, we adopted RESCAL, an algorithm for factorization of multi-relational tensor data that leverages collective learning for link prediction. In both approaches our key contributions involve feature selection, feature construction, and tuning the configuration of the matchmakers.We apply the matchmakers to a collection of linked open government data centered on the Czech public procurement dataset. We chose public procurement as our application domain since it provides explicit demands available as structured open data thanks to the proactive disclosure of public procurement notices that is mandated by law. The pervasive large-scale passive waste caused by the inefficiencies in public procurement motivates our research in matchmaking to serve better resource allocation. We integrated the Czech public procurement dataset with other government data, such as business registers or controlled vocabularies. The data preparation required an extensive effort in building complex ETL pipelines, both since the public procurement data is fraught with numerous data quality issues and also due to the heterogeneity of the combined datasets. We used linked open data as a framework for data integration, building on the technological standards included in the semantic web stack. We addressed the key challenges posed by the data by designing and implementing techniques for linking and data fusion. As part of the data preparation we tested and integrated existing software based on the semantic web technologies, as well as developed reusable open-source tools for pre-processing RDF data.We evaluated the matchmakers on the task of predicting the winning bidders of contracts by using retrospective data on contract awards spanning ten years. We compared the impact of the factors involved in matchmaking, such as using query expansion or reducing the volume of data, through the metrics of accuracy and diversity. Data quality and volume manifested to be the fundamental factors that affect matchmaking, in many cases trumping the sophistication of matchmaking algorithms. We found the SPARQL-based approach clearly superior to the RESCAL-based one, especially in terms of diversity metrics and its runtime characteristics. While most features turned out to be noise, the features from controlled vocabularies that describe public contracts or bidders were identified as the most informative for matchmaking. For each approach the best-performing matchmakers combined features from multiple datasets, highlighting the value of contextual data from the linked datasets.
Klíčová slova: matchmaking; linked data; open data; public procurement
Název práce: Párování uchazečů a veřejných zakázek pomocí propojených otevřených dat
Autor(ka) práce: Mynarz, Jindřich
Typ práce: Disertační práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Kučera, Jan; Skuhrovec, Jiří; Vitvar, Tomáš; Heitmann, Benjamin
Jazyk práce: English
Abstrakt:
Párování prohledává možné páry nabídky a poptávky, které řadí dle míry, s jakou nabídka vyhovuje poptávce. Tato práce demonstruje, jak lze dva obecné postupy, jmenovitě případové usuzování a statistické relační učení, použít pro párování veřejných zakázek a uchazečů o zakázky. V obou případech párování využívá jak logické, tak statistické usuzování operující ve vzájemně porovnatelných, polo-strukturovaných a sémanticky popsaných datech. Na základech případového usuzování jsme navrhli novou metodu párování implementovanou pomocí dotazovacího jazyka SPARQL pro data ve formátu RDF. Metoda využívá podobnostní vyhledávání učící se z dříve udělených zakázek, které interpretuje jako zkušenosti vyřešených problémů. Pro párování vycházející ze statistického relačního učení jsme převzali RESCAL, což je algoritmus pro faktorizaci multi-relačních tenzorů využívající kolektivní učení pro predikci vazeb. Náš přínos v obou přístupech zahrnuje zejména výběr a tvorbu příznaků a také ladění parametrů párování.Metody párování jsme aplikovali na soubor propojených otevřených dat veřejné správy, jehož ústředním prvkem je Věstník veřejných zakázek. Doménu veřejných zakázek jsme zvolili, protože poskytuje explicitně popsané poptávky, které jsou díky zákonem vyžadovanému proaktivnímu zveřejňování oznámení o veřejných zakázkách dostupné v podobě otevřených a strukturovaných dat. Náš výzkum je motivován rozsáhlým pasivním plýtváním ve veřejných zakázkách, které má párování šanci zmírnit návrhy efektivnější alokace veřejných prostředků. Věstník veřejných zakázek jsme pro účely párování integrovali s dalšími daty veřejné správy, jako jsou číselníky nebo rejstříky právních osob. Příprava dat si vyžádala rozsáhlé úsilí při budování komplexních ETL procesů, jednak z důvodu mnoha problémů kvality dat o veřejných zakázkách, ale také kvůli nesourodosti kombinovaných datových sad. Jako rámec datové integrace jsme využili propojená otevřená data, která staví na technologických standardech sémantického webu. Řešení klíčových problémů dat zahrnovalo především návrh a implementaci technik pro propojování a fúzi dat. V průběhu přípravy dat jsme otestovali a integrovali dostupný software založený na technologiích sémantického webu, ale také vyvinuli přepoužitelné nástroje pro předzpracování dat ve formátu RDF.Evaluaci metod párování jsme provedli na úloze predikce vítězných uchazečů o zakázky v retrospektivních datech o zakázkách udělených během doby 10 let. Evaluací metrik přesnosti a diverzity jsme vyhodnotili přínos dílčích faktorů ovlivňujících párování, jako je například expanze dotazů nebo objem dat pro strojové učení. Kvalita a rozsah vstupních dat se projevily jako zásadní faktory rozhodující o úspěšnosti párování. Párování využívající SPARQL ve všech ohledech jednoznačně překonalo přístup založený na algoritmu RESCAL, a to zejména s ohledem na diverzitu výsledků a náročnost výpočtu. Na rozdíl od většiny využitých příznaků, které se projevily jako šum, se příznaky z řízených slovníků popisujících zakázky nebo uchazeče ukázaly pro párování jako podstatně informativnější. Na hodnotu propojených dat poukázaly nejlepší výsledky u obou přístupů, které byly dosaženy párováním kombinujícím příznaky z více datových zdrojů.
Klíčová slova: párování; propojená data; otevřená data; veřejné zakázky

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 31. 1. 2013
Datum podání práce: 18. 10. 2017
Datum obhajoby: 25. 1. 2018
Identifikátor v systému InSIS: https://insis.vse.cz/zp/41178/podrobnosti

Soubory ke stažení

    Poslední aktualizace: