Matchmaking of bidders and public contracts using linked open data

Thesis title: Matchmaking of bidders and public contracts using linked open data
Author: Mynarz, Jindřich
Thesis type: Dissertation thesis
Supervisor: Svátek, Vojtěch
Opponents: Kučera, Jan; Skuhrovec, Jiří; Vitvar, Tomáš; Heitmann, Benjamin
Thesis language: English
Abstract:
Matchmaking searches the space of possible pairs of demands and offers and ranks them according to the degree to which the offer satisfies the demand. We demonstrate how two generic approaches, namely case-based reasoning and statistical relational learning, can be applied to matchmaking of public contracts to bidders. Both adaptations use a combination of logical and statistical reasoning for matchmaking in comparable, semi-structured, and semantically described data. We designed and implemented a novel method using case-based reasoning for matchmaking via SPARQL, an RDF query language. It employs a similarity-based search that learns from past awarded contracts, which are treated as experiences of solved problems. In the context of statistical relational learning, we adopted RESCAL, an algorithm for factorization of multi-relational tensor data that leverages collective learning for link prediction. In both approaches our key contributions involve feature selection, feature construction, and tuning the configuration of the matchmakers.We apply the matchmakers to a collection of linked open government data centered on the Czech public procurement dataset. We chose public procurement as our application domain since it provides explicit demands available as structured open data thanks to the proactive disclosure of public procurement notices that is mandated by law. The pervasive large-scale passive waste caused by the inefficiencies in public procurement motivates our research in matchmaking to serve better resource allocation. We integrated the Czech public procurement dataset with other government data, such as business registers or controlled vocabularies. The data preparation required an extensive effort in building complex ETL pipelines, both since the public procurement data is fraught with numerous data quality issues and also due to the heterogeneity of the combined datasets. We used linked open data as a framework for data integration, building on the technological standards included in the semantic web stack. We addressed the key challenges posed by the data by designing and implementing techniques for linking and data fusion. As part of the data preparation we tested and integrated existing software based on the semantic web technologies, as well as developed reusable open-source tools for pre-processing RDF data.We evaluated the matchmakers on the task of predicting the winning bidders of contracts by using retrospective data on contract awards spanning ten years. We compared the impact of the factors involved in matchmaking, such as using query expansion or reducing the volume of data, through the metrics of accuracy and diversity. Data quality and volume manifested to be the fundamental factors that affect matchmaking, in many cases trumping the sophistication of matchmaking algorithms. We found the SPARQL-based approach clearly superior to the RESCAL-based one, especially in terms of diversity metrics and its runtime characteristics. While most features turned out to be noise, the features from controlled vocabularies that describe public contracts or bidders were identified as the most informative for matchmaking. For each approach the best-performing matchmakers combined features from multiple datasets, highlighting the value of contextual data from the linked datasets.
Keywords: matchmaking; linked data; open data; public procurement
Thesis title: Párování uchazečů a veřejných zakázek pomocí propojených otevřených dat
Author: Mynarz, Jindřich
Thesis type: Disertační práce
Supervisor: Svátek, Vojtěch
Opponents: Kučera, Jan; Skuhrovec, Jiří; Vitvar, Tomáš; Heitmann, Benjamin
Thesis language: English
Abstract:
Párování prohledává možné páry nabídky a poptávky, které řadí dle míry, s jakou nabídka vyhovuje poptávce. Tato práce demonstruje, jak lze dva obecné postupy, jmenovitě případové usuzování a statistické relační učení, použít pro párování veřejných zakázek a uchazečů o zakázky. V obou případech párování využívá jak logické, tak statistické usuzování operující ve vzájemně porovnatelných, polo-strukturovaných a sémanticky popsaných datech. Na základech případového usuzování jsme navrhli novou metodu párování implementovanou pomocí dotazovacího jazyka SPARQL pro data ve formátu RDF. Metoda využívá podobnostní vyhledávání učící se z dříve udělených zakázek, které interpretuje jako zkušenosti vyřešených problémů. Pro párování vycházející ze statistického relačního učení jsme převzali RESCAL, což je algoritmus pro faktorizaci multi-relačních tenzorů využívající kolektivní učení pro predikci vazeb. Náš přínos v obou přístupech zahrnuje zejména výběr a tvorbu příznaků a také ladění parametrů párování.Metody párování jsme aplikovali na soubor propojených otevřených dat veřejné správy, jehož ústředním prvkem je Věstník veřejných zakázek. Doménu veřejných zakázek jsme zvolili, protože poskytuje explicitně popsané poptávky, které jsou díky zákonem vyžadovanému proaktivnímu zveřejňování oznámení o veřejných zakázkách dostupné v podobě otevřených a strukturovaných dat. Náš výzkum je motivován rozsáhlým pasivním plýtváním ve veřejných zakázkách, které má párování šanci zmírnit návrhy efektivnější alokace veřejných prostředků. Věstník veřejných zakázek jsme pro účely párování integrovali s dalšími daty veřejné správy, jako jsou číselníky nebo rejstříky právních osob. Příprava dat si vyžádala rozsáhlé úsilí při budování komplexních ETL procesů, jednak z důvodu mnoha problémů kvality dat o veřejných zakázkách, ale také kvůli nesourodosti kombinovaných datových sad. Jako rámec datové integrace jsme využili propojená otevřená data, která staví na technologických standardech sémantického webu. Řešení klíčových problémů dat zahrnovalo především návrh a implementaci technik pro propojování a fúzi dat. V průběhu přípravy dat jsme otestovali a integrovali dostupný software založený na technologiích sémantického webu, ale také vyvinuli přepoužitelné nástroje pro předzpracování dat ve formátu RDF.Evaluaci metod párování jsme provedli na úloze predikce vítězných uchazečů o zakázky v retrospektivních datech o zakázkách udělených během doby 10 let. Evaluací metrik přesnosti a diverzity jsme vyhodnotili přínos dílčích faktorů ovlivňujících párování, jako je například expanze dotazů nebo objem dat pro strojové učení. Kvalita a rozsah vstupních dat se projevily jako zásadní faktory rozhodující o úspěšnosti párování. Párování využívající SPARQL ve všech ohledech jednoznačně překonalo přístup založený na algoritmu RESCAL, a to zejména s ohledem na diverzitu výsledků a náročnost výpočtu. Na rozdíl od většiny využitých příznaků, které se projevily jako šum, se příznaky z řízených slovníků popisujících zakázky nebo uchazeče ukázaly pro párování jako podstatně informativnější. Na hodnotu propojených dat poukázaly nejlepší výsledky u obou přístupů, které byly dosaženy párováním kombinujícím příznaky z více datových zdrojů.
Keywords: párování; propojená data; otevřená data; veřejné zakázky

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 31. 1. 2013
Date of submission: 18. 10. 2017
Date of defense: 25. 1. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/41178/podrobnosti

Files for download

    Last update: