Mapping of PMML and BKEF documents using PHP in the SEWEBAR CMS

Thesis title: Mapování PMML a BKEF dokumentů v projektu SEWEBAR-CMS
Author: Vojíř, Stanislav
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Zamazal, Ondřej
Thesis language: Česky
Abstract:
V průběhu dataminingového procesu jsou nezbytné fáze porozumnění datům a následná předpříprava datové matice pro samotné dolování. Je nutné zvolit způsob práce (seskupování, řezy) s kontinuálními atributy atp. Tato přípravná fáze by měla být postavena na znalostech získaných od expertů na danou problémovou oblast. V projektu SEWEBAR jsou prostřednictvím speciálního editoru získávány doménové znalosti expertů, které jsou poté ukládány do vlastního formátu BKEF (založeného na XML) do databáze CMS Joomla!. Většina dataminingových nástrojů zároveň umožňuje ukládat výsledky své činnosti (vytvořené modely) do standardizovaného formátu PMML. Pro další zpracování je potřeba konkrétní atributy z PMML souboru na metaatributy v souboru BKEF. Toto mapování je řešeno algoritmy, které předkládají uživateli automaticky vytvářené návrhy namapování jak na úrovni konkrétních (meta)atributů, tak i jejich hodnot. Tento specifický mapovací problém je řešen aplikací vytvořenou v jazyce PHP, která je integrována v podobě komponenty do CMS Joomla!. Pro otestování úspěšnosti automatizace návrhu správných mapování byla zvolena testovací data o kur-zech vyučovaných na pěti amerických univerzitách z Illinois Semantic Integration Archive. Na těchto datech dosahuje automatizovaný proces návrhu vhodného mapování na úrovni (meta)atributů při prvním mapování přesnosti 70% a úplnosti 77%. Pokud však již byla daná data namapována dříve, pak je díky implmenentovanému modulu pro strojové učení na základě předchozích správných namapování dosahována úplnost cca 90-100%.
Keywords: PMML; mapování; XML; BKEF; datamining
Thesis title: Mapping of PMML and BKEF documents using PHP in the SEWEBAR CMS
Author: Vojíř, Stanislav
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Zamazal, Ondřej
Thesis language: Česky
Abstract:
In the data mining process, it is necessary to prepare the source dataset - for example, to select the cutting or grouping of continuous data attributes etc. and use the knowledge from the problem area. Such a preparation process can be guided by background (domain) knowledge obtained from experts. In the SEWEBAR project, we collect the knowledge from experts in a rich XML-based representation language, called BKEF, using a dedicated editor, and save into the database of our custom-tailored (Joomla!-based) CMS system. Data mining tools are then able to generate, from this dataset, mining models represented in the standardized PMML format. It is then necessary to map a particular column (attribute) from the dataset (in PMML) to a relevant 'metaattribute' of the BKEF representation. This specific type of schema mapping problem is addressed in my thesis in terms of algorithms for automatic suggestion of mapping of columns to metaattributes and from values of these columns to BKEF 'metafields'. Manual corrections of this mapping by the user are also supported. The implementation is based on the PHP language and then it was tested on datasets with information about courses taught in 5 universities in the U.S.A. from Illinois Semantic Integration Archive. On this datasets, the auto-mapping suggestion process archieved the precision about 70% and recall about 77% on unknown columns, but when mapping the previously user-mapped data (using implemented learning module), the recall is between 90% and 100%.
Keywords: PMML; BKEF; mapping; schema matching

Information about study

Study programme: Aplikovaná informatika/Znalostní technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 22. 3. 2010
Date of submission: 5. 5. 2011
Date of defense: 9. 6. 2011
Identifier in the InSIS system: https://insis.vse.cz/zp/25853/podrobnosti

Files for download

    Last update: