Application of methods for harmonizing biomedical data sources for machine learning purposes

Thesis title: Aplikace metod harmonizace biomedicínských datových zdrojů pro účely strojového učení
Author: Jašurek, Urban
Thesis type: Bakalářská práce
Supervisor: Jeršova, Julija
Opponents: Hrudková, Kateřina
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá problematikou harmonizace heterogenních biomedicínských dat pocházejících z nositelných zařízení (wearables). Hlavním cílem je návrh a implementace automatizované pipeline, která sjednocuje data z platforem Apple Health a Garmin do standardizované Master Table, využitelné pro následnou zdravotní analytiku. Práce srovnává tradiční přístup založený na expertních pravidlech s moderními metodami strojového učení využívajícími sémantické embeddingy. V rámci experimentální části byla provedena analýza selhání pravidlového systému při zpraco- vání lokalizovaných českých dat, kde docházelo k sémantickým kolizím u klíčových slov. Jako řešení byl implementován klasifikátor Random Forest v kombinaci s multilinguálním modelem Sentence-Transformers, který dosáhl F1-score 86,09% na augmentovaných trénovacích datech. Výsledná pipeline prokazuje vysokou robustnost při sjednocování nekonzistentních názvů atributů a jednotek. Práce rovněž diskutuje propojení navrženého řešení s mezinárodním standardem HL7 FHIR, čímž vytváří technologický most mezi fitness daty a klinickými informačními systémy.
Keywords: Harmonizace dat; Wearables; Strojové učení; Sémantické embedding; HL7 FHIR; Python; Biomedicínská data
Thesis title: Application of methods for harmonizing biomedical data sources for machine learning purposes
Author: Jašurek, Urban
Thesis type: Bachelor thesis
Supervisor: Jeršova, Julija
Opponents: Hrudková, Kateřina
Thesis language: Česky
Abstract:
This bachelor thesis addresses the challenges of harmonizing heterogeneous biomedical data originating from wearable devices. The primary objective is to design and implement an automated pipeline that unifies data from Apple Health and Garmin platforms into a stan- dardized Master Table suitable for subsequent healthcare analytics. The study compares a traditional expert-rule-based approach with modern machine learning methods utilizing semantic embeddings. The experimental section analyzes the failures of the rule-based system when processing localized Czech data, where semantic collisions occurred among keywords. To resolve this, a Random Forest classifier was implemented in combination with a multilingual Sentence- Transformers model, achieving an F1-score of 86.09%. The resulting pipeline demonstrates high robustness in unifying inconsistent attribute names and units. Furthermore, the thesis discusses the alignment of the proposed solution with the international HL7 FHIR standard, creating a technological bridge between fitness data and clinical information systems.
Keywords: Machine Learning; Python; Wearables; Data Harmonization; Biomedical Data; Semantic Embeddings; HL7 FHIR

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 6. 11. 2025
Date of submission: 9. 5. 2026
Date of defense: 23. 6. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/94376/podrobnosti

Files for download

    Last update: