Application of methods for harmonizing biomedical data sources for machine learning purposes
| Thesis title: | Aplikace metod harmonizace biomedicínských datových zdrojů pro účely strojového učení |
|---|---|
| Author: | Jašurek, Urban |
| Thesis type: | Bakalářská práce |
| Supervisor: | Jeršova, Julija |
| Opponents: | Hrudková, Kateřina |
| Thesis language: | Česky |
| Abstract: | Tato bakalářská práce se zabývá problematikou harmonizace heterogenních biomedicínských dat pocházejících z nositelných zařízení (wearables). Hlavním cílem je návrh a implementace automatizované pipeline, která sjednocuje data z platforem Apple Health a Garmin do standardizované Master Table, využitelné pro následnou zdravotní analytiku. Práce srovnává tradiční přístup založený na expertních pravidlech s moderními metodami strojového učení využívajícími sémantické embeddingy. V rámci experimentální části byla provedena analýza selhání pravidlového systému při zpraco- vání lokalizovaných českých dat, kde docházelo k sémantickým kolizím u klíčových slov. Jako řešení byl implementován klasifikátor Random Forest v kombinaci s multilinguálním modelem Sentence-Transformers, který dosáhl F1-score 86,09% na augmentovaných trénovacích datech. Výsledná pipeline prokazuje vysokou robustnost při sjednocování nekonzistentních názvů atributů a jednotek. Práce rovněž diskutuje propojení navrženého řešení s mezinárodním standardem HL7 FHIR, čímž vytváří technologický most mezi fitness daty a klinickými informačními systémy. |
| Keywords: | Harmonizace dat; Wearables; Strojové učení; Sémantické embedding; HL7 FHIR; Python; Biomedicínská data |
| Thesis title: | Application of methods for harmonizing biomedical data sources for machine learning purposes |
|---|---|
| Author: | Jašurek, Urban |
| Thesis type: | Bachelor thesis |
| Supervisor: | Jeršova, Julija |
| Opponents: | Hrudková, Kateřina |
| Thesis language: | Česky |
| Abstract: | This bachelor thesis addresses the challenges of harmonizing heterogeneous biomedical data originating from wearable devices. The primary objective is to design and implement an automated pipeline that unifies data from Apple Health and Garmin platforms into a stan- dardized Master Table suitable for subsequent healthcare analytics. The study compares a traditional expert-rule-based approach with modern machine learning methods utilizing semantic embeddings. The experimental section analyzes the failures of the rule-based system when processing localized Czech data, where semantic collisions occurred among keywords. To resolve this, a Random Forest classifier was implemented in combination with a multilingual Sentence- Transformers model, achieving an F1-score of 86.09%. The resulting pipeline demonstrates high robustness in unifying inconsistent attribute names and units. Furthermore, the thesis discusses the alignment of the proposed solution with the international HL7 FHIR standard, creating a technological bridge between fitness data and clinical information systems. |
| Keywords: | Machine Learning; Python; Wearables; Data Harmonization; Biomedical Data; Semantic Embeddings; HL7 FHIR |
Information about study
| Study programme: | Aplikovaná informatika |
|---|---|
| Type of study programme: | Bakalářský studijní program |
| Assigned degree: | Bc. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
| Date of assignment: | 6. 11. 2025 |
|---|---|
| Date of submission: | 9. 5. 2026 |
| Date of defense: | 23. 6. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/94376/podrobnosti |