Aplikace metod harmonizace biomedicínských datových zdrojů pro účely strojového učení

Název práce: Aplikace metod harmonizace biomedicínských datových zdrojů pro účely strojového učení
Autor(ka) práce: Jašurek, Urban
Typ práce: Bakalářská práce
Vedoucí práce: Jeršova, Julija
Oponenti práce: Hrudková, Kateřina
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce se zabývá problematikou harmonizace heterogenních biomedicínských dat pocházejících z nositelných zařízení (wearables). Hlavním cílem je návrh a implementace automatizované pipeline, která sjednocuje data z platforem Apple Health a Garmin do standardizované Master Table, využitelné pro následnou zdravotní analytiku. Práce srovnává tradiční přístup založený na expertních pravidlech s moderními metodami strojového učení využívajícími sémantické embeddingy. V rámci experimentální části byla provedena analýza selhání pravidlového systému při zpraco- vání lokalizovaných českých dat, kde docházelo k sémantickým kolizím u klíčových slov. Jako řešení byl implementován klasifikátor Random Forest v kombinaci s multilinguálním modelem Sentence-Transformers, který dosáhl F1-score 86,09% na augmentovaných trénovacích datech. Výsledná pipeline prokazuje vysokou robustnost při sjednocování nekonzistentních názvů atributů a jednotek. Práce rovněž diskutuje propojení navrženého řešení s mezinárodním standardem HL7 FHIR, čímž vytváří technologický most mezi fitness daty a klinickými informačními systémy.
Klíčová slova: Harmonizace dat; Wearables; Strojové učení; Sémantické embedding; HL7 FHIR; Python; Biomedicínská data
Název práce: Application of methods for harmonizing biomedical data sources for machine learning purposes
Autor(ka) práce: Jašurek, Urban
Typ práce: Bachelor thesis
Vedoucí práce: Jeršova, Julija
Oponenti práce: Hrudková, Kateřina
Jazyk práce: Česky
Abstrakt:
This bachelor thesis addresses the challenges of harmonizing heterogeneous biomedical data originating from wearable devices. The primary objective is to design and implement an automated pipeline that unifies data from Apple Health and Garmin platforms into a stan- dardized Master Table suitable for subsequent healthcare analytics. The study compares a traditional expert-rule-based approach with modern machine learning methods utilizing semantic embeddings. The experimental section analyzes the failures of the rule-based system when processing localized Czech data, where semantic collisions occurred among keywords. To resolve this, a Random Forest classifier was implemented in combination with a multilingual Sentence- Transformers model, achieving an F1-score of 86.09%. The resulting pipeline demonstrates high robustness in unifying inconsistent attribute names and units. Furthermore, the thesis discusses the alignment of the proposed solution with the international HL7 FHIR standard, creating a technological bridge between fitness data and clinical information systems.
Klíčová slova: Machine Learning; Python; Wearables; Data Harmonization; Biomedical Data; Semantic Embeddings; HL7 FHIR

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 11. 2025
Datum podání práce: 9. 5. 2026
Datum obhajoby: 23. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/94376/podrobnosti

Soubory ke stažení

    Poslední aktualizace: