Aplikace metod harmonizace biomedicínských datových zdrojů pro účely strojového učení
| Název práce: | Aplikace metod harmonizace biomedicínských datových zdrojů pro účely strojového učení |
|---|---|
| Autor(ka) práce: | Jašurek, Urban |
| Typ práce: | Bakalářská práce |
| Vedoucí práce: | Jeršova, Julija |
| Oponenti práce: | Hrudková, Kateřina |
| Jazyk práce: | Česky |
| Abstrakt: | Tato bakalářská práce se zabývá problematikou harmonizace heterogenních biomedicínských dat pocházejících z nositelných zařízení (wearables). Hlavním cílem je návrh a implementace automatizované pipeline, která sjednocuje data z platforem Apple Health a Garmin do standardizované Master Table, využitelné pro následnou zdravotní analytiku. Práce srovnává tradiční přístup založený na expertních pravidlech s moderními metodami strojového učení využívajícími sémantické embeddingy. V rámci experimentální části byla provedena analýza selhání pravidlového systému při zpraco- vání lokalizovaných českých dat, kde docházelo k sémantickým kolizím u klíčových slov. Jako řešení byl implementován klasifikátor Random Forest v kombinaci s multilinguálním modelem Sentence-Transformers, který dosáhl F1-score 86,09% na augmentovaných trénovacích datech. Výsledná pipeline prokazuje vysokou robustnost při sjednocování nekonzistentních názvů atributů a jednotek. Práce rovněž diskutuje propojení navrženého řešení s mezinárodním standardem HL7 FHIR, čímž vytváří technologický most mezi fitness daty a klinickými informačními systémy. |
| Klíčová slova: | Harmonizace dat; Wearables; Strojové učení; Sémantické embedding; HL7 FHIR; Python; Biomedicínská data |
| Název práce: | Application of methods for harmonizing biomedical data sources for machine learning purposes |
|---|---|
| Autor(ka) práce: | Jašurek, Urban |
| Typ práce: | Bachelor thesis |
| Vedoucí práce: | Jeršova, Julija |
| Oponenti práce: | Hrudková, Kateřina |
| Jazyk práce: | Česky |
| Abstrakt: | This bachelor thesis addresses the challenges of harmonizing heterogeneous biomedical data originating from wearable devices. The primary objective is to design and implement an automated pipeline that unifies data from Apple Health and Garmin platforms into a stan- dardized Master Table suitable for subsequent healthcare analytics. The study compares a traditional expert-rule-based approach with modern machine learning methods utilizing semantic embeddings. The experimental section analyzes the failures of the rule-based system when processing localized Czech data, where semantic collisions occurred among keywords. To resolve this, a Random Forest classifier was implemented in combination with a multilingual Sentence- Transformers model, achieving an F1-score of 86.09%. The resulting pipeline demonstrates high robustness in unifying inconsistent attribute names and units. Furthermore, the thesis discusses the alignment of the proposed solution with the international HL7 FHIR standard, creating a technological bridge between fitness data and clinical information systems. |
| Klíčová slova: | Machine Learning; Python; Wearables; Data Harmonization; Biomedical Data; Semantic Embeddings; HL7 FHIR |
Informace o studiu
| Studijní program / obor: | Aplikovaná informatika |
|---|---|
| Typ studijního programu: | Bakalářský studijní program |
| Přidělovaná hodnost: | Bc. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 6. 11. 2025 |
|---|---|
| Datum podání práce: | 9. 5. 2026 |
| Datum obhajoby: | 23. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/94376/podrobnosti |