Návrh a implementace řešení pro ukládání a zpracování genomických dat
Název práce: | Návrh a implementace řešení pro ukládání a zpracování genomických dat |
---|---|
Autor(ka) práce: | Holub, Ondřej |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Karkošková, Soňa |
Oponenti práce: | Potančok, Martin |
Jazyk práce: | Česky |
Abstrakt: | Pokroky ve výzkumu sekvenování DNA stimulují prudké snižování ceny sekvenování lidského genomu a související nárůst objemu a komplexity výstupních genomických dat. Tento dlouhodobý trend je hybatelem rapidní transformace odvětví biomedicíny s cílem generovaná data efektivně využívat ve výzkumu a klinické péči. Hlavním cílem této práce je navrhnout řešení pro transformaci, anotování a distribuované uložení dat popisujících DNA sekvence a genetické varianty a implementovat parametrizovatelné pohledy pro srovnávání uložených vzorků v kontextu odborných anotací. Hlavního cíle práce je dosaženo naplněním tří dílčích cílů. Prvním dílčím cílem je popsat technologická omezení související s anotováním a analýzou genomických dat a z nich vyplývající požadavky v kontextu aktuálního stavu genomiky a souvisejících bigdatových metod a technologií. Druhým dílčím cílem je navrhnout integraci frameworku Apache Spark s vybranými doménově specifickými softwarovými nástroji odpovídající definované množině požadavků na zpracování genomických dat. Posledním dílčím cílem je demonstrovat předzpracování vstupních datových souborů a implementovat doménovou logiku pokročilých parametrizovatelných pohledů na data. |
Klíčová slova: | big data; Apache Spark; bioinformatika; genomika; zdravotnictví |
Název práce: | Design and Implementation of a Genomic Data Storing and Processing Solution |
---|---|
Autor(ka) práce: | Holub, Ondřej |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Karkošková, Soňa |
Oponenti práce: | Potančok, Martin |
Jazyk práce: | Česky |
Abstrakt: | Advances in DNA sequencing research stimulate a steep cost reduction of human genome sequencing and an associated increase in the quantity and complexity of the output genomic data. This long-term trend drives rapid transformation in the field of biomedicine, aiming for the effective utilization of generated data in research and clinical care. The main objective of this thesis is to propose a solution for transforming and annotating data describing DNA sequences and genetic variants, as well as storing it in a distributed manner, and to implement parametrized data views enabling the comparison of stored samples in the context of expert annotations. The main objective is achieved by fulfilling three partial objectives. The first partial objective aims to describe technological limitations associated with annotating and analyzing genomic data as well as the arising requirements in the context of the present state of genomics and the associated big data methods and technologies. The second partial objective is to propose a draft integration of the Apache Spark framework and selected domain-specific software utilities, satisfying the defined set of requirements for genomic data processing. The final partial objective aims to demonstrate the pre-processing of input data files and to implement the domain logic of the advanced parameterized data views. |
Klíčová slova: | big data; Apache Spark; bioinformatics; genomics; healthcare |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 6. 9. 2018 |
---|---|
Datum podání práce: | 10. 12. 2018 |
Datum obhajoby: | 22. 1. 2019 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/66567/podrobnosti |