Inovace data miningového backendu pro systém EasyMiner
| Název práce: | Inovace data miningového backendu pro systém EasyMiner |
|---|---|
| Autor(ka) práce: | Sückr, Radim |
| Typ práce: | Diplomová práce |
| Vedoucí práce: | Vojíř, Stanislav |
| Oponenti práce: | Zeman, Václav |
| Jazyk práce: | Česky |
| Abstrakt: | Tato diplomová práce se zabývá modernizací data miningového backendu pro systém EasyMiner prostřednictvím reimplementace jeho tří klíčových služeb – datové, preprocessingové a dolovací – z jazyka Scala do jazyka Python. Původní implementace trpěla značným technologickým dluhem, který prakticky znemožňoval její sestavení, údržbu i další rozvoj. Nový backend je postaven na frameworku FastAPI pro webovou API vrstvu, systému Celery pro asynchronní zpracování úloh a knihovně pyARC pro dolování asociačních pravidel s podporou CBA pruningu. Výkonnostní testování na devíti datasetech různé velikosti a komplexity prokázalo, že nová implementace dosahuje srovnatelného nebo lepšího výkonu – na datasetu KDD Cup 99 se doba zpracování celé pipeline zkrátila z 49 minut na 18 minut. Systém je plně kontejnerizován pomocí Dockeru a orchestrován prostřednictvím Docker Compose a Kubernetes (Helm), což umožňuje flexibilní nasazení a horizontální škálování. |
| Klíčová slova: | Python; backend; reimplementace; dolování dat; asociační pravidla; EasyMiner |
| Název práce: | Innovations in the data mining backend for the EasyMiner system |
|---|---|
| Autor(ka) práce: | Sückr, Radim |
| Typ práce: | Diploma thesis |
| Vedoucí práce: | Vojíř, Stanislav |
| Oponenti práce: | Zeman, Václav |
| Jazyk práce: | Česky |
| Abstrakt: | This thesis addresses the modernization of the data mining backend for the EasyMiner system by reimplementing its three core services – data, preprocessing, and mining – from Scala to Python. The original implementation suffered from significant technical debt, making it nearly impossible to build, maintain, or extend. The new backend is built on FastAPI for the web API layer, Celery for asynchronous task processing, and the pyARC library for association rule mining with CBA pruning support. Performance testing on nine datasets of varying size and complexity demonstrated that the Python implementation achieves comparable or better performance than the original, with the most significant improvement on large datasets – processing time for the KDD Cup 99 dataset was reduced from 49 minutes to 18 minutes. The system is fully containerized using Docker and orchestrated via Docker Compose and Kubernetes (Helm), enabling flexible deployment and horizontal scaling. |
| Klíčová slova: | data mining; association rules; EasyMiner; Python; backend; reimplementation |
Informace o studiu
| Studijní program / obor: | Znalostní a webové technologie |
|---|---|
| Typ studijního programu: | Magisterský studijní program |
| Přidělovaná hodnost: | Ing. |
| Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
| Fakulta: | Fakulta informatiky a statistiky |
| Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
| Datum zadání práce: | 15. 11. 2023 |
|---|---|
| Datum podání práce: | 3. 5. 2026 |
| Datum obhajoby: | 8. 6. 2026 |
| Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86545/podrobnosti |