Thesis title: |
Applying AI for Text Extraction from Documents and Its Integration into a Credit Analysis Application |
Author: |
Harník, Martin |
Thesis type: |
Diploma thesis |
Supervisor: |
Karkošková, Soňa |
Opponents: |
Potančok, Martin |
Thesis language: |
English |
Abstract: |
This thesis explores the use of artificial intelligence for automating data extraction from unstructured financial documents, with a focus on credit analysis reports in the banking sector. Credit analysts routinely produce detailed reports when evaluating loan applications, but the information contained in these documents is rarely reused due to a lack of structured integration. To address this inefficiency, the thesis develops and validates a proof-of-concept pipeline that extracts both structured and unstructured data from PDF documents and integrates it into a centralized SQL database that powers a credit analysis application. The solution combines Azure OpenAI GPT-4 Omni for processing free-text narratives with Azure AI Document Intelligence for extracting structured data. The thesis follows the CRISP-DM methodology and is contextualized using the three-axis maturity framework, which evaluates the organization’s readiness across analytics, data, and IT dimensions. The implementation is iteratively refined based on feedback from credit analysts, ensuring alignment with real-world workflows. The results demonstrate the feasibility and business value of integrating cognitive AI into document-heavy processes and lay the foundation for future expansion of AI capabilities within the bank’s credit risk management systems. |
Keywords: |
Azure AI Document Intelligence; Document processing; GPT-4 Omni; SQL; Data extraction |
Thesis title: |
Použití umělé inteligence pro extrakci textu z dokumentů a jeho integraci do aplikace pro úvěrovou analýzu |
Author: |
Harník, Martin |
Thesis type: |
Diplomová práce |
Supervisor: |
Karkošková, Soňa |
Opponents: |
Potančok, Martin |
Thesis language: |
English |
Abstract: |
Diplomová práce se zabývá využitím umělé inteligence k automatizaci extrakce dat z nestrukturovaných finančních dokumentů, se zaměřením na úvěrové analýzy v bankovním sektoru. Úvěroví analytici běžně vytvářejí podrobné zprávy při posuzování žádostí o úvěr, avšak informace obsažené v těchto dokumentech se kvůli absenci strukturované integrace jen zřídka dále využívají. Práce se proto snaží vytvořit prototyp systému, který extrahuje jak strukturovaná, tak nestrukturovaná data z PDF dokumentů a integruje je do centralizované SQL databáze, nad kterou běží samotná aplikace. Řešení kombinuje Azure OpenAI GPT-4 Omni pro zpracování textu a Azure AI Document Intelligence pro extrakci strukturovaných dat. Diplomová práce se řídí metodologií CRISP-DM a je zasazená do kontextu pomocí tříosé maturity frameworku, který hodnotí připravenost organizace v oblastech analytiky, dat a IT. Implementace je postupně vylepšována na základě zpětné vazby od úvěrových analytiků, aby bylo zajištěno sladění s reálnými pracovními procesy. Výsledky ukazují, že nasazení kognitivní umělé inteligence do procesů zpracování dokumentů je proveditelné a přináší hodnotu, a zároveň otevírají cestu k dalšímu rozvoji AI v systémech řízení úvěrového rizika banky. |
Keywords: |
Zpracování dokumentů; SQL; GPT-4 Omni; Azure AI Document Intelligence; Data extraction |
Information about study
Study programme: |
Data a analytika pro business |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information Technologies |
Information on submission and defense
Date of assignment: |
14. 11. 2024 |
Date of submission: |
4. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.