Applying AI for Text Extraction from Documents and Its Integration into a Credit Analysis Application

Thesis title: Applying AI for Text Extraction from Documents and Its Integration into a Credit Analysis Application
Author: Harník, Martin
Thesis type: Diploma thesis
Supervisor: Karkošková, Soňa
Opponents: Potančok, Martin
Thesis language: English
Abstract:
This thesis explores the use of artificial intelligence for automating data extraction from unstructured financial documents, with a focus on credit analysis reports in the banking sector. Credit analysts routinely produce detailed reports when evaluating loan applications, but the information contained in these documents is rarely reused due to a lack of structured integration. To address this inefficiency, the thesis develops and validates a proof-of-concept pipeline that extracts both structured and unstructured data from PDF documents and integrates it into a centralized SQL database that powers a credit analysis application. The solution combines Azure OpenAI GPT-4 Omni for processing free-text narratives with Azure AI Document Intelligence for extracting structured data. The thesis follows the CRISP-DM methodology and is contextualized using the three-axis maturity framework, which evaluates the organization’s readiness across analytics, data, and IT dimensions. The implementation is iteratively refined based on feedback from credit analysts, ensuring alignment with real-world workflows. The results demonstrate the feasibility and business value of integrating cognitive AI into document-heavy processes and lay the foundation for future expansion of AI capabilities within the bank’s credit risk management systems.
Keywords: Azure AI Document Intelligence; Document processing; GPT-4 Omni; SQL; Data extraction
Thesis title: Použití umělé inteligence pro extrakci textu z dokumentů a jeho integraci do aplikace pro úvěrovou analýzu
Author: Harník, Martin
Thesis type: Diplomová práce
Supervisor: Karkošková, Soňa
Opponents: Potančok, Martin
Thesis language: English
Abstract:
Diplomová práce se zabývá využitím umělé inteligence k automatizaci extrakce dat z nestrukturovaných finančních dokumentů, se zaměřením na úvěrové analýzy v bankovním sektoru. Úvěroví analytici běžně vytvářejí podrobné zprávy při posuzování žádostí o úvěr, avšak informace obsažené v těchto dokumentech se kvůli absenci strukturované integrace jen zřídka dále využívají. Práce se proto snaží vytvořit prototyp systému, který extrahuje jak strukturovaná, tak nestrukturovaná data z PDF dokumentů a integruje je do centralizované SQL databáze, nad kterou běží samotná aplikace. Řešení kombinuje Azure OpenAI GPT-4 Omni pro zpracování textu a Azure AI Document Intelligence pro extrakci strukturovaných dat. Diplomová práce se řídí metodologií CRISP-DM a je zasazená do kontextu pomocí tříosé maturity frameworku, který hodnotí připravenost organizace v oblastech analytiky, dat a IT. Implementace je postupně vylepšována na základě zpětné vazby od úvěrových analytiků, aby bylo zajištěno sladění s reálnými pracovními procesy. Výsledky ukazují, že nasazení kognitivní umělé inteligence do procesů zpracování dokumentů je proveditelné a přináší hodnotu, a zároveň otevírají cestu k dalšímu rozvoji AI v systémech řízení úvěrového rizika banky.
Keywords: Zpracování dokumentů; SQL; GPT-4 Omni; Azure AI Document Intelligence; Data extraction

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 14. 11. 2024
Date of submission: 4. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: