Statistické metody ve stylometrii

Název práce: Statistické metody ve stylometrii
Autor(ka) práce: Dupal, Pavel
Typ práce: Diplomová práce
Vedoucí práce: Kaspříková, Nikola
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
Cílem této práce je podat přehled nejpoužívanějších metod v odvětví identifikace autorského stylu (stylometrii). Úvodem je zrekapitulována historie tohoto oboru od konce 19. století do současnosti a je uvedena a vysvětlena potřebná terminologie z oblasti dolování znalostí z textu. Následuje představení několika vybraných metod z oblasti vícerozměrné statistiky (např. metoda hlavních komponent, shluková analýza) a strojového učení (Support Vector Machines, Naive Bayes) a jejich aplikace na stylometrické problémy, včetně několika metod vytvořených specificky pro použití v této oblasti (bootstrap consensus tree, kontrastní analýza). Nakonec jsou tyto metody aplikovány na praktický příklad verifikace autorství založeném na korpusu sestaveném z děl čtyř internetových spisovatelů.
Klíčová slova: verifikace autorství; dolování znalostí z textu; R; vícerozměrná statistika; stylometrie; předzpracování textu
Název práce: Statistical methods in stylometry
Autor(ka) práce: Dupal, Pavel
Typ práce: Diploma thesis
Vedoucí práce: Kaspříková, Nikola
Oponenti práce: Šulc, Zdeněk
Jazyk práce: Česky
Abstrakt:
The aim of this thesis is to provide an overview of some of the commonly used methods in the area of authorship attribution (stylometry). The text begins with a recap of history from the end of the 19th century to present time and the required terminology from the field of text mining is presented and explained. What follows is a list of selected methods from the field of multidimensional statistics (principal components analysis, cluster analysis) and machine learning (Support Vector Machines, Naive Bayes) and their application as pertains to stylometrical problems, including several methods created specifically for use in this field (bootstrap consensus tree, contrast analysis). Finally these same methods are applied to a practical problem of authorship verification based on a corpus bulit from the works of four internet writers.
Klíčová slova: text preprocessing; text mining; stylometry; authorship verification; R; multidimensional statistics

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra matematiky

Informace o odevzdání a obhajobě

Datum zadání práce: 19. 2. 2017
Datum podání práce: 1. 6. 2017
Datum obhajoby: 8. 6. 2017
Identifikátor v systému InSIS: https://insis.vse.cz/zp/60842/podrobnosti

Soubory ke stažení

    Poslední aktualizace: