Plagiarism in Text Documents: Methods of Plagiarism

Thesis title: Plagiátorství v textových dokumentech: Metody odhalování plagiátů
Author: Opička, Jan
Thesis type: Bakalářská práce
Supervisor: Přibil, Jiří
Opponents: Novák, Michal
Thesis language: Česky
Abstract:
Tato bakalářská práce se zabývá oblastí detekce plagiátů mezi dokumenty v rozsáhlých dokumentových skladech. Dnes dříve než kdy v minulosti je problematika plagiátorství obzvláště palčivá. Přispívá k tomu snadná dostupnost informací v digitální formě. K prosazení autorských práv a potírání plagiátorství je třeba navrhnout takový systém, který dokáže plagiáty mezi dokumenty spolehlivě rozpoznat. Aplikace takovéhoto systému se obzvláště nabízí k použití v akademické sféře jak pro kontrolu studentských závěrečných prací, tak i seminárních prací. Hlavní pozornost je věnována hledání plagiátů v českém a slovenském jazyce. Na začátku jsou vymezeny základní pojmy a představeny základní problémy, které musí systém pro odhalování plagiátů vyřešit. Systémy pro detekci plagiátů jsou v této práci klasifikovány a jejich jednotlivé komponenty jsou podrobně analyzovány. Teoretický rozbor komponent je doplněn o experimentálně získané informace a doporučení. Hlavní pozornost je věnována extrakci textové informace z dokumentů, standardizaci dokumentu a hledání vhodné vnitřní formy pro reprezentaci dokumentu. V poslední kapitole jsou diskutovány a porovnávány jednotlivé metody a algoritmy, které lze využít při výpočtu indexu shody mezi dvěma dokumenty. Značná pozornost je také věnována výkonnostnímu hledisku celého systému. Hlavním přínosem práce je analýza využití slovních bigramů oproti delším n-gramům. Dále je diskutován možný přínos informace o větném členění v dokumentu pro detekci plagiátu.
Keywords: zpracování přirozeného textu; větné členění; slovní zásoba; n-gramy; tokenizace; plagiátorství
Thesis title: Plagiarism in Text Documents: Methods of Plagiarism
Author: Opička, Jan
Thesis type: Bachelor thesis
Supervisor: Přibil, Jiří
Opponents: Novák, Michal
Thesis language: Česky
Abstract:
This thesis is devoted to detection of plagiarism among documents in large document databases. The problem of detection of plagiarism is more appealing today than ever. Easy accessibility of documents in digital form contributes to this problem. To enforce author rights and wipe out plagiarism it is necessary to project such system that will be able to distinguish plagiarism among documents with certainty. Such system is valuable help in academic field, where it can be used for controlling of student's final thesis and seminary works. Main attention is devoted to searching of plagiarism in Czech and Slovak language. Basic definitions of plagiarism are defined in the first part of this thesis as well as basic problems, which this system must address. Systems for detection of plagiarism are classified in this thesis and their individual components are carefully analyzed. Theoretical analysis of these components is followed by experimentally gained information and recommendations. Main attention is devoted to extraction of text information from the documents, document standardisation and search for best fitting inner form of documents. In the last chapter methods and algorithms, which can be used for calculating of match index between two documents, are discussed and compared with each other. Considerable effort is devoted to system performance. The main contribution of this thesis is the comparison of usage of word bigrams with longer n-grams. Also the possible contribution of information about sentence division of the document is analysed and presented.
Keywords: sentence division; word supply; n-grams; tokenisation; natural text processing; plagiarism

Information about study

Study programme: Ekonomika a management/Management
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Management
Department: Department of Exact Methods

Information on submission and defense

Date of assignment: 6. 12. 2012
Date of submission: 21. 8. 2013
Date of defense: 29. 8. 2013
Identifier in the InSIS system: https://insis.vse.cz/zp/40590/podrobnosti

Files for download

    Last update: