Plagiarism in Text Documents: Methods of Plagiarism
Thesis title: | Plagiátorství v textových dokumentech: Metody odhalování plagiátů |
---|---|
Author: | Opička, Jan |
Thesis type: | Bakalářská práce |
Supervisor: | Přibil, Jiří |
Opponents: | Novák, Michal |
Thesis language: | Česky |
Abstract: | Tato bakalářská práce se zabývá oblastí detekce plagiátů mezi dokumenty v rozsáhlých dokumentových skladech. Dnes dříve než kdy v minulosti je problematika plagiátorství obzvláště palčivá. Přispívá k tomu snadná dostupnost informací v digitální formě. K prosazení autorských práv a potírání plagiátorství je třeba navrhnout takový systém, který dokáže plagiáty mezi dokumenty spolehlivě rozpoznat. Aplikace takovéhoto systému se obzvláště nabízí k použití v akademické sféře jak pro kontrolu studentských závěrečných prací, tak i seminárních prací. Hlavní pozornost je věnována hledání plagiátů v českém a slovenském jazyce. Na začátku jsou vymezeny základní pojmy a představeny základní problémy, které musí systém pro odhalování plagiátů vyřešit. Systémy pro detekci plagiátů jsou v této práci klasifikovány a jejich jednotlivé komponenty jsou podrobně analyzovány. Teoretický rozbor komponent je doplněn o experimentálně získané informace a doporučení. Hlavní pozornost je věnována extrakci textové informace z dokumentů, standardizaci dokumentu a hledání vhodné vnitřní formy pro reprezentaci dokumentu. V poslední kapitole jsou diskutovány a porovnávány jednotlivé metody a algoritmy, které lze využít při výpočtu indexu shody mezi dvěma dokumenty. Značná pozornost je také věnována výkonnostnímu hledisku celého systému. Hlavním přínosem práce je analýza využití slovních bigramů oproti delším n-gramům. Dále je diskutován možný přínos informace o větném členění v dokumentu pro detekci plagiátu. |
Keywords: | zpracování přirozeného textu; větné členění; slovní zásoba; n-gramy; tokenizace; plagiátorství |
Thesis title: | Plagiarism in Text Documents: Methods of Plagiarism |
---|---|
Author: | Opička, Jan |
Thesis type: | Bachelor thesis |
Supervisor: | Přibil, Jiří |
Opponents: | Novák, Michal |
Thesis language: | Česky |
Abstract: | This thesis is devoted to detection of plagiarism among documents in large document databases. The problem of detection of plagiarism is more appealing today than ever. Easy accessibility of documents in digital form contributes to this problem. To enforce author rights and wipe out plagiarism it is necessary to project such system that will be able to distinguish plagiarism among documents with certainty. Such system is valuable help in academic field, where it can be used for controlling of student's final thesis and seminary works. Main attention is devoted to searching of plagiarism in Czech and Slovak language. Basic definitions of plagiarism are defined in the first part of this thesis as well as basic problems, which this system must address. Systems for detection of plagiarism are classified in this thesis and their individual components are carefully analyzed. Theoretical analysis of these components is followed by experimentally gained information and recommendations. Main attention is devoted to extraction of text information from the documents, document standardisation and search for best fitting inner form of documents. In the last chapter methods and algorithms, which can be used for calculating of match index between two documents, are discussed and compared with each other. Considerable effort is devoted to system performance. The main contribution of this thesis is the comparison of usage of word bigrams with longer n-grams. Also the possible contribution of information about sentence division of the document is analysed and presented. |
Keywords: | sentence division; word supply; n-grams; tokenisation; natural text processing; plagiarism |
Information about study
Study programme: | Ekonomika a management/Management |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Management |
Department: | Department of Exact Methods |
Information on submission and defense
Date of assignment: | 6. 12. 2012 |
---|---|
Date of submission: | 21. 8. 2013 |
Date of defense: | 29. 8. 2013 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/40590/podrobnosti |