Umělá inteligence v hudebním průmyslu: vytváření a analýza hudby
Autor(ka) práce:
Vinogradova, Veronika
Typ práce:
Diplomová práce
Vedoucí práce:
Chudán, David
Oponenti práce:
Vondra, Zdeněk
Jazyk práce:
Česky
Abstrakt:
Práce se věnuje vývoji a experimentálnímu ověření neurosymbolického systému pro generátor-agnostickou detekci hudby generované umělou inteligencí. Centrální hypotézou je, že syntetické hudební skladby vykazují statisticky zachytitelné odchylky od zákonitostí přechodů mezi diskrétními akusticko-harmonickými primitivy odvozených z reálné hudby - a to i tehdy, jsou-li percepčně přesvědčivé. Je navržena čtyřfázová pipeline: (I) taktově synchronní segmentace a extrakce chromatogramu Chroma-CQT
Klíčová slova:
neurosymbolická detekce; umělá inteligence; hudba
Název práce:
Artificial Intelligence in the Music Industry: Music Generation and Analysis
Autor(ka) práce:
Vinogradova, Veronika
Typ práce:
Diploma thesis
Vedoucí práce:
Chudán, David
Oponenti práce:
Vondra, Zdeněk
Jazyk práce:
Česky
Abstrakt:
This thesis develops and experimentally validates a neurosymbolic system for generator-agnostic detection of AI-generated music. The central hypothesis is that synthetic musical compositions exhibit statistically detectable deviations from the transition patterns between discrete acoustico-harmonic primitives derived from real music - even when they are perceptually convincing. A four-stage pipeline is proposed: (I) beat-synchronous segmentation with Chroma-CQT extraction; (II) discretization via VQ-VAE (van den Oord et al., 2017); (III) symbolic classification of anomalous transitions using the Limiter Matrix; (IV) autoregressive perplexity evaluation via Transformer (Vaswani et al., 2017). An integral Humanity Index is derived from first principles as a composite measure of a track's conformity with the distribution of human music. The system was trained exclusively on real music from the FMA corpus (Defferrard et al., 2017; 91,902 tracks, 1.25 million tokens) and tested on an independent sample of 198 external human tracks and 107 AI tracks from FakeMusicCaps (Comanducci et al., 2024). An AUC of 0.720–0.733 was achieved with a 95% bootstrap confidence interval of [0.683; 0.761]. The median perplexity of AI tracks is 2.86× higher than that of human tracks; the proportion of suspicious AI tracks (H < 80) is 5.3× higher. The false alarm rate is 2.2% at the H < 50 threshold. The key contribution is interpretability: each verdict is decomposed into four auditable levels - scalar H, component decomposition, anomalous transition log, and temporal perplexity profile - making the system compliant with EU AI Act (2024) traceability requirements.