В настоящее время наблюдается рост объема данных в формате аудиозаписей, с которыми достаточно сложно работать из-за большого количества дубликатов, зашумленных или обрезанных записей. В статье рассматривается один из вариантов решения проблемы поиска нечетких дубликатов аудиозаписей в больших массивах данных. Предлагаемое решение основано на использовании каскадного ансамбля моделей для определения нечетких дубликатов. Для извлечения признаков, анализа временных параметров и оценки сходства между записями использовались сверточные нейронные сети (CNN, Convolutional Neural Networks), сети временных сдвигов (TSN, Temporal Shift Networks), а также сиамские нейронные сети. Аудиоданные, подаваемые
в модели, предварительно преобразовывались в ряд спектрограмм, созданных с помощью алгоритма кратковременного преобразования Фурье (STFT, Short-Time Fourier Transform).
Каждая аудиозапись нарезлась с заданной частотой дискретизации, преобразовывалась с использованием STFT и передавалась в ансамбль моделей. Основное внимание в работе уделено исследованию поведения ансамбля при работе с аудиозаписями, подвергнутыми различным изменениям, таким как зашумление, искажение или обрезка. Эксперименты, проведенные на наборе данных, продемонстрировали высокую степень корреляции между результатами, полученными группой людей, и результатами, выданными ансамблем моделей, что подтверждает эффективность предложенного подхода. Ансамбль моделей показал высокую устойчивость
к различным видам модификаций аудиоданных, таким как изменение темпа, добавление шума и обрезка записей. Дальнейшие исследования могут быть направлены на адаптацию ансамбля
к различным типам данных, включая видео- и графические записи, что позволит расширить область применения предложенного метода.
1. Copy and move detection in audio recordings using dynamic time warping algorithm / K. Mannepalli, P. Krishna, K. Krishna, K. rama Krishna // International Journal of Innovative Technology and Exploring Engineering. – 2019. – Vol. 9. – P. 2244–2249. – DOI: 10.35940/ijitee.B6678.129219.
2. Маленко С.А. Увеличение производительности алгоритмов поиска дубликатов аудиозаписей // Молодой ученый. – 2017. – № 49 (183). – С. 22–26. – URL: https://moluch.ru/archive/183/47026/ (дата обращения: 08.09.2025).
3. Ryynanen M., Klapuri A. Query by humming of MIDI and audio using locality sensitive hashing // Proceedings of the 2008 IEEE International Conference on Acoustics, Speech, and Signal Processing. – IEEE, 2008. – P. 2249–2252. – DOI: 10.1109/ICASSP.2008.4518093.
4. Булавин Д.А., Харитонов И.А. Анализ методов распознавания и преобразования аудиоинформации в ноты // Автоматизированные системы управления и приборы автоматики. – 2011. – № 152 (2). – С. 56–63. – URL: https://cyberleninka.ru/article/n/analiz-metodov-raspoznavaniya-i-preobrazovaniya-audioinformatsii-v-noty (дата обращения: 08.09.2025).
5. Новохрестова Д.И. Временная нормализация слогов алгоритмом динамической трансформации временной шкалы при оценке качества произнесения слогов // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2017. – Т. 20, № 4. – С. 142–145. – DOI: 10.21293/1818-0442-2017-20-4-142-145.
6. Wang Y., Lyu X. Yang S. Ocean observing time-series anomaly detection based on DTW-TRSAX method // The Journal of Supercomputing. – 2024. – Vol. 80. – P. 18679–18704. – DOI: 10.1007/s11227-024-06183-w.
7. Ustubioglu A., Ustubioglu B., Ulutas G. Mel spectrogram-based audio forgery detection using CNN // Signal, Image and Video Processing. – 2023. – Vol. 17. – P. 2211–2219. – DOI: 10.1007/s11760-022-02436-4.
8. 1D-CNN-based audio tampering detection using ENF signals / H. Zhao, Y. Ye, X. Shen, L. Liu // Scientific Reports. – 2024. – Vol. 14. – P. 11186. – DOI: 10.1038/s41598-024-60813-0.
9. Wang W., Lu Z. Few-shot bronze vessel classification via siamese fourier networks // Scientific Reports. – 2024. – Vol. 14. – P. 18011. – DOI: 10.1038/s41598-024-69272-z.
10. Lin Y.B., Bertasius G. Siamese vision transformers are scalable audio-visual learners // Lecture Notes in Computer Science. – 2025. – Vol. 15072. – P. 303–321. – DOI: 10.1007/978-3-031-72630-9_18.
11. Tzanetakis G., Cook P. Musical genre classification of audio signals // IEEE Transactions on Speech and Audio Processing. – 2002. – Vol. 10 (5). – P. 293–302. – DOI: 10.1109/TSA.2002.800560.
12. CNN architectures for large-scale audio classification / S. Hershey, S. Chaudhuri, D.P.W. Ellis, J.F. Gemmeke, A. Jansen, R.C. Moore, M. Plakal, D. Platt, R.A. Saurous, B. Seybold, M. Slaney, R.J. Weiss, K. Wilson // arXiv. – 2017. – URL: https://arxiv.org/abs/1609.09430 (accessed: 08.09.2025).
13. Ананьев А.С., Бутенко Д.В., Попов К.В. Моделирование процессов управления качеством продукции на основе имитационного моделирования // Инженерный вестник Дона. – 2012. – № 2. – URL: http://www.ivdon.ru/ru/magazine/archive/n2y2012/815 (дата обращения: 08.09.2025).
14. Бурцев А.Г., Мельников А.В. Численное моделирование и анализ спектра системы прерывающихся сигналов // Инженерный вестник Дона. – 2014. – № 2. – URL: http://www.ivdon.ru/ru/magazine/archive/n2y2014/2314 (дата обращения: 08.09.2025).
15. Кошелева Н.Н. Корреляционный анализ и его применение для подсчета ранговой корреляции Спирмена // Актуальные проблемы гуманитарных и естественных наук. – 2012. – № 5. – С. 23–26. – URL: https://cyberleninka.ru/article/n/korrelyatsionnyy-analiz-i-ego-primenenie-dlya-podscheta-rangovoy-korrelyatsii-spirmena (дата обращения: 08.09.2025).
Применение сверточных и сиамских нейронных сетей в задаче сравнения нечетких дубликатов аудиообъектов / Д.В. Левшин, Д.В. Быстряков, М.А. Скляров, А.В. Зубков // Системы анализа и обработки данных. – 2025. – № 3 (99). – С. 69–82. – DOI: 10.17212/2782-2001-2025- 3-69-82.
Levshin D.V., Bystryakov D.V., Sklyarov M.A., Zubkov A.V. Primenenie svertochnykh i siamskikh neironnykh setei v zadache sravneniya nechetkikh dublikatov audioob"ektov [The use of convolutional and siamese neural networks in the task of comparing fuzzy duplicates of audio objects]. Sistemy analiza i obrabotki dannykh = Data Analysis and Processing Systems, 2025, no. 3 (99), pp. 69–82. DOI: 10.17212/2782-2001-2025-3-69-82.