Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№3(99) Июль-Сентябрь 2025

Применение сверточных и сиамских нейронных сетей в задаче сравнения нечетких дубликатов аудиообъектов

Выпуск № 3 (99) Июль-Сентябрь 2025
Авторы:

Левшин Денис Витальевич ,
Скляров Михаил Александрович ,
Быстряков Даниил Владимирович ,
Зубков Александр Владимирович ,
DOI: http://dx.doi.org/10.17212/2782-2001-2025-3-69-82
Аннотация

В настоящее время наблюдается рост объема данных в формате аудиозаписей, с которыми достаточно сложно работать из-за большого количества дубликатов, зашумленных или обрезанных записей. В статье рассматривается один из вариантов решения проблемы поиска нечетких дубликатов аудиозаписей в больших массивах данных. Предлагаемое решение основано на использовании каскадного ансамбля моделей для определения нечетких дубликатов. Для извлечения признаков, анализа временных параметров и оценки сходства между записями использовались сверточные нейронные сети (CNN, Convolutional Neural Networks), сети временных сдвигов (TSN, Temporal Shift Networks), а также сиамские нейронные сети. Аудиоданные, подаваемые

в модели, предварительно преобразовывались в ряд спектрограмм, созданных с помощью алгоритма кратковременного преобразования Фурье (STFT, Short-Time Fourier Transform).

Каждая аудиозапись нарезлась с заданной частотой дискретизации, преобразовывалась с использованием STFT и передавалась в ансамбль моделей. Основное внимание в работе уделено исследованию поведения ансамбля при работе с аудиозаписями, подвергнутыми различным изменениям, таким как зашумление, искажение или обрезка. Эксперименты, проведенные на наборе данных, продемонстрировали высокую степень корреляции между результатами, полученными группой людей, и результатами, выданными ансамблем моделей, что подтверждает эффективность предложенного подхода. Ансамбль моделей показал высокую устойчивость

к различным видам модификаций аудиоданных, таким как изменение темпа, добавление шума и обрезка записей. Дальнейшие исследования могут быть направлены на адаптацию ансамбля

к различным типам данных, включая видео- и графические записи, что позволит расширить область применения предложенного метода.


Ключевые слова: нечеткий дубликат, свертка, нейронная сеть, STFT, шумы, производительность, спектрограмма, сиамская сеть, сегментация, каскадный ансамбль
Левшин Денис Витальевич
400005, Россия, г. Волгоград, проспект им. В.И. Ленина, 28, Волгоградский государственный технический университет
levshin01@bk.ru
Orcid: 0009-0001-5163-1393

Скляров Михаил Александрович
400005, Россия, г. Волгоград, проспект им. В.И. Ленина, 28, Волгоградский государственный технический университет
mikhail.29.06.2001@gmail.com
Orcid: 0009-0008-7028-5298

Быстряков Даниил Владимирович
Волгоградский Государственный Технический Университет,
bystriackoff@yandex.ru
Orcid: 0009-0004-0391-3849

Зубков Александр Владимирович
400005, Россия, г. Волгоград, проспект им. В.И. Ленина, 28, Волгоградский государственный технический университет
aleksandr.zubkov@volgmed.ru
Orcid: 0000-0003-0425-5695

Список литературы

1. Copy and move detection in audio recordings using dynamic time warping algorithm / K. Mannepalli, P. Krishna, K. Krishna, K. rama Krishna // International Journal of Innovative Technology and Exploring Engineering. – 2019. – Vol. 9. – P. 2244–2249. – DOI: 10.35940/ijitee.B6678.129219.



2. Маленко С.А. Увеличение производительности алгоритмов поиска дубликатов аудиозаписей // Молодой ученый. – 2017. – № 49 (183). – С. 22–26. – URL: https://moluch.ru/archive/183/47026/ (дата обращения: 08.09.2025).



3. Ryynanen M., Klapuri A. Query by humming of MIDI and audio using locality sensitive hashing // Proceedings of the 2008 IEEE International Conference on Acoustics, Speech, and Signal Processing. – IEEE, 2008. – P. 2249–2252. – DOI: 10.1109/ICASSP.2008.4518093.



4. Булавин Д.А., Харитонов И.А. Анализ методов распознавания и преобразования аудиоинформации в ноты // Автоматизированные системы управления и приборы автоматики. – 2011. – № 152 (2). – С. 56–63. – URL: https://cyberleninka.ru/article/n/analiz-metodov-raspoznavaniya-i-preobrazovaniya-audioinformatsii-v-noty (дата обращения: 08.09.2025).



5. Новохрестова Д.И. Временная нормализация слогов алгоритмом динамической трансформации временной шкалы при оценке качества произнесения слогов // Доклады Томского государственного университета систем управления и радиоэлектроники. – 2017. – Т. 20, № 4. – С. 142–145. – DOI: 10.21293/1818-0442-2017-20-4-142-145.



6. Wang Y., Lyu X. Yang S. Ocean observing time-series anomaly detection based on DTW-TRSAX method // The Journal of Supercomputing. – 2024. – Vol. 80. – P. 18679–18704. – DOI: 10.1007/s11227-024-06183-w.



7. Ustubioglu A., Ustubioglu B., Ulutas G. Mel spectrogram-based audio forgery detection using CNN // Signal, Image and Video Processing. – 2023. – Vol. 17. – P. 2211–2219. – DOI: 10.1007/s11760-022-02436-4.



8. 1D-CNN-based audio tampering detection using ENF signals / H. Zhao, Y. Ye, X. Shen, L. Liu // Scientific Reports. – 2024. – Vol. 14. – P. 11186. – DOI: 10.1038/s41598-024-60813-0.



9. Wang W., Lu Z. Few-shot bronze vessel classification via siamese fourier networks // Scientific Reports. – 2024. – Vol. 14. – P. 18011. – DOI: 10.1038/s41598-024-69272-z.



10. Lin Y.B., Bertasius G. Siamese vision transformers are scalable audio-visual learners // Lecture Notes in Computer Science. – 2025. – Vol. 15072. – P. 303–321. – DOI: 10.1007/978-3-031-72630-9_18.



11. Tzanetakis G., Cook P. Musical genre classification of audio signals // IEEE Transactions on Speech and Audio Processing. – 2002. – Vol. 10 (5). – P. 293–302. – DOI: 10.1109/TSA.2002.800560.



12. CNN architectures for large-scale audio classification / S. Hershey, S. Chaudhuri, D.P.W. Ellis, J.F. Gemmeke, A. Jansen, R.C. Moore, M. Plakal, D. Platt, R.A. Saurous, B. Seybold, M. Slaney, R.J. Weiss, K. Wilson // arXiv. – 2017. – URL: https://arxiv.org/abs/1609.09430 (accessed: 08.09.2025).



13. Ананьев А.С., Бутенко Д.В., Попов К.В. Моделирование процессов управления качеством продукции на основе имитационного моделирования // Инженерный вестник Дона. – 2012. – № 2. – URL: http://www.ivdon.ru/ru/magazine/archive/n2y2012/815 (дата обращения: 08.09.2025).



14. Бурцев А.Г., Мельников А.В. Численное моделирование и анализ спектра системы прерывающихся сигналов // Инженерный вестник Дона. – 2014. – № 2. – URL: http://www.ivdon.ru/ru/magazine/archive/n2y2014/2314 (дата обращения: 08.09.2025).



15. Кошелева Н.Н. Корреляционный анализ и его применение для подсчета ранговой корреляции Спирмена // Актуальные проблемы гуманитарных и естественных наук. – 2012. – № 5. – С. 23–26. – URL: https://cyberleninka.ru/article/n/korrelyatsionnyy-analiz-i-ego-primenenie-dlya-podscheta-rangovoy-korrelyatsii-spirmena (дата обращения: 08.09.2025).

Просмотров аннотации: 8
Скачиваний полного текста: 6
Просмотров интерактивной версии: 0
Для цитирования:

Применение сверточных и сиамских нейронных сетей в задаче сравнения нечетких дубликатов аудиообъектов / Д.В. Левшин, Д.В. Быстряков, М.А. Скляров, А.В. Зубков // Системы анализа и обработки данных. – 2025. – № 3 (99). – С. 69–82. – DOI: 10.17212/2782-2001-2025- 3-69-82.

For citation:

Levshin D.V., Bystryakov D.V., Sklyarov M.A., Zubkov A.V. Primenenie svertochnykh i siamskikh neironnykh setei v zadache sravneniya nechetkikh dublikatov audioob"ektov [The use of convolutional and siamese neural networks in the task of comparing fuzzy duplicates of audio objects]. Sistemy analiza i obrabotki dannykh = Data Analysis and Processing Systems, 2025, no. 3 (99), pp. 69–82. DOI: 10.17212/2782-2001-2025-3-69-82.