Современные методы защиты персональных данных часто предусматривают использование биометрических данных о голосе владельца данных для идентификации пользователя. Озвучивая кодовую фразу, владелец подтверждает свою личность. Однако злоумышленники пользуются несовершенством подобных систем и разрабатывают способы клонирования и подмены голоса, целью которых является создание двойника голоса для кибератаки на системы защиты персональных данных. В рамках настоящей статьи предпринимаются попытки исследовать существующие методы детекции клонированных голосов в целях защиты информации и противодействия кибератакам. Также для достижения результатов системы детекции будут испытаны на выборке из русскоязычных голосовых записей, взятых в открытых источниках. Проводится сравнительная оценка существующих подходов с точки зрения их практической применимости. Учитывались требования к занимаемой памяти вычислительного устройства, вычислительной сложности, сложности в реализации и сборе данных для обучения. Помимо этого, проведен анализ существующих предпосылок и тенденций к использованию систем синтеза и подмены голосов, описаны потенциальные риски и приведены примеры возможного ущерба при краже биометрических данных.Также выполнена попытка описать процедуру эксперимента для оценки эффективности работы рассмотренных методов с заданием конкретизирующих и уточняющих условий. Заданы критерии верификации и валидации результатов, которые позволяют делать выводы об эффективности работы систем.
1.?Каледина А. ВТБ24 первым запустит голосовую идентификацию // Известия. – 2016. – 28 октября. – URL: https://iz.ru/news/641241 (дата обращения: 29.08.2022).
2.?ASVspoof 2019: a large-scale publicdatabase of synthetized, converted and replayed speech / X. Wang, et. al. // Computer Speech and Language. – 2020. – Vol. 64. – P. 101114. – DOI: 10.1016/j.csl.2020.101114.
3.?Audio replay attack detection using high-frequency features / M. Witkowski, S. Kacprzak, P. Zelasko, K. Kowalczyk, J. Galka // Proceedings Interspeech 2017. – Stockholm, Sweden, 2017. – P. 27–31. – DOI: 10.21437/Interspeech.2017-776.
4.?Replay attack detection using DNN for channel discrimination / P. Na-garsheth, E. Khoury, K. Patil, M. Garland // Proceedings Interspeech 2017. – Stockholm, Sweden, 2017. – P. 97–101. – DOI: 10.21437/Interspeech.2017-1377.
5.?Generalization of Audio Deepfake detection / T. Chen, A. Kumar, P. Na-garsheth, G. Sivaraman, E. Khoury // Proceedings The Speaker and Language Recognition Workshop (Odyssey 2020). – Tokyo, Japan, 2020. – P. 132–137. – DOI: 10.21437/Odyssey.2020-19.
6.?Todisco M., Delgado H., Evans N. A new feature for automatic speaker verification anti-spoofing: Constant Q cepstral coefficients // The Speaker and Language Recognition Workshop (Odyssey 2016). – Bilbao, Spain, 2016. –
P. 283–290.
7.?Wu Z., Chng E.S., Li H. Detecting converted speech and natural speech for antispoofing attack in speaker recognition // Proceedings Interspeech 2012. – Portland, OR, USA, 2012. – P. 1700–1703. – DOI: 10.21437/Interspeech.2012-465.
8.?SpecAugment: a simple data augmentation method for automatic speech recognition / D.S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E.D. Cubuk, Q.V. Le // Proceedings Interspeech 2019. – Graz, Austria, 2019. – P. 2613–2617. – DOI: 10.21437/interspeech.2019-2680.
9.?Sahidullah M., Kinnunen T., Hanilçi C. A comparison of features for synthetic speech detection // Proceedings Interspeech 2015. – Dresden, Germany, 2015. – P. 2087–2091. – DOI: 10.21437/Interspeech.2015-472.
10.?DeepSonar: towards effective and robust detection of ai-synthesized fake voices / R. Wang, F. Juefei-Xu, Y. Huang, Q. Guo, X. Xie, L. Ma, Y. Liu // MM '20: The 28th ACM International Conference on Multimedia. – ACM, 2020. – P. 1207–1216. – DOI: 10.1145/3394171.3413716.
11.?Zhao H., Malik H. Audio recording location identification using acoustic environment signature // IEEE Transactions on Information Forensics and Secu-
rity.?– 2013. – Vol. 8 (11). – P. 1746–1759. – DOI: 10.1109/TIFS.2013.2278843.
12.?AlBadawy E.A., Lyu S., Farid H. Detecting AI-synthesized speech using bispectral analysis // IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2019. – IEEE, 2019. – P. 104–109.
13.?DeepGauge: Multi-granularity testing criteria for deep learning systems / L. Ma, F. Juefei-Xu, F. Zhang, J. Sun, M. Xue, B. Li, C. Chen, T. Su, L. Li, Y. Liu, J. Zhao, Y. Wang // ASE 2018: Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering. – ACM, 2018. – P. 120–131. – DOI: 10.1145/3238147.3238202.
14.?TensorFuzz: debugging neural networks with coverage-guided fuzzing / A. Odena, C. Olsson, D. Andersen, I. Goodfellow // Proceedings of Machine Learning Research. – 2019. – Vol. 97. – P. 4901–4911.
15.?DeepXplore: automated whitebox testing of deep learning systems / K. Pei, Y. Cao, J. Yang, S. Jana // Proceedings of the 26th Symposium on Operating Systems Principles (SOSP '17). – ACM, 2017. – DOI: 10.1145/3132747.3132785.
16.?DeepHunter: a coverage-guided fuzz testing framework for deep neural networks / X. Xie, L. Ma, F. Juefei-Xu, M. Xue, H. Chen, Y. Liu, J. Zhao, B. Li, J. Yin, S. See // Proceedings of the 28th ACM SIGSOFT International Symposium on Software Testing and Analysis (ISSTA 2019). – ACM, 2019. – P. 146–157. – DOI: 10.1145/3293882.3330579.
17.?NIC: detecting adversarial samples with neural network invariant checking / S. Ma, Y. Liu, G. Tao, W.-C. Lee, X. Zhang // Proceedings of the 26th network and distributed system security symposium (NDSS 2019). – The Internet Society, 2019.?– DOI: 10.14722/ndss.2019.23415.
18.?Attacks meet interpretability: Attribute-steered detection of adversarial samples / G. Tao, S. Ma, Y. Liu, X. Zhang // Advances in Neural Information Processing Systems. – 2018. – Vol. 31. – P. 7717–7228.
нет
Иванов А.В., Примак С.А., Мазуренко В.А. Исследование подходов к синтезу и детектированию клонированных голосов (DeepFake) // Безопасность цифровых технологий. – 2022. – № 3 (106). – С. 62–80. – DOI: 10.17212/2782-2230-2022-3-62-80.
Ivanov A.V., Primak S.A., Mazurenko V.A. Issledovanie podkhodov k sintezu i detektirovaniyu klonirovannykh golosov [Study of approaches to the synthesis and detection of cloned voices (DeepFake)]. Bezopasnost' tsifrovykh tekhnologii = Digital Technology Security, 2022, no. 3 (106), pp. 62–80. DOI: 10.17212/2782-2230-2022-3-62-80.