Биометрические технологии являются перспективным направлением в области информационной безопасности. Голосовая биометрия на сегодняшний день широко распространена, и работы над повышением качества голосовых систем не теряют своей актуальности. Выбор метода извлечения речевых признаков – один из ключевых этапов проектирования голосовых автоматических систем. В статье рассматриваются акустические параметры, обусловленные физиологическими свойствами речевого тракта человека: частота основного тона, огибающая спектра, форманты и антиформанты. Тема статьи касается методов их извлечения. Большую часть составляют различные варианты кепстрального анализа, поскольку именно они наиболее часто встречаются в современных разработках как в виде использования популярных мел-частотных кепстральных коэффициентов, так и в новых модификациях. Также внимание уделяется алгоритмам линейного предсказания, спектрального центроида и вейвлет-анализа. Параметризация речевых характеристик входит в распознавание речи, эмоций, языка, гендера. Хотя в статье перечислены основные подходы извлечения акустических признаков речи с целью распознавания диктора, материал может быть полезен и в вышеперечисленных задачах обработки речевых сигналов.
1. Крылова И.Ю., Рудакова О.С. Биометрические технологии как механизм обеспечения информационной безопасности в цифровой экономике // Молодой ученый. – 2018. – № 45. – С. 74–79.
2. Фант Г. Акустическая теория речеобразования / пер. с англ. Л.А. Варшавского и В.И. Медведева ; под ред. В.С. Григорьева. – М.: Наука, 1964. – 284 с.
3. Фланаган Дж.Л. Анализ, синтез и восприятие речи: пер. с англ. / под ред. А.А. Пирогова. – М.: Связь, 1968. – 396 с.
4. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. – М.: Рос. гос. гуманит. ун-т, 2001. – 592 с.
5. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: пер. с англ. / под ред. М.В. Назарова и Ю.Н. Прохорова. – М.: Радио и связь, 1981. – 496 с.
6. Wang F., Xu W. A comparison of algorithms for the calculation of LPC coefficients // Proceedings of International Conference on Information Science, Electronics and Electrical Engineering. – Sapporo, Japan, 2014. – P. 300–302.
7. Oppenheim A., Schafer R. From frequency to quefrency: a history of the cepstrum // IEEE Signal Process Magazine. – 2004. – Vol. 21, N 5. – P. 95–106.
8. A tutorial on text-independent speaker verification / F. Bimbot, J.-F. Bonastre, C. Fredouille, G. Gravier, I. Magrin-Chagnolleau, S. Meignier, T. Merlin, J. Ortega-García, D. Petrovska-Delacrétaz, D.A. Reynolds // EURASIP Journal on Advances in Signal Processing. – 2004. – Vol. 2014, N 4. – P. 430–451.
9. Speaker identification features extraction methods: a systematic review / S. Tirumala, S. Shahamiri, A. Garhwal, R. Wang // Expert Systems with Applications. – 2017. – Vol. 90. – P. 250–271.
10. Chauhan P.M., Desai N.P. Mel Frequency Cepstral Coefficients (MFCC) based speaker identification in noisy environment using wiener filter // Proceedings of International Conference on Green Computing Communication and Electrical Engineering (ICGCCEE 2014). – Coimbatore, India, 2014. – P. 1–5. – DOI: 10.1109/ICGCCEE.2014.6921394.
11. Sharma D., Ali I. A modified MFCC feature extraction technique for robust speaker recognition // Proceedings of International Conference on Advances in Computing, Communications and Informatics (ICACCI 2015). – Kochi, India, 2015. – P. 1052–1057.
12. Linear versus mel frequency cepstral coefficients for speaker recognition / X. Zhou, D. Garcia-Romero, R. Duraiswami, C. Espy-Wilson, S. Shamma // Proceedings of IEEE Workshop on Automatic Speech Recognition & Understanding (ASRU 2011). – Waikoloa, HI, USA, 2011. – P. 559–564. – DOI: 10.1109/ASRU.2011.6163888.
13. Boril H., Hansen J. Unsupervised equalization of lombard effect for speech recognition in noisy adverse environments // IEEE Transactions on Audio, Speech, and Language Processing. – 2010. – Vol. 18, N 6. – P. 1379–1393.
14. Sahidullah M., Kinnunen T., Hanilci C. A comparison of features for synthetic speech detection // Proceedings of Interspeech (ISCA 2015). – Dresden, Germany, 2015. – P. 2087–2091.
15. Shao Y., Wang D.L. Robust speaker identification using auditory features and computational auditory scene analysis // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2008). – Las Vegas, NV, USA, 2008. – P. 1589–1592. – DOI: 10.1109/ICASSP.2008.4517928.
16. Frame theory for signal processing in psychoacoustics / P. Balazs, N. Holighaus, T. Necciari, D. Stoeva // Applied and Numerical Harmonic Analysis. – 2017. – Vol. 5. – P. 225–268.
17. Bhattacharjee U. A comparative study of LPCC and MFCC features for the recognition of assamese phonemes // International Journal of Engineering Research & Technology (IJERT). – 2013. – Vol. 2, iss. 1.
18. Hermansky H. Perceptual linear predictive (PLP) analysis of speech // The Journal of the Acoustical Society of America. – 1990. – Vol. 87, N 4. – P. 1738–1752.
19. Bark scale // Wikipedia: The Free Encyclopedia: website. – URL: https://en.wikipedia.org/w/index.php?title=Bark_scale&oldid=904712246 (accessed: 18.12.2019).
20. ГОСТ Р ИСО 226–2009. Акустика. Стандартные кривые равной громкости: дата введения 2010–12–01. – М.: Стандартинформ, 2010.
21. Kim C., Stern R. Power-normalized cepstral coefficients (PNCC) for robust speech recognition // IEEE/ACM Transaction on Audio, Speech, and Language Processing. – 2016. – Vol. 24, N 7. – P. 1315–1329.
22. Todisco M., Delgado H., Evans N. A new feature for automatic speaker verification anti-spoofing: constant Q cepstral coefficients // Odyssey 2016. The Speaker and Language Recognition Workshop. – At Bilbao, Spain, 2016. – P. 283–290.
23. Sadjadi S.O., Hansen J.H. Mean Hilbert envelope coefficients (MHEC) for robust speaker and language identification // Speech Communication. – 2015. – Vol. 72. – P. 138–148.
24. Investigation of spectral centroid magnitude and frequency for speaker recognition / J.M.K. Kua, T. Tharmarajah, M. Nosratighods, E. Ambikairajah, J. Epps // Odyssey 2010. The Speaker and Language Recognition Workshop. – Brno, Czech Republic, 2010. – P. 34–39.
25. Deshpande M., Holambe R. Speaker identification using admissible wavelet packet based decomposition // International Journal of Electrical and Computer Engineering. – 2010. – Vol. 4, N 1. – P. 83–86.
26. Speaker identification system using wavelet transform and neural network / K. Daqrouq, T. Abu Hilal, M. Sherif, S. El-Hajjar, A. Al-Qawasmi // Proceedings of International Conference on Advances in Computational Tools for Engineering Applications (ACTEA 2009). – Beirut, Lebanon, 2009. – P. 559–564.
27. Ganchev T., Siafarikas M., Fakotakis N. Speaker verification based on wavelet packets // Proceedings of Text, Speech and Dialogue (TSD 2004). – Brno, Czech Republic, 2004. – P. 299–306.
28. Kang W.H., Kim N.S. Unsupervised learning of total variability embedding for speaker verification with random digit strings // Applied Sciences. – 2019. – Vol. 9, N 8.
29. Michelsanti D., Tan Z. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification // Proceedings of Interspeech 2017. – Stockholm, Sweden, 2017. – P. 2008–2012.
30. Wang Y., Lawlor B. Speaker recognition based on MFCC and BP neural networks // Proceedings of 28th Irish Signals and Systems Conference (ISSC 2017). – Killarney, Co. Kerry, Ireland, 2017. – P. 1–4.
31. Deep neural network embeddings for text-independent speaker verification / D. Snyder, D. Garcia-Romero, D. Povey, S. Khudanpur // Proceedings of Interspeech 2017. – Stockholm, Sweden, 2017. – P. 999–1003.
32. Ozaydin S. Design of a text independent speaker recognition system // International Conference on Electrical and Computing Technologies and Applications (ICECTA 2017). –Ras Al Khaimah, UAE, 2017. – P. 1–5.
33. Daqrouq K., Tutunji T.A. Speaker identification using vowels features through a combined method of formants, wavelets, and neural network classifiers // Applied Soft Computing. – 2015. – Vol. 27. – P. 231–239.
34. Enhanced forensic speaker verification using a combination of DWT and MFCC feature warping in the presence of noise and reverberation conditions / A.K.H. Al-Ali, D. Dean, B. Senadji, V. Chandran, G.R. Naik // IEEE Access. – 2017. – Vol. 5. – P. 15400–15413.
35. Chelali F.Z., Djeradi A. Text dependant speaker recognition using MFCC, LPC and DWT // International Journal of Speech Technology. – 2017. – Vol. 20, N 3. – P. 725–740.
36. Mohammadi M., Sadegh Mohammadi H.R. Robust features fusion for text independent speaker verification enhancement in noisy environments // Proceedings of Iranian Conference on Electrical Engineering (ICEE 2017). – Tehran, Iran, 2017. – P. 1863–1868.
37. Study of fusion strategies and exploiting the combination of MFCC and PNCC features for robust biometric speaker identification / M.T.S. Al-Kaltakchi, W.L. Woo, S.S. Dlay, J.A. Chambers // Proceedings of 4th International Conference on Biometrics and Forensics (IWBF). – Limassol, Cyprus, 2016. – P. 1–6.
38. The ASVspoof 2017 challenge: assessing the limits of replay spoofing attack detection / T. Kinnunen, M. Sahidullah, H. Delgado, M. Todisco, N. Evans, J. Yamagishi, K.A. Lee // Proceedings of Interspeech 2017. – Stockholm, Sweden, 2017. – P. 2–6.
Судьенкова А.В. Обзор методов извлечения акустических признаков речи в задаче распознавания диктора // Сборник научных трудов НГТУ. – 2019. – № 3–4 (96). – С. 139–164. – DOI: 10.17212/2307-6879-2019-3-4-139-164.
Sudjenkova A.V. Obzor metodov izvlecheniya akusticheskikh priznakov rechi v zada-che raspoznavaniya diktora [Overview of methods for extracting acoustic speech features in speaker recognition]. Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta – Transaction of scientific papers of the Novosibirsk state technical university, 2019, no. 3–4 (96), pp. 139–164. DOI: 10.17212/2307-6879-2019-3-4-139-164.