Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№1(93) Январь - Март 2024

Значения некоторых частотных характеристик англоязычных текстов

Выпуск № 1 (78) Январь - Март 2020
Авторы:

Котов Юрий Алексеевич,
Санина Ольга Валерьевна
DOI: http://dx.doi.org/10.17212/1814-1196-2020-1-87-106
Аннотация

Для решения многих задач формального анализа текстов требуются известные значения различных частотных характеристик текстов. Это связано с тем, что математической основой такого анализа является выбор или построение критериев сравнения определенных характеристик, изменения которых в общем случае носят случайный характер. Известно, что необходимым условием для построения таких критериев и его обоснования является наличие теоретических или выборочных распределений требуемых величин. В то же время доступные значения частотных характеристик для англоязычных текстов в значительной степени являются неполными, неточными или устаревшим, что не позволяет выстраивать их анализ в соответствии с математическими требованиями. В работе приведены результаты измерений в зависимости от объемов англоязычных текстов их основных частотных характеристик: частоты появления пробела и первых двух значащих знаков, индекса совпадений, количества используемых в текстах букв, буквенных биграмм и диграмм и связанных с ними характеристик – индексов отклонения и сопряжения. Измерения проведены на двух представительных выборках из научно-технических и художественных текстов, каждая из которых включала в себя более 2100 фрагментов текстов различного объема – от 200 до 350 000 знаков. Выборки формировались случайным образом из корпуса англоязычных текстов, включавшего в себя 491 текст. Результаты представлены в виде выборочных распределений указанных частотных характеристик, содержащих среднее, минимальное и максимальное значения и соответствующее стандартное отклонение. Проведен анализ полученных распределений и их сравнение с аналогичными характеристиками русскоязычных текстов.


Ключевые слова: текст, знак, частота встречаемости, мощность алфавита, индекс совпадений, биграмма, диграмма, индекс отклонения, индекс сопряжения

Список литературы

1. Котов Ю.А. Детерминированная идентификация буквенных биграмм в русскоязычных текстах // Труды СПИИРАН. – 2016. – № 1. – С. 181–197. – DOI: 10.15622/sp.44.11.



2. Blondeau C., Nyberg K. Joint data and key distribution of simple, multiple, and multidimensional linear cryptanalysis test statistic and its impact to data complexity // Designs, Codes and Cryptography. – 2017. – Vol. 82, N 1. – P. 319–349. – DOI: 10.1007/s10623-016-0268-6.



3. Williams H. Applying statistical language recognition techniques in the ciphertext-only cryptanalysis of enigma // Cryptologia. – 2000. – Vol. 24, N 1. – P. 4–17. – DOI: 10.1080/0161-110091888745.



4. Authorship attribution on bengali literature using stylometric features and neural network / A. Islam, M. Kabir, S. Islam, A. Tasnim // Proceedings 4th International Conference on Electrical Engineering and Information & Communication Technology (iCEEiCT 2018). – Dhaka, Bangladesh, 2018. – P. 360–363. – DOI: 10.1109/CEEICT.2018.8628106.



5. Digamberrao K.S., Prasad R.S. Author identification on literature in different languages: a systematic survey // Proceedings 2018 International Conference On Advances in Communication and Computing Technology (ICACCT). – Sangamner, 2018. – P. 174–181. – DOI: 10.1109/ICACCT.2018.8529635.



6. A review on playfair substitution cipher and frequency analysis attack on play-fair / N. Sharma, H. Meghwal, M. Mehta, T. Kumar // Proceedings 2nd International Conference on Trends in Electronics and Informatics (ICOEI). – Tirunelveli, 2018. – P. 1–9. – DOI: 10.1109/ICOEI.2018.8553837.



7. Yang N., Ma-li A.D. Modifying keyboard layout to reduce finger-travel distance // Proceedings 28th International Conference on Tools with Artificial Intelligence (ICTAI). – San Jose, CA, 2016. – P. 165–168. – DOI: 10.1109/ICTAI.2016.0034.



8. Noraset T., Demeter D., Downey D. Controlling global statistics in recurrent neural network text generation // Proceedings of the AAAI Conference on Artificial Intelligence. – North America, 2018. – P. 5333–5341.



9. Recurrent convolutional neural networks for text classification / S. Lai, L. Xu, K. Liu, J. Zhao // Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. – North America, 2015. – P. 2267–2273.



10. Behmer L., Crump M. Crunching big data with finger tips: how typists tune their performance toward the statistics of natural language // Big Data in Cognitive Science. – Abindgon, UK: Taylor & Francis Group, 2017.



11. Kotov Yu., Sanina O. Criteria and algorithm for the Russian language text recognition based on the frequency characteristics set // 2018 XIV International Scientific-Technical Conference on Actual problems of electronic instrument engineering (APEIE): proceedings. – Novosibirsk, 2018. – P. 175–179. – DOI: 10.1109/APEIE.2018.8545877.



12. Bourne Ch.P., Ford D.F. A study of the statistics of letters in English words // Information and Control. – 1961. – Vol. 4, iss. 1. – P. 48–67. – DOI: 10.1016/S0019-9958(61)80036-3.



13. Interplay of bigram frequency and orthographic neighborhood statistics in language membership decision / Y. Oganian, M. Conrad, A. Aryani, H.R. Heekeren, K. Spalek // Bilingualism: Language and Cognition. – 2015. – Vol. 19, N 3. – P. 578–596. – DOI: 10.1017/S1366728915000292.



14. Jones M.N., Mewhort D.J.K. Case-sensitive letter and bigram frequency counts from large-scale English corpora // Behavior Research Methods, Instruments, & Computers. – 2004. – Vol. 36, N 3. – P. 388–396. – DOI: 10.3758/BF03195586.



15. Rawlinson G.E. Bigram frequency counts and anagram lists // Quaterly Journal of Experimental Psychology. – 1976. – Vol. 28, iss. 1. – P. 125–142. – DOI: 10.1080/14640747608400546.



16. Rubinstein-Salzedo S. The Vigenère Cipher // Cryptography. – Cham: Springer, 2018. – P. 41–54. – DOI: 10.1007/978-3-319-94818-8_5.



17. Analysis of four historical ciphers against known plaintext frequency statistical attack / C.W. Chuah, V.L. Samylingam, I. Darmawan, P.S.S. Palaniappan, C.F. Mohd Foozy, S.N. Ramli, J. Alawatugod // International Journal of Integrated Engineering. – 2018. – Vol. 10. – P. 183–192. – DOI: 10.30880/ijie.2018.10.06.026.



18. Rajput N.K., Ahuja B., Riyal M.K. A statistical probe into the word frequency and length distributions prevalent in the translations of Bhagavad Gita // Pramana. – 2019. – Vol. 92, N 4. – P. 60. – DOI: 10.1007/s12043-018-1709-8.



19. Абденов А.Ж., Котов Ю.А., Санина О.В. Значения некоторых униграммных характеристик русскоязычных текстов // Научный вестник НГТУ. – 2017. – № 2 (67). – С. 146–162. – DOI: 10.17212/1814-1196-2017-2-146-162.



20. Котов Ю.А., Санина О.В. Значения некоторых биграммных характеристик русскоязычных текстов // Вестник СибГУТИ. – 2017. – № 4. – С. 24–34.



21. Kesteren R. van, Dijkstra T. Smedt K. de. Markedness effects in Norwegian–English bilinguals: task-dependent use of language- specific letters and bigrams // The Quarterly Journal of Experimental Psychology. – 2012. – Vol. 65, N 11. – P. 2129–2154. – DOI: 10.1080/17470218.2012.679946.



22. Syllables and bigrams: orthographic redundancy and syllabic units affect visual word recognition at different processing levels / M. Conrad, M. Carreiras, S. Tamm, A.M. Jacobs // Journal of Experimental Psychology: Human Perception and Performance. – 2009. – Vol. 35, N 2. – P. 461–479. – DOI: 10.1037/a0013480.



23. Kotov Y.A., Sanina O.V. Recognition of English and Russian-language texts based on frequency characteristics // Proceedings of the 14 International Forum on Strategic Technology (IFOST 2019) – Tomsk, 2019. – P. 202–205.

Для цитирования:

Котов Ю.А., Санина О.В. Значения некоторых частотных характеристик англоязычных текстов // Научный вестник НГТУ. – 2020. – № 1 (78). – С. 87–106. – DOI: 10.17212/1814-1196-2020-1-87-106.

 

For citation:

Kotov Yu.A., Sanina O.V. Znacheniya nekotorykh chastotnykh kharakteristik angloyazychnykh tekstov [Values of some frequency characteristics in english-language texts]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Science bulletin of the Novosibirsk state technical university, 2020, no. 1 (78), pp. 87–106. DOI: 10.17212/1814-1196-2020-1-87-106.

Просмотров: 1166