Идея изложения художественного текста школьниками состоит не в копировании авторского текста, а в пересказе основного содержания другими словами. Компьютерный анализ текста изложения должен учитывать, что и исходный авторский текст, и его изложение школьником подчиняются закону Ципфа распределения частот слов, но с разными словарями и с разными параметрами. Различие словарей и параметров закона Ципфа у автора и учащихся обусловлено различием социальной среды, круга чтения и общения, способности запоминать и использовать слова разных языковых пластов. Математический аппарат для анализа соответствия текста закону Ципфа разработан в ряде теоретических работ по теории вероятностей и математической статистике. Методами теории случайных процессов описывается поведение последовательности количеств разных слов текста. Отметим, что степенной закон роста числа разных слов с увеличением длины текста в прикладной статистике называется законом Хипса. Теоретические результаты на основании элементарной вероятностной модели позволяют анализировать значимость отклонений от закона Хипса.
В настоящей работе разработан алгоритм анализа изложений. Он включает сравнение текста изложения с исходным авторским текстом, выявляет повторяющиеся слова и выражения. Отдельно анализируется появление стандартных триграмм (троек слов) с помощью библиотеки наиболее частых триграмм, составленной по библиотеке русской классики. Затем анализируется однородность текста на основании соответствия закону Хипса. В заключение изучается однородность комбинированных текстов, составленных из исходного текста и текста изложения.
Разработанный подход дает новую информацию о тексте изложения и его соответствии исходному тексту. Он может применяться как для компьютерного анализа изложений, так и для проверки однородности текста.
1. Bahadur R.R. On the number of distinct values in a large sample from an infinite discrete distribution // Proceedings of the National Institute of Sciences of India. – 1960. – Vol. 26A, Suppl. 2. – P. 67–75.
2. Karlin S. Central limit theorems for certain infinite urn schemes // Journal of Mathematics and Mechanics. – 1967. – Vol. 17, N 4. – P. 373–401.
3. Barbour A.D., Gnedin A.V. Small counts in the infinite occupancy scheme // Electronic Journal of Probability. – 2009. – Vol. 14. – P. 365–384.
4. Barbour A.D. Univariate approximations in the infinite occupancy scheme // Latin American Journal of Probability and Mathematical Statistics. – 2009. – Vol. 6. – P. 415–433.
5. Muratov A., Zuyev S. Bit flipping and time to recover // Journal of Applied Probability. – 2016. – Vol. 53, N 3. – P. 650–666.
6. Chebunin M., Kovalevskii A. Functional central limit theorems for certain statistics in an infinite urn scheme // Statistics and Probability Letters. – 2016. – Vol. 119. – P. 344–348.
7. Durieu O., Wang Y. From infinite urn schemes to decompositions of self-similar Gaussian processes // Electronic Journal of Probability. – 2016. – Vol. 21. – P. 43. – DOI: 10.1214/16-EJP4492.
8. Чебунин М.Г. Функциональная центральная предельная теорема в бесконечной урновой схеме для распределений со сверхтяжелыми хвостами // Сибирские электронные математические известия. – 2017. – Т. 14. – С. 1289–1298. – DOI: 10.17377/semi.2017.14.109.
9. Ben-Hamou A., Boucheron S., Ohannessian M.I. Concentration inequalities in the infinite urn scheme for occupancy counts and the missing mass, with applications // Bernoulli. – 2017. – Vol. 23, N 1. – P. 249–287.
10. Decrouez G., Grabchak M., Paris Q. Finite sample properties of the mean occupancy counts and probabilities // Bernoulli. – 2018. – Vol. 24, N 3. – P. 1910–1941.
11. Zipf G.K. The psycho-biology of language. – London: Routledge, 1936.
12. Nicholls P.T. Estimation of Zipf parameters // Journal of the American Society for Information Science. – 1987. – Vol. 38 (6). – P. 443–445.
13. Закревская Н.С., Ковалевский А.П. Однопараметрические вероятностные модели статистик текста // Сибирский журнал индустриальной математики. – 2001. – Т. 4, № 2. – С. 142–153.
14. Чебунин М.Г. Оценивание параметров вероятностных моделей по числу различных элементов выборки // Сибирский журнал индустриальной математики. – 2014. – Т. 17, № 3. – С. 135–147.
15. Chebunin M., Kovalevskii A. Asymptotically normal estimators for Zipf's law // Sankhya A. – 2019. – Vol. 81, iss. 2. – P. 482–492. – DOI: 10.1007/s13171-018-0135-9.
16. Chebunin M.G., Kovalevskii A.P. A statistical test for the Zipf's law by deviations from the Heaps' law // Сибирские электронные математические известия. – 2019. – Т. 16. – С. 1822–1832.
17. Zakrevskaya N., Kovalevskii A. An omega-square statistics for analysis of correspondence of small texts to the Zipf-Mandelbrot law // Applied methods of statistical analysis. Statistical computation and simulation – AMSA'2019, 18–20 September 2019, Novosibirsk: Proceedings of the International Workshop. – Novosibirsk: NSTU, 2019. – P. 488–494.
18. Гусарова Г.В., Ковалевский А.П., Макаренко А.Г. Критерии наличия разладки // Сибирский журнал индустриальной математики. – 2005.– Т. 8, № 4. – С. 18–33.
19. Kovalevskii A.P., Shatalin E.V. Asymptotics of sums of residuals of one-parameter linear regression on order statistics // Theory of Probability and Its Applications. – 2015. – Vol. 59, N 3. – P. 375–387.
20. Ковалевский А.П., Шаталин Е.В. Выбор регрессионной модели зависимости массы тела от роста с помощью эмпирического моста // Вестник Томского государственного университета. Математика и механика. – 2015. – № 5 (37). – С. 35–47. – DOI: 10.17223/19988621/37/3.
21. Kovalevskii A., Shatalin E. A limit process for a sequence of partial sums of residuals of a simple regression on order statistics // Probability and Mathematical Statistics. – 2016. – Vol. 36, Fasc. 1. – P. 113–120.
22. Смирнов Н.В. О распределении ω2-критерия Мизеса // Математический сборник. – 1937. – Т. 2, № 5. – С. 973–993.
23. Мартынов Г.В. Критерии омега-квадрат. – М.: Наука, 1978. – 79 с.
24. Deheuvels P., Martynov G.V. Cramer-von mises-type tests with applications to tests of independence for multivariate extreme-value distributions // Communications in Statistics – Theory and Methods. – 1996. – Vol. 25, N 4. – P. 871–908.
25. Heaps H.S. Information retrieval: computational and theoretical aspects. – New York: Academic Press, 1978.
26. Herdan G. Type-token mathematics. – The Hague: Mouton, 1960.
Исследование выполнено при частичной финансовой поддержке РФФИ и правительства Новосибирской области (грант №19-41-543004) и поддержке программы фундаментальных научных исследований СО РАН № I.1.3. (проект № 0314-2019-0008)
Закревская Н.С., Ковалевская М.А., Чебунин М.Г. Компьютерный анализ школьных изложений на основании закона Хипса // Научный вестник НГТУ. – 2020. – № 1 (78). – С. 75–86. – DOI: 10.17212/1814-1196-2020-1-75-86.
Zakrevskaya N.S., Kovalevskaya M.A., Chebunin M.G. Komp'yuternyi analiz shkol'nykh izlozhenii na osnovanii zakona Khipsa [Computer analysis of school paraphrase essays based on Heaps’ law]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Science bulletin of the Novosibirsk state technical university, 2020, no. 1 (78), pp. 75–86. DOI: 10.17212/1814-1196-2020-1-75-86.