В работе в интересах разработки процедур обработки текстов рассматривается возможность использования точных распределений вероятностей значений статистик для построения статистических критериев согласия с равновероятным распределением. Проводится сравнение вычислительной сложности расчета точных распределений методом полного перебора и час-тотным методом. Показывается, что вычислительная сложность частотного метода расчета точных распределений намного меньше вычислительной сложности метода полного перебора, но и она не позволяет провести заприемлемое времявычисления точных распределений на современных высокопроизводительных вычислительных системах для практически значимых значений параметров текстовдаже при кардинальной модернизации вычислительных систем путем применения новейших вычислительных элементов. За счет сужения класса используемых статистик до класса симметричных аддитивно разделяемых статистик проведен выбор направления модернизации частотного метода расчета точных распределений, заключающийся в ограничении перебираемого выборочного пространства. Показана принципиальная возможность применениямодернизированного метода в областях значений параметров текстов, где высокая вычислительная сложность частотного метода не позволяет выполнить расчет точных распределений. На основе результатов по оценке вероятности значений статистики максимальной частоты проведена модернизация частотного метода расчета точных распределений, в результате которой разработана методика расчета ?-точных распределений, которые отличаются от точных распределений не более чем на заранее заданную величину ?. Описана пошаговая детализация методики расчета ?-точных распределений, позволяющая применять ее для проведения практических расчетов. Приводятся конкретные результаты по применению методики расчета ?-точных распределений для значений параметров текстов, расчет точных распределений для которых на современном этапе невозможен из-за его большой вычислительной сложности.
1. Чеповский А.М. Информационные модели в задачах обработки текстов на естественных языках. – М.: ИНТУИТ, 2015. – 228 с. – ISBN 978-5-9556-0176-2.
2. Крамер Г. Математические методы статистики. – М.: Мир, 1975. – 648 c.
3. Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику. – М.: Ленард, 2017. – 608 с. – ISBN 978-5-9710-4535-9.
4. Ивченко Г.И., Медведев Ю.И. Математическая статистика. – М.: Либроком, 2014. – 352 с. – ISBN 978-5-397-04141-6.
5. Зелюкин Н.Б., Мельников А.К. Сложность расчета точных распределений вероятности значений статистик и область применения предельных распределений // Электронные средства и системы управления: материалы докладов XIII Международной научно-практической конференции (29 ноября – 1 декабря 2017 г.): в 2 ч. – Томск: В-Спектр, 2017. – Ч. 2. – С. 84–90.
6. Мельников А.К. Сложность расчета точных распределений вероятности симметричных аддитивно разделяемых статистик и область применения предельных распределений // Доклады ТУСУР. – 2017. – Т. 20, № 4. – С. 126–130.
7. Helmert P.R. Uber die Wahrscheinlichkeit von Potenzsummen der Beobachtungsfehler und iiber einige damit im Zusammenhange stehende Fragen // Zeitschrift für Mathematik und Physik. – 1876. – B. 21. – S. 102–219.
8. Neyman F., Pearson E.S. On the use and interpretation of certain test criteria for purposes of statistical inference // Biometrika. – 1928. – Vol. 20-A. – Р. 175–240; 264–299.
9. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables in such that it can be reasonably supposed to have arisen from random sampling // The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. Series 5. – 1900. – Vol. 50, N 302. – Р. 157–170.
10. Exact and approximate distributions of the chi-squared statistic for equiprobability / P.F. Smith, D.S. Rae, R.W. Manderscheid, S. Silbergeld // Communications in Statistics - Simulation and Computation. – 1979. – Vol. 8 (2). – Р. 131–149.
11. Корнеев В.В. Вычислительные системы. – М.: Гелиос АРВ, 2004. – 512 с. – ISBN 5-85438-117-6.
12. Каляев И.А., Левин И.И., Семерников Е.А. Реконфигурируемые вычислительные системы на основе ПЛИС // Интеллект & Технологии. – 2014. – № 1 (7). – С. 40–47.
13. Мельников А.К. Исследование путей модернизации реконфигурируемых вычислительных систем // Известия ЮФУ. Технические науки. – 2014. – № 12 (161). – С. 83–89.
14. Холл М. Комбинаторика. – М.: Мир, 1970. – 424 с.
15. Феллер В. Введение в теорию вероятностей и ее приложения. В 2 т. Т. 1. – М.: Мир, 1984. – 528 с.
16. Мельников А.К., Ронжин А.Ф. Обобщенный статистический метод анализа текстов, основанный на расчете распределений вероятности значений статистик // Информатика и ее применения. – 2016. – Т. 10, вып. 4. – С. 89–95.
17. Описание языка программирования Python [Электронный ресурс]. – URL: https://www.python.org/doc/ (дата обращения: 22.03.2018).
18. Сачков В.Н. Комбинаторные методы дискретной математики. – М.: Наука, 1977. – 320 с.
Мельников А.К. Методика расчета распределения вероятностей значений симметричных аддитивно разделяемых статистик, приближенных к их точному распределению // Научный вестник НГТУ. – 2018. – № 1 (70). – С. 153–166. – doi: 10.17212/1814-1196-2018-1-153-166.
Melnikov A.K. Metodika rascheta raspredeleniya veroyatnostei znachenii simmetrichnykh additivno razdelyaemykh statistik priblizhennogo k ikh tochnomu raspredeleniyu [Processing complexity for exact probability distributions of symmetrical additively partitioned statistics and application area of limit distributions]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta – Science bulletin of the Novosibirsk state technical university, 2018, no. 1 (70), pp. . doi: 10.17212/1814-1196-2018-1-153-166.