Системы анализа и обработки данных

СИСТЕМЫ АНАЛИЗА И ОБРАБОТКИ ДАННЫХ

ISSN (печатн.): 2782-2001          ISSN (онлайн): 2782-215X
English | Русский

Последний выпуск
№2(94) Апрель - Июнь 2024

Построение модели бинарного выбора на основе устойчивого семейства распределений

Выпуск № 4 (69) Октябрь - Декабрь 2017
Авторы:

Тимофеев Владимир Семенович,
Санина Анастасия Алексеевна
DOI: http://dx.doi.org/10.17212/1814-1196-2017-4-105-116
Аннотация

В данной статье рассмотрена проблема, которая наиболее часто встречается при решении задач классификации, – повышение качества модели с точки зрения количества верно классифицированных объектов. Наиболее известные модели (логит- и пробит-), применяемые при решении задач классификации, показывают хорошие результаты далеко не на всех наборах данных. В связи с этим предпринимается попытка улучшить качество классификации путем выбора другого универсального семейства распределений, наилучшим способом описывающего реальные данные, вместо логистического или нормального законов распределений для построения модели. В работе рассмотрен пример решения задачи классификации для двух входных переменных с применением модели бинарного выбора, построенной на основе логистического, а затем устойчивого семейства распределений. Выполнены сравнение и оценка полученных решений, основанные на вычислении ошибки классификации. Предложен усовершенствованный подход для решения задачи классификации. Его основное отличие состоит не только в использовании «нового» семейства распределения для построения модели бинарного выбора, но и в дополнительной процедуре оптимизации, в ходе которой происходит варьирование параметров устойчивого семейства распределения с целью уменьшения ошибки классификации. Для детального исследования данного подхода с использованием технологии статистического моделирования проведен ряд вычислительных экспериментов. Полученные результаты свидетельствуют об эффективности предложенного метода. Выполнено сравнительное исследование качества классификации для различных моделей при разной степени засорения исходных данных. Выявлен характер зашумления данных, оказывающий существенное влияние на качество классификации. Указаны возможные перспективы развития работы. Важно отметить, что предложенный метод имеет существенно лучшее качество классификации, особенно на данных с определенным типом зашумления, а значит, может быть рекомендован для применения на практике.


Ключевые слова: задача классификации, логит-модель, модель бинарного выбора, устойчивое распределение, ошибка классификации, функция правдоподобия, выбросы, зашумленные данные, характеристическая функция, вычислительный эксперимент, оценка параметров, функция распределения

Список литературы

1. Kropko J. Choosing between multinomial logit and multinomial probit models for analysis of unordered choice data:a thesis submitted to the faculty of the University of North Carolina at Chapel Hill in partial fulfillment of the requirements for the degree of Master of Arts in the Department of Political Science. –Chapel Hill, 2008. –46 p.



2. Золотухин И.В. Двухкомпонентное многомерное распределение Лапласа // Вестник Новгородского государственного университета им. ЯрославаМудрого. – 2012. – № 68. – С. 60–64.



3. Judd Ch., McClelland G.H.Data analysis: a model-comparison approach.– San Diego: Harcourt Brace Jovanovich, 1989. – 635 p.



4. Форсайт Дж., Малькольм М.А., Моулер К.Б. Машинные методы математических вычислений: пер. с англ. – М.: Мир, 1980. – 280 с.



5. Каримов Р.Н. Основы дискриминантного анализа:учебно-методическое пособие. – Саратов: Изд-во СГТУ, 2002. – 108 с.



6. Rencher A.C. Methods of multivariate analysis / Brigham Young University. – New York: John Wiley & Sons, 2002. – 727 p.



7. Прикладная статистика: классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика, 1989. – 607 с.



8. Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды: пер. с англ. – М.: Наука, 1976. – 736 с.



9. Каримов Р.Н. Обработка экспериментальной информации.Ч. 3. Многомерный анализ:учебное пособие. – Саратов: Изд-во СГТУ, 2000. – 108 с.



10. Press S.J., Wilson S. Choosing between logistic regression and discriminant analysis// Journal of the American Statistical Association. – 1978. – Vol. 73, iss. 364. – P. 699–705. – doi: 10.1080/01621459.1978.10480080.



11. Pohar M., Blas M., Turk S. Comparison of logistic regression and linear discriminant analysis: a simulation study // Metodološkizvezki: advances in Methodology and Statistics. – 2004. – Vol. 1, N 1. – P. 143–161.



12. Тимофеев В.С., Санина А.А. Построение моделей бинарного выбора на основе универсального семейства распределений // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительнаятехникаиинформатика. – 2015. – № 3. – С. 104–112.



13. Chambers J.M., Mallows C.L., Stuck B.W. A method for simulating stable random variables // Journal of the American Statistical Association. – 1976. –Vol. 71, iss. 354. – P. 340–344. – doi: 10.1080/01621459.1976.10480344.



14. Золотарев В.М. Одномерные устойчивые распределения. – М.: Наука, 1983. – 304 с.

Для цитирования:

Тимофеев В.С., Санина А.А. Построение модели бинарного выбора на основе устойчивого семейства распределений // Научный вестник НГТУ. – 2017. – № 4 (69). – С. 105–116. – doi: 10.17212/1814-1196-2017-4-105-116.

For citation:

Timofeev V.S., Sanina A.A. Postroenie modeli binarnogo vybora na osnove ustoichivogo semeistva raspredelenii [Binary choice modeling based on stable distribution]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta – Science bulletin of the Novosibirsk state technical university, 2017, no. 4 (69), pp. 105–116. doi: 10.17212/1814-1196-2017-4-105-116.

Просмотров: 4164