Безопасность цифровых технологий

Повышение качества классификации с использованием линейных моделей множественного выбора

Выпуск № 1 (79) Январь - Март 2015

Авторы:

DOI: http://dx.doi.org/10.17212/2307-6879-2015-1-23-32

Аннотация
Авторы
Список литературы
Статистика

Аннотация
В данной статьерассмотрена задача классификации и некоторые инструменты для ее решения на примере моделей дискретного выбора. Среди предложенных моделей предпочтение отдаётся логит- и пробит-моделям в связи с их «неприхотливостью» к входным факторам. При этом возникает закономерный вопрос о возможности введения новой модели, в основе которой будет лежать некоторая функция, отличная от логистической – для логит-модели и нормальной – для пробит-модели соответственно. В разделе «Постановка задачи и методы решения» подробно описывается математическая формулировка и приводятся пояснения, касающиеся возможности введения новой модели, а также обозначены существующие для этого ограничения. Кроме того, описывается разработанный новый метод оценивания параметров классифицирующей функции, основанный на применении нового распределения. В качестве нового распределения вводится закон Лапласа с неизвестными параметрами. Новая процедура классификации заключается в решении двойной задачи оптимизации: минимизации функции правдоподобия при подборе оптимальных коэффициентов для классифицирующей функции и минимизации значения величины ошибки классификации путем варьирования параметров выбранного распределения. Чтобы сделать исследования более полными, вычислительные эксперименты проводились при различных объемах выборок и переменных для факторов, распределенных согласно стандартному нормальному закону, несимметричному закону на примере экспоненциального распределения, а также распределениям с тяжелыми и легкими хвостами на примере двустороннего экспоненциального закона при различных значениях параметра формы. Полученные результаты свидетельствуют об эффективности предложенной процедуры. Особенно хорошо это иллюстрируют тесты на расширенной модели (с большим количеством переменных). В заключении указаны возможные перспективы развития работы: в связи с тем, что предложенный метод оказался «жизнеспособным», в дальнейшем можно исследовать величину ошибки классификации, выбирая для построения модели любые другие распределения при соблюдении некоторых условий. Немаловажно, что усовершенствованный метод решения задач классификации дает значительное улучшение качества классификации существующих процедур, а соответственно, может успешно применяться на практике.

Ключевые слова: дискриминантный анализ, логит-модель, пробит-модель, функция правдоподобия, задача классификации, факторы, бинарная зависимая переменная, процедура оптимизации

А.А. САНИНА
630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, аспирант.Е-mail:
anastas.sanina@gmail.com
Orcid:

Список литературы
1. PressS.J., Wilson S.Choosing between logistic regression and discriminant analysis // Journal of the America Statistical Assotiation. – 1978. – Vol. 73,iss. 364. – P. 699–705. – doi:10.1080/01621459.1978.10480080.

2. Pohar M., Blas M., Turk S.Comparison of logistic regression and linear discriminant analysis: a simulation study// Metodološkizvezki: advances in Methodology and Statistics. – 2004. – Vol. 1, N 1. – P. 143–161.

3. Kropko J.Choosing between multinomial logit and multinomial probitodels for analysis of unordered choice data:a thesis submitted to the faculty of the University of North Carolina at Chapel Hill in partial fulfillment of the requirements for the degree of Master of Arts in the Department of Political Science. – Chapel Hill, 2008. – 46 p.

4. Золотухин И.В.Двухкомпонентное многомерное распределение Лапласа// Вестник Новгородского государственного университетаим. Ярослава Мудрого. – 2012. – №68. – С. 60–64.

5. МалхотраН.К.Маркетинговые исследования:практическое руководство: пер. с англ.–3-е изд. – М.: Вильямс, 2002. – 957с. + Прил. (1 CD-ROM).

6. Электронный учебник по статистике// StatSoft: [мультимедийный портал компьютерной аналитики]. –Москва, 2012. –URL: http://www.statsoft.ru/home/textbook/default.htm (дата обращения: 02.02.2015).

7. Цильковский И.А., Волкова В.М. Методы анализа знаний и данных:конспект лекций. –Новосибирск: Изд-во НГТУ, 2010. – 68 с.

8. Форсайт Дж., Малькольм М., Моулер К.Машинные методы математических вычислений: пер. с англ. – М.: Мир, 1980. – 280 с.

9. Каримов Р.Н.Основы дискриминантного анализа: учебно-методическое пособие. – Саратов: Изд-во СГТУ, 2002. – 108 с.

10. RencherA.C.Methods of multivariate analysis.–New York:John Wiley & Sons, 2002. –727 p.

11. Прикладная статистика: классификация и снижение размерности/ С.А. Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д.Мешалкин. –М.: Финансы и статистика, 1989. – 607 с.

12. КендаллМ.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды:пер. с англ. – М.: Наука,главная редакцияфизико-матема-тической литературы, 1976. – 736 с.

13. Каримов Р.Н. Обработка экспериментальной информации:учебноепособие. Ч. 3. Многомерный анализ.– Саратов:Изд-во СГТУ, 2000. – 108с.

Просмотров аннотации: 1891
Скачиваний полного текста: 1585
Просмотров интерактивной версии: 0

БЕЗОПАСНОСТЬ ЦИФРОВЫХ ТЕХНОЛОГИЙ

БЕЗОПАСНОСТЬ
ЦИФРОВЫХ ТЕХНОЛОГИЙ

Повышение качества классификации с использованием линейных моделей множественного выбора

БЕЗОПАСНОСТЬ ЦИФРОВЫХ ТЕХНОЛОГИЙ

БЕЗОПАСНОСТЬЦИФРОВЫХ ТЕХНОЛОГИЙ

Повышение качества классификации с использованием линейных моделей множественного выбора

БЕЗОПАСНОСТЬ
ЦИФРОВЫХ ТЕХНОЛОГИЙ