Аннотация
В работе рассматривается возможность применения методов машинного обучения для построения рекомендательной системы отбора анкет абитуриентов. Рекомендательная система на основании предсказаний, полученных от классификатора, выдает рекомендуемый статус для анкеты. Для построения математической модели классификатора используются сведения об анкетах предыдущих периодов, которые содержат данные об итоговом статусе каждой анкеты. Данные об анкетах необходимо специальным образом подготовить для использования в линейных математических моделях. Числовые признаки необходимо нормализовать, а категориальные – преобразовать в числа с помощью бинарного кодирования. Для оценки качества работы классификаторов их модель обучают на обучающей выборке, а качество предсказаний проверяют на тестовой выборке. Для исключения вероятности получения несбалансированной выборки (выборки, в которой объектов одного класса может быть значительно больше, чем другого) используется техника кросс-валидации– техника многостадийного разбиения данных. При каждом шаге данные разбиваются на части, затем происходит обучение модели на тренировочной выборке и валидация модели на тестовой выборке. Для уменьшения ошибки классификатора на каждом шаге происходит разбиение на разные части исходного набора данных. Проведено сравнение точности работы нескольких видов классификаторов и определен наиболее точный метод – случайный лес. Определен порядок имплементации выбранного классификатора в существующую автоматизированную систему сбора, обработки и учета анкетных данных. В результате проделанной работы определены методы классификации данных для построения модуля рекомендаций автоматизированной системы сбора, обработки и учета анкетных данных. Для повышения качества отбора слушателей в качестве направления дальнейшей исследовательской деятельности выбрана технология построения и внедрения чат-ботов для формирования психологического портрета абитуриента. Чат-боты– особый вид диалогового взаимодействия на основе технологий искусственного интеллекта и распознавания естественного языка.
Ключевые слова: машинное обучение, классификатор, математическая модель, кросс-валидация, бинарное кодирование, Python
Список литературы
1. Воронцов К.В. Машинное обучение: лекции [Электронный ресурс]. – URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf (дата обращения: 07.06.2017).
2. Koren Y., Bell R.M., Volinsky C. Matrix factorization techniques for recommender systems // Computer. – 2009. – Vol. 42 (8). – P. 30–37.
3. Международное соревнование «Amazon.com – Employee Access Challenge» по анализу данных [Электронный ресурс]. – URL: https://www.kaggle.com/c/amazon-employee-access-challenge (дата обращения: 07.06.2017).
4. Дьяконов А.Г. Теория систем эквивалентностей для описания алгебраических замыканий обобщенной модели вычисления оценок // Журнал вычислительной математики и математической физики. – 2010. – Т. 50, № 2. – С. 388–400.
5. Strang G. Linear algebra and its applications. – 4th ed. – Belmont, CA: Thomson, Brooks/Cole, 2005.
6. Martin C.D., Porter M.A. The extraordinary SVD // American Mathematical Monthly. – 2012. – Vol. 119, N 10. – P. 838–851.
7. Golub G.H., Van Loan C.F. Matrix computations. – 3rd ed. – Baltimore, MD: Johns Hopkins University Press, 1996.
8. Kolda T.G., Bader B.W. Tensor decompositions and applications // SIAM Review. – 2009. – Vol. 51 (3). – P. 455–500.
9. LIBLINEAR – A Library for Large Linear Classification [Electronic resource]. – URL: http://www.csie.ntu.edu.tw/~cjlin/liblinear/ (accessed: 08.06.2017).
10. A dual coordinate descent method for large-scale linear SVM / C.-J. Hsieh, K.-W. Chang, C.-J. Lin, S.S. Keerthi, S. Sundararajan // Proceedings of the 25th International Conference on Machine Learning: ICML 2008. – New York, NY: ACM, 2008. – P. 408–415.
11. D’yakonov A. A blending of simple algorithms for topical classification [Electronic resource] // Rough Sets and Current Trends in Computing: 8th International Conference, RSCTC 2012: Proceedings. – 2012. – Berlin; New York: Springer, 2012. – P. 432–438. – (Lecture Notes in Computer Science; vol. 7413). – URL: http://www.springerlink.com/content/73g4kl50m6112420 (accessed: 08.06.2017).
12. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. – М.: Вильямс, 2011. – 528 с.
13. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. – М.: Наука, 1978. – Вып. 33. – С. 5–68.
14. D’yakonov A.G. Two recommendation algorithms based on deformed linear combinations // DCW-2011: ECML/PKDD Discovery Challenge 2011: proceedings of the ECML/PKDD Discovery Challenge Workshop. – [S. l.]: CEUR, 2011. – P. 21–28. – (CEUR workshop proceedings, vol. 770).
15. Funk S. Netflix update: try this at home [Electronic resource]. – URL: http://sifter.org/~simon/journal/20061211.html (accessed: 08.06.2017).
16. Breiman L. Random Forests // Machine Learning. – 2001. – Vol. 45 (1). – P. 5–32.
17. Библиотека scikit-learn для языка Python [Электронный ресурс]. – URL: https://github.com/scikit-learn/scikit-learn (дата обращения: 08.06.2017).