Аннотация
Рассмотрена задача построения локально взвешенной регрессии в условиях, когда один из входных факторов наблюдается со случайными ошибками, а другие являются детерминированными. Наличие погрешностей в объясняющей переменной приводит к ухудшению качества оценивания на основе взвешенного метода наименьших квадратов, поэтому предлагается восстанавливать ортогональную регрессию. Получено аналитическое решение, учитывающее наличие детерминированных факторов в модели. Однако возникает проблема с тем, что веса, задающие локальную область, зависят от параметров регрессии. В этой связи наряду с известным адаптивным алгоритмом разработана итерационная процедура оценивания. Для определения оптимального числа ближайших соседей предложено использовать корень из среднего квадрата остатков модели. В ходе вычислительного эксперимента подтверждена правомерность использования такого критерия при малом и среднем уровне зашумления данных. Большая степень засорения выборки приводит к проблемам со сходимостью итерационного алгоритма и со стабильностью результатов оценивания адаптивным алгоритмом. Это влечет за собой искажение оценок отклика, и тем самым гладкость восстанавливаемой кривой обеспечивается только при значительном числе ближайших соседей. Дальнейшее развитие алгоритмов связывается с повышением их устойчивости к сильному засорению данных. Разработанный итерационный алгоритм применен для исследования успеваемости студентов. Произведено сглаживание средних результатов первой сессии в зависимости от суммарного балла единого государственного экзамена (ЕГЭ), направленности блока изучаемых дисциплин и вида факультета технического вуза. Это позволило сделать качественные выводы об особенностях процесса освоения образовательных программ в вузе и об истинном уровне знаний студентов.
Ключевые слова: локально взвешенная регрессия, ближайший сосед, ортогональная регрессия, метод общих наименьших квадратов, детерминированный фактор, качественный признак, вычислительный эксперимент, оценка успеваемости