Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Читать онлайн книгу.(MASS)
преобразование Box-Cox. Оценивает λ, но преобразование не выполняет.
BoxCoxTrans (caret)
преобразование Box-Cox с преобразованием данных
prcomp
вычисляет главные компоненты (РСА)
preProcess (caret)
предварительная обработка
cor
корреляция
findCorrelation
возвращает список переменных, рекомендованных для удаления из-за сильной корреляции
dummyVars (caret)
создает фиктивные переменные
3. Переобучение и настройка модели
Многие современные классификационные и регрессионные модели высоко адаптируемы; они способны к моделированию комплексных отношений. Однако они могут очень легко отобразить некие случайности в экономическом процессе. Как говорят – отобразить шум. Без методологического подхода к оценке моделей разработчик модели может узнать о проблеме слишком поздно.
Переобучение (сверх подгонка) – широко известная проблема предсказательных моделей вообще и в области финансов в частности. Фактически переобучение отображает базовую проблему моделирования: модель должна отображать некие основные моменты моделируемого процесса, модель должна быть не слишком груба, но и не слишком точна, чтобы она могла находить основные моменты на новых данных, а не давать ложные сигналы, принимая шум за образцы данных.
К сожалению, отсутствуют формальные критерии переобучения. Поэтому приходится руководствоваться некими эмпирическими критериями, которые дадут практическую ценность модели. Эти эмпирические критерии состоят в том, чтобы дать разработчику предсказательной модели уверенность, что поведение модели на обучающем наборе данных и на данных вне этого обучающего набора, будет примерно одинаковым.
Без этого доверия предсказания модели бесполезны.
3.1. Проблема переобучения
Существует много методов, которые могут изучить структуру ряда данных так хорошо, что при применении модели к данным, на которых была создана модель, она правильно предсказывает каждое значение. В дополнение к изучению общих образцов в данных модель также изучила характеристики отдельного шума каждой выборки. Эта модель, как говорят, переобучена, и с плохой точностью предскажет целевую переменную на новой выборке.
Изначально, мы учим модель на наборе данных обучения и по результатам обучения получаем некую величину ошибки для регрессионных моделей, или рассогласование для классификационных моделей.
Уже на этом этапе возможно переобучение модели: оценка слишком оптимистична, например, ошибка подгонки менее 5%. Да и ошибка подгонки в 10% должна насторожить!
В этих ситуациях очень важно иметь инструмент для определения переобученности модели на учебных данных.
3.2. Настройка модели
У многих моделей есть важные параметры,