Предсказываем тренды. С Rattle и R в мир моделей классификации. Александр Фоменко
Читать онлайн книгу.с меньшим количеством предикторов легче поддается толкованию, а для платных источников котировок может привести к уменьшению затрат. Статистически более привлекательно оценивать меньше параметров. Кроме того, что более важно, на некоторые модели могут негативно влиять не информативные предикторы.
Некоторые модели естественно стойкие к неинформативным предикторам. Модели, основанные на дереве, например, интуитивно проводят отбор предикторов. Например, если предиктор не используется ни в одном расщеплении во время построения дерева, уравнение предсказания функционально независимо от предиктора.
Важное различие, которое будет сделано в выборе предиктора, является различием контролируемых и безнадзорных методах (методы с учителем и без учителя). Если значение целевой переменной игнорируется во время устранения предикторов, то метод безнадзорный (без учителя). В каждом случае целевая переменная не зависит от фильтрования. Для контролируемых методов (с учителем) предикторы определенно выбраны с целью увеличения точности или поиска такого подмножества предикторов, которое уменьшает сложность модели. Здесь значения целевой переменной обычно используется для определения величины значимости предикторов.
Проблемы, связанные с каждым типом выбора предиктора, очень отличаются, и имеются большие объемы литературы по этой теме.
11.1. Следствия использования неинформативных предикторов
Прежде всего, выбор предиктора направлен на удаление не информативных или избыточных предикторов из модели. Как со многими проблемами, обсужденными в этом тексте, выбор значимости предиктора зависит от используемой модели. Во многих моделях оцениваются параметры каждой составляющей в модели. Из-за этого присутствие не информативных предикторов может прибавить неопределенность к предсказаниям и уменьшить полную эффективность модели.
Учитывая потенциальное негативное воздействие, есть потребность поиска минимального подмножества предикторов. Основная цель состоит в уменьшении их количества, но таким способом, который максимизирует результативность. Как мы можем уменьшить сложность, негативно не влияя на эффективность модели?
11.2. Подходы для сокращения количества предикторов
Кроме моделей со встроенным выбором предиктора, большинство подходов для сокращения количества предикторов может быть разделено на две главных категории:
– методы обертки оценивают многоуровневые модели, используя процедуры, которые прибавляют и/или удаляют предикторы для поиска оптимальной комбинации, которая максимизирует результативность модели. В основном методы обертки являются алгоритмами поиска, которые принимают предикторы на входе и используют результативность модели как результат, подлежащий оптимизации.
– методы фильтра оценивают уместность предикторов за пределами предсказательных моделей и впоследствии моделируются только предикторы, которые удовлетворяют некоторому критерию. Например, для задач классификации индивидуально оценивается каждый предиктор для проверки существования вероятного отношения между ним и наблюдаемыми классами. Только предикторы со значимыми отношениями включаются в модель классификации.
У обоих