Вопрос или проблема
Я пытаюсь предсказать общую продолжительность существования возможности (дата создания – дата закрытия), это моя зависимая переменная.
Предположим, возможность проходит через 3 этапа до закрытия.
Например: Opp x находился на
- этапе 1: 30 дней
- этапе 2: 10 дней
- этапе 3: 20 дней
На этапе 3 я могу закрыть его в тот же день или подождать некоторое время.
Так что если я подождал некоторое время до закрытия, оно будет создано: 22/11/2018 и закрыто: 9/2/2019.
Есть opp y, где я закрываю его в тот же день этапа 3, поэтому создано: 22/11/2018 и дата закрытия: 21/1/2019.
Сводка
+---------+--------+--------+--------+--------+
| OppName | oppAge | stage1 | stage2 | stage3 |
+---------+--------+--------+--------+--------+
| x | 79 | 30 | 10 | 20 |
| y | 60 | 30 | 10 | 20 |
+---------+--------+--------+--------+--------+
Мой вопрос заключается в следующем:
- Могу ли я включить этапы 1, 2, 3 в качестве независимых переменных для создания модели регрессии?
- Они кажутся практически идеальными для модели, так что лучше включить, возможно, только этап 1? без 2 и 3
Выполненная работа, добавлены правки
-
Я преобразовал этапы в категориальную природу, например, менее 30 дней до 1 месяца, 30-60 дней преобразованы в 1-2 месяца и так далее.
+-----------+ | stage1 | +-----------+ | <1month | | 1~2months | | 6~7months | +-----------+
-
Затем я выполнил one-hot кодирование для этапов, таких как этап 1.
-
Затем я остановился, так как не был уверен, включать ли все или нет?
Выполните one-hot кодирование этих трех переменных этап вместо включения всех трех. И снова, включать любые из них стоит ТОЛЬКО в случае, если они имеют значение, так что предварительное выполнение PCA не будет плохой идеей в целом.
Ответ или решение
Теория
Фаза отбора признаков (или «feature selection») — это важный этап в процессе создания модели машинного обучения. Цель данной фазы — выявление наиболее значимых переменных (факторов), которые вносят наибольший вклад в предсказание целевой переменной, в данном случае, общего возраста возможности (разница между датой создания и датой закрытия). Этот процесс не только улучшает производительность модели, но и делает ее более интерпретируемой, снижая вероятность переобучения.
Особенности модели, которые представлены в различных стадиях прохождения возможности через процесс закрытия сделки (например, стадия 1, стадия 2 и стадия 3), могут существенно повлиять на её предсказательную способность. Однако важно понимать, какие именно признаки необходимо включить в модель, чтобы избежать нарушения ее эффективности, например, из-за мультиколлинеарности или избыточности информации.
Пример
Для наглядности рассмотрим конкретный пример. У нас есть две возможности: x и y. Возможность x проходит через три стадии: на первой стадии она находится 30 дней, на второй — 10, и на третьей — 20. Возможность закрывается не сразу, а спустя некоторое время, и в итоге её общий возраст составляет 79 дней. Возможность y, напротив, закрывается в день завершения третьей стадии, и её общий возраст — 60 дней. Данные представлены следующим образом:
+---------+--------+--------+--------+--------+
| OppName | oppAge | stage1 | stage2 | stage3 |
+---------+--------+--------+--------+--------+
| x | 79 | 30 | 10 | 20 |
| y | 60 | 30 | 10 | 20 |
+---------+--------+--------+--------+--------+
Применение
-
Включение стадий как независимых переменных:
Вы можете включать стадии 1, 2 и 3 как независимые переменные для создания модели регрессии. Каждая стадия предоставляет индивидуальную информацию о количестве дней, проведенных на этой стадии, которая может быть полезной для предсказания общего возраста возможности. Например, вы можете предположить, что определенные стадии могут быть более значимыми для увеличения или уменьшения времени до закрытия возможности.
-
Выбор стадии 1 в качестве независимой переменной:
Если анализ показывает, что стадии 2 и 3 не вносят значительного вклада в улучшение модели, то можно рассмотреть возможность использования только стадии 1. Это может быть разумным решением, если стадия 1 содержит основную часть времени цикла и в значительной мере определяет общую продолжительность.
-
Преобразования признаков:
Было предпринято преображение стадий в категориальную форму, например, "<1 месяц", "1-2 месяца", "6-7 месяцев". Такое преобразование может помочь выявить скрытые шаблоны и зависимости. Затем, для каждой категории признака был выполнен one-hot кодирование, чтобы представить их в числовом формате, что необходимо для многих алгоритмов машинного обучения.
-
Предложение провести предварительный анализ с использованием PCA:
Перед окончательным выбором признаков стоит провести анализ главных компонент (PCA), чтобы понять, какие переменные действительно оказывают наибольшее влияние на модель. Это может помочь уменьшить количество признаков без потери значимой информации.
На основании этого, при включении признаков в модель регрессии, необходимо следовать анализа цельности всех данных, чтобы создать оптимальную модель предсказания. Это поможет вам избежать проблем мультиколлинеарности, улучшив обобщающую способность модели.