Как найти зависимые переменные в наборе данных?

Вопрос или проблема

Я застрял на том, как я могу получить самые зависимые переменные, основываясь на среднем

У меня есть этот параметр, и когда я пытаюсь:

df.groupby('left').mean()

Это дает следующий вывод:

введите описание изображения здесь

И один из моих друзей сказал, что из этого графика зависимые переменные для атрибута left будут

1. Уровень удовлетворенности

2. Среднее количество часов в месяц

3. Повышение за последние 5 лет

Мне интересно Как кто-то мог это предположить?

В статистике независимые переменные – это входные данные, над которыми вы имеете контроль. Зависимые переменные – это результат, наблюдаемый при изменении значений независимых переменных. Поэтому ответ “это зависит”.

Поэтому, если вы изучаете, как изменения значений left влияют на значения уровня удовлетворенности, то значения left являются вашими независимыми переменными, а удовлетворенность – вашими зависимыми переменными.

Вместо этого, если ваш друг делал вывод, что изменения в значениях left вызывают изменения в Уровень удовлетворенности, Среднее количество часов в месяц и Повышение за последние 5 лет, то это очень предвзятый вывод, основанный на отсутствии значительных доказательств. Было бы более уместно говорить о корреляциях между переменными, для которых вы только знаете, что некоторые поведения проявляются вместе (коррелированы), не определяя никакого причинного эффекта.

Когда вы смотрите на satisfaction_level, вы видите, что среднее значение для группы 0 на 50% выше, чем среднее значение группы 1. Таким образом, в среднем “удовлетворенность людей с left=0 более важна, чем удовлетворенность людей с left=1”. Теперь, если новый человек имеет очень высокий уровень удовлетворенности, скорее всего, он из группы 0.

Вы должны проверить, является ли разница в средних статистически значимой. В противном случае эта разница может быть случайной.

Как отметил @Seymour, вы не можете делать выводы о причинности, а только о закономерностях совместного появления.

Вы можете создать простую модель (например, Random Forest) и просмотреть ее после печати. Или вы можете использовать EBM, чтобы понять, какая характеристика влияет на ваш результат и в какой пропорции.

Ответ или решение

В поиске зависимых переменных из набора данных необходимо учитывать несколько ключевых моментов, которые помогут вам понять, какие переменные могут зависеть от других. Рассмотрим этот процесс более подробно.

1. Определение зависимых и независимых переменных

В статистике зависимые переменные представляют собой результаты или отклики, которые мы измеряем и которые могут изменяться в зависимости от других переменных, называемых независимыми. Например, в вашем наборе данных переменная left (ушел ли сотрудник или остался) может рассматриваться как независимая переменная, тогда как satisfaction_level, average_monthly_hours и promotion_last_5_years могут быть зависимыми переменными. Если увольнение (значение переменной left) зависит от удовлетворенности, рабочего времени и продвижения по службе, эти переменные могут быть связаны с причиной увольнения.

2. Использование среднего значения для анализа

Вы упомянули, что используете метод groupby для получения средних значений по переменной left. Это хороший старт для понимания, как сотрудничество с разными переменными может влиять на увольнение. Например, если результаты показывают, что сотрудники, оставшиеся в компании (left=0), имеют более высокие значения satisfaction_level, это может указывать на важность этого фактора для удержания сотрудников.

3. Интерпретация полученных данных

Проанализировав полученные средние значения, стоит учесть, что, хотя большие различия в средних значениях могут указывать на связь между переменными, делать вывод о причинно-следственных связях нельзя без дополнительных статистических проверок. Например, если уровень удовлетворенности у сотрудников, которые остались в компании, значительно выше, чем у тех, кто ушел, это может свидетельствовать о том, что удовлетворенность влияет на решение остаться или уйти.

4. Статистическая значимость

Важно провести тесты на статистическую значимость, чтобы определить, являются ли наблюдаемые различия значительными или же они могут быть следствием случайных колебаний. Например, можно использовать t-тесты или ANOVA, чтобы проверить гипотезу о наличии различий между группами.

5. Моделирование и анализ

Для более глубокого анализа можно использовать моделирование, например, метод случайного леса (Random Forest) или метод интерпретируемой градиентнойboosting модели (EBM). Эти подходы позволят вам определить, какие переменные наиболее сильно влияют на зависимую переменную и в какой степени. Это повысит вашу уверенность в выводах.

6. Подход к анализу данных

Итак, чтобы найти зависимые переменные в вашем наборе данных:

  • Определите, какие переменные вы считаете независимыми и зависимыми на основе теории и логики вашего исследования.
  • Используйте агрегацию и средние значения, чтобы получить предварительные выводы.
  • Проведите тесты на значимость, чтобы прикрепить статистическую основу к вашим выводам.
  • Используйте методы моделирования для более углубленного анализа и интерпретации данных.

Заключение

В заключение, процесс нахождения зависимых переменных в наборе данных требует тщательного анализа и оценки. Не забывайте, что корреляция не является причиной, и надо тщательно проверять полученные гипотезы через эксперименты и статистические анализы. Такой подход приведет к более обоснованным выводам и улучшит вашу способность делать информированные решения на основе данных.

Оцените материал
Добавить комментарий

Капча загружается...