Data Science
Для отбора признаков используем ли мы критерий хи-квадрат вместе с взаимной информацией?
00
Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат
Data Science
Множественные гипотезы в Python
00
Вопрос или проблема Я хочу написать метод для тестирования нескольких гипотез для пары школ (скажем, TAMU и UT Austin). Я хочу рассмотреть все возможные пары слов (Исследование, Тезис, Предложение, ИИ, Аналитика) и протестировать гипотезу о том, что количество
Data Science
Когда имеет смысл использовать тест Хи-квадрат для выбора признаков?
00
Вопрос или проблема Каковы предпосылки, которые необходимо выполнить перед проведением критерия хи-квадрат (бивариантный анализ)? Например, перед тем как получить корреляционную матрицу, мы должны сначала удостовериться в линейности. Что насчет критерия хи-квадрат?
Data Science
Линейная регрессия с фиксированным перехватом, всё в логарифмах
00
Вопрос или проблема У меня есть набор значений для поверхности (в пикселях), который со временем увеличивается (экспоненциально). Поверхность состоит из клеток, которые делятся со временем. После моделирования я пришел к следующей формуле: $$S(t)=S_{initial}2^{t/a_d},$$
Data Science
Какие статистические наборы следует использовать для сравнения 2 дихотомических переменных?
00
Вопрос или проблема У вас есть модель машинного обучения, которая выдает 100 000 из миллиона наблюдений двоичного переменного 0 или 1. Вы хотите проверить, является ли распределение выданных 100 000 наблюдений модели аналогичным миллиону.
Data Science
Какой статистический тест лучше всего подходит для сравнения дихотомических переменных?
00
Вопрос или проблема Вы имеете модель ML, которая выдает 100 000 из миллиона наблюдений дихотомической переменной 0 или 1. Вы хотите узнать, схожа ли распределение выведенных 100 000 наблюдений модели с 1 миллионом. Вы применяете модель 3 раза, назовем
Data Science
Я получаю ошибку AttributeError: у объекта ‘DataFrame’ нет атрибута ‘data’
00
Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’
Data Science
Доброта на тестовом или обучающем наборе?
00
Вопрос или проблема Я разделил свой набор данных на обучающую (80%) и тестовую (20%) выборки. Обучил модель логистической регрессии на обучающем наборе. Теперь хочу проверить адекватность модели с помощью хи-квадрат теста на согласие, на каком наборе