Data Science
Мне стоит получить фиктивные переменные, а затем посмотреть на многоколлинеарность?
00
Вопрос или проблема У меня есть данные, которые включают непрерывные и категориальные признаки. Задача заключается в регрессии, и я ищу способ удалить признаки, которые сильно коррелируют с другими признаками (мультиколлинеарность).
Data Science
Как вычислить временно задержанную корреляцию между двумя переменными с множеством примеров в каждый момент времени t?
00
Вопрос или проблема У меня есть словарь следующей формы: datetimes = {год : {имя : (оценка1, оценка2)}} # есть 50+ имен/год Таким образом, по сути, я пытаюсь получить общее представление о том, как оценка1 в год_n коррелирует с оценкой2 в год_n.
Data Science
Прогнозы нейронной регрессии вокруг среднего значения цели
00
Вопрос или проблема У меня есть регрессионная модель с трансформером и некоторые данные о последних транзакциях пользователей (категориальные и числовые). Моя целевая переменная имеет экспоненциальное распределение со средним около 10e4 и также имеет
Data Science
Снизьте переобучение модели на одном подмножестве данных.
00
Вопрос или проблема У меня есть набор данных о продажах продуктов. В этом наборе данных есть случаи, когда происходят markdown-скидки. Исторически, обычно в данных ранее было 30% скидок, когда продукты продавались лучше, а комбинации скидок 30% и 50%
Data Science
Переподбор нормально распределенного набора данных для регрессионных задач?
00
Вопрос или проблема У меня есть набор данных из операционного процесса с 5 измерениями и 1 результатом. Все значения нормально распределены. Когда я обучаю регрессионную модель на этом наборе данных, она хорошо работает на большинстве данных – в условиях по умолчанию.
Data Science
Что делать, когда тестовые значения не коррелируют с прогнозами?
00
Вопрос или проблема У меня есть задача регрессии, где я получил среднюю абсолютную ошибку, близкую к желаемому значению, но предсказания плохо коррелируют с ожидаемыми значениями. Я пробовал несколько алгоритмов, сопоставил их с GridSearchCV.
Data Science
Непрерывное оценивающее время прибытия
00
Вопрос или проблема Я пытаюсь создать модель для определения времени прибытия отправленного продукта в пункт назначения. Существуют несколько этапов, через которые проходит доставка, поэтому это не просто время в пути от точки А до точки Б.
Data Science
Как создать модель для выбора набора категорий с набором атрибутов?
00
Вопрос или проблема У меня есть несколько сотен категорий, каждая из которых имеет конкретный набор атрибутов с различными значениями (историческими). Проблема, которую мне нужно решить, заключается в том, чтобы выбрать лучший набор категорий из меньшей
Data Science
Ищу пару идей, пожалуйста.
00
Вопрос или проблема У меня есть данные по почтовым зонам, которые включают: Код почтовой зоны Среднее значение аренды за квадратный фут Привязанность к бренду 1 Привязанность к бренду 2 Привязанность к бренду 3 Привязанность к бренду 4 … и так далее Данные
Data Science
Обработка сдвига ковариат и многоколлинеарности в одном наборе данных
00
Вопрос или проблема Проблема связана с регрессионной задачей. Я получаю партии данных из источника эксперимента, который имеет примерно 3 тысячи столбцов. Однако я заметил, что почти 99% столбцов сильно коррелируют друг с другом.
Data Science
С чего мне начать? У меня есть массивные данные (из веб-скрапинга), и я хочу предсказать y по 20 переменным.
00
Вопрос или проблема Я пытаюсь изо всех сил воссоздать алгоритм, который использует компания, обрабатывая все его выводы и добавляя некоторые релевантные переменные (я не смогу полностью его воспроизвести, так как у меня нет данных по запасам).
Data Science
Какой метрикой оценивается направленная производительность в регрессионных моделях?
00
Вопрос или проблема Не уверен, озадачивает ли заголовок или нет. Вот пример: Предположим, мы строим регрессионную модель для предсказания цен на жилье. Однако, вместо того чтобы заботиться о точности предсказания, где MAE, MSE и некоторые другие метрики
Data Science
Обработка непрерывных данных как задачи классификации путем прогнозирования интервалов или квинтилей.
00
Вопрос или проблема В настоящее время у меня есть модель, которая имеет несколько числовых Y или предсказываемых переменных. Пример данных: Y1 Y2 … YN 2710 0.32 … 31231 1710 0.52 … 51231 В настоящее время я использую регрессию (многовыходную
Data Science
Я сталкиваюсь с ошибкой: объект DecisionTreeRegressor не имеет атрибута n_features.
00
Вопрос или проблема Трассировка (самый последний вызов последним): Файл "/usr/local/lib/python3.8/dist-packages/flask/app.py", строка 2073, в wsgi_app ответ = self.full_dispatch_request() Файл "/usr/local/lib/python3.8/dist-packages/flask/app.
Data Science
Подготовка нескольких временных рядов для обучения модели регрессии Keras LSTM
00
Вопрос или проблема У меня есть обучающие данные, организованные в массиве numpy, в котором: * столбец – это признак, последний столбец – это целевая переменная, * каждая строка – это одно наблюдение. Дело в том, что этот 2D массив состоит
Data Science
Назначьте оценку риска в записях в наборе данных.
00
Вопрос или проблема Мне стало интересно, могу ли я создать модель, которая будет присваивать оценку рисков записи, используя в качестве входных данных числовые и категориальные признаки, если у меня есть набор данных с категориальными и числовыми данными
Data Science
Я получаю отрицательный убыток, используя PyCharm, и положительный, используя Google Colab или Kaggle.
00
Вопрос или проблема У меня есть данные в виде изображений и 2 столбца: один содержит значения тангенса, а второй – для указания, являются ли мои значения отрицательными или положительными. У меня есть два выхода: классификация и регрессия.
Data Science
Какая функция потерь является лучшей функцией потерь при использовании регрессии XGB с сильно искаженными данными?
00
Вопрос или проблема Какая функция потерь является лучшей функцией потерь при использовании регрессии XGB с сильно искаженными данными? Искаженность данных очень высока. Я использовал XGBoost с целевой функцией линейной регрессии (но данные были преобразованы
Data Science
Проблема с моей пользовательской функцией потерь: я получаю отрицательное значение потерь в PyCharm и положительное в Google Colab или Kaggle.
00
Вопрос или проблема У меня есть данные в виде изображений и 2 колонок: одна содержит значения тангенсов, а вторая указывает, являются ли мои значения отрицательными или положительными, и у меня есть два вывода: классификация и регрессия.
Data Science
Какой лучший\правильный метод разделения данных во времени для сравнения производительности предсказания будущих данных между регрессорами ML и DL?
00
Вопрос или проблема Предположим, у меня есть набор данных, который содержит временную метку (нестандартная колонка временной метки без формата даты и времени) в качестве одного признака и count в качестве метки/цели для предсказания в следующем формате