Data Science
Почему мы не можем подать datetime на линейную регрессию и чем toordinal() отличается от любого другого типа данных целого числа?
00
Вопрос или проблема Я впервые работаю с датами. Сначала я знал, что мне нужно преобразовать их в временные метки, что дало мне значения в формате “datetime64”. Но потом я узнал, что линейная регрессия из sklearn не принимает datetime как тип данных для регрессии.
Data Science
Оптимизируйте F-оценку только для определенных классов, игнорируя другие классы.
00
Вопрос или проблема У меня есть размеченный набор данных с обзорами продуктов, где метка — это оценка от 1 до 5, а обзор — просто текст. Я использую простой наивный байесовский классификатор (sklearn), чтобы попытаться предсказать оценку, учитывая обзор
Data Science
ValueError: Найдены входные переменные с несовпадающим числом образцов: [0, 6]
00
Вопрос или проблема Я пытаюсь вставить некоторые данные в алгоритм, но получаю эту ошибку: ValueError: Найдены входные переменные с несоответствующим числом образцов: [0, 6] Как я могу это решить? Вот мой код ниже: #Импорт всех библиотек from connect_db
Data Science
Корреляция с целевой переменной для регрессионной задачи
00
Вопрос или проблема Учитывая следующий датафрейм age job salary 0 1 Doctor 100 1 2 Engineer 200 2 3 Lawyer 300 ... с age как числовым, job как категориальным, я хочу протестировать корреляцию со зарплатой, с целью выбора признаков (возраст и/или работа)
Data Science
Объяснение цикла for в демонстрации алгоритма DBSCAN
00
Вопрос или проблема Что происходит с данными в нижнем цикле for в следующем коде алгоритма DBSCAN и почему? # Генерация выборочных данных import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.
Data Science
Чтение модели, сохраненной в двоичном формате
00
Вопрос или проблема Я использую корзину S3 для хранения модели, которую я обучил на Python. Поскольку я использую корзину S3, я сначала преобразую файл в двоичный формат, а затем сохраняю его в корзину. with open(r'model_svc_kernel_linear02.
Data Science
Метрики точности, полноты и правильности существенно различаются между обучающими/валидационными данными и фактическими предсказаниями.
00
Вопрос или проблема У меня есть две последовательные модели, построенные с использованием Keras, которые обучаются на данных из CSV-файла. Вот как они построены # Первая модель model = Sequential() model.add(Input(shape=X_1.shape)) model.
Data Science
Поиск наблюдений, которые наиболее схожи в некоторых аспектах, но наиболее различаются в других.
00
Вопрос или проблема У меня есть набор данных из примерно 75 административных регионов. Среди множества других переменных есть четыре специфические демографические переменные и число, представляющее финансирование на душу населения от государственного гранта.
Data Science
Ожидался двумерный массив, вместо этого получен скалярный массив: array=11
00
Вопрос или проблема import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.metrics import r2_score # загрузка данных veriler = pd.read_csv(r'C:\Users\k\Desktop\maaslar_yeni.csv') # x здесь независимая переменная, y же является зависимой переменной.
Data Science
МОДЕЛЬ LLAMA БЕЗ ИСПОЛЬЗОВАНИЯ API HUGGINGFACE
00
Вопрос или проблема Возможно ли получить модель Llama отдельно в виде исходного кода с открытым доступом, не используя API Huggingface, чтобы разместить её на нашем сервере? Лицензия для Llama здесь https://huggingface.co/decapoda-research/llama-7b-hf/blob/main/LICENSE
Data Science
Случайный лес всегда прогнозирует класс большинства
00
Вопрос или проблема Я предсказываю исход болезни, используя биологические данные (метаболиты плюс ковариаты: возраст, пол и ИМТ). Исход является бинарной переменной и умеренно несбалансирован (~12% положительных случаев). У меня относительно большое число
Data Science
Как декодировать закодированные метки в классификаторе деревьев решений
00
Вопрос или проблема У меня есть набор данных с закупками организации, в которой я работаю. Цель состоит в том, чтобы найти наиболее важные характеристики, которые объясняют, почему некоторые процессы закупок успешны, а другие –
Data Science
Ошибка формы ввода
00
Вопрос или проблема У меня есть этот элемент: [‘6’, ‘1’, ‘6’, ‘843537’, ‘3’, ‘0’, ‘5’, ‘1006709’, ‘3’, ‘1’
Data Science
ValueError: Найдены входные переменные с несовпадающим количеством образцов: [6, 366]
00
Вопрос или проблема Я пытаюсь разделить свои x и y на обучающие и тестовые данные для моей модели машинного обучения, но получаю эту ошибку: ValueError: Найдены входные переменные с непоследовательным количеством образцов: [6, 366].
Data Science
Какие шаги предварительной обработки следует выполнить перед сравнением изображений?
00
Вопрос или проблема 1 показать вниз избранное Например, я пытаюсь найти схожесть между двумя изображениями, используя skimage – SSIM. Код будет выглядеть следующим образом from skimage.measure import compare_ssim as ssim from skimage import io from skimage.
Data Science
Как избежать ошибки памяти при вызове метода Pandas pd.read_csv в сочетании с использованием GridSearchCV для модели DecisionTreeRegressor?
00
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Data Science
Подгонка повёрнутой кривой
00
Вопрос или проблема Я пытаюсь подогнать вращающуюся параболу с помощью curve_fit, но она не подходит хорошо, как показано ниже: Я уже пытаюсь подогнать кривую с учетом зависимости от cos(𝜃) и sin(𝜃) следующим образом: def rotated_parabola(x, a, b, c
Data Science
Обнаружение аномалий с использованием кластеризации высококоррелированных категориальных данных.
00
Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.
Data Science
Улучшение точности предсказаний с помощью XGBoost
00
Вопрос или проблема У меня есть матрица 32×20, для которой я пытаюсь использовать XGBoost (регрессия). Я прохожу по строкам, чтобы произвести прогноз вне выборки. Я удивлен, что XGBoost возвращает ошибку вне выборки (MAPE) всего 3-4%.
Data Science
Обработка непрерывных данных как задачи классификации путем прогнозирования интервалов или квинтилей.
00
Вопрос или проблема В настоящее время у меня есть модель, которая имеет несколько числовых Y или предсказываемых переменных. Пример данных: Y1 Y2 … YN 2710 0.32 … 31231 1710 0.52 … 51231 В настоящее время я использую регрессию (многовыходную