Data Science
Недостающие данные в обучающем наборе и тестовом наборе
00
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
Нахождение уравнения для модели множественной и нелинейной регрессии?
00
Вопрос или проблема Что касается нелинейной и многомерной регрессии, я использую R или Matlab. В случае, когда у меня есть регрессия только с двумя переменными, я просто рисую график Y относительно X и ищу уравнение модели, которое наилучшим образом соответствует
Data Science
Предложение по соответствию
00
Вопрос или проблема Я пытаюсь сравнить два предложения, которые могут или не могут быть на одну и ту же тему (продукт). Я пробовал несколько метрик, таких как косинусное сходство, расстояние и т. д., но результаты не впечатляют.
Data Science
Как запустить две разные модели в одном кадре?
00
Вопрос или проблема У меня есть mask_detector.model и веса yolov3 для социальной дистанции. Я хочу запустить их одновременно с одним потоком веб-камеры. Как я могу запустить их оба, то есть детектировать маску и модель социальной дистанции вместе?
Data Science
Чтение модели, сохраненной в двоичном формате
00
Вопрос или проблема Я использую корзину S3 для хранения модели, которую я обучил на Python. Поскольку я использую корзину S3, я сначала преобразую файл в двоичный формат, а затем сохраняю его в корзину. with open(r'model_svc_kernel_linear02.
Data Science
Как посчитать количество слов в датафрейме?
00
Вопрос или проблема Я хотел бы посчитать, сколько мужчин и женщин ответили (например, Велосипед / Велоспорт). Ниже приведены примерные данные: Метод Series.str.contains вернет True для строковых элементов в серии, которые содержат подстроку.
Data Science
Понимание доверительного интервала
00
Вопрос или проблема Я пытаюсь понять концепцию доверительных интервалов. Каково значение точечных оценок и доверительных интервалов? Я понял, что точечная оценка в доверительном интервале по сути является статистикой распределения выборки.
Data Science
Как построить необbiased предсказательную модель машинного обучения, когда количество записей события меньше по сравнению с общим количеством записей?
00
Вопрос или проблема Я пытаюсь создать модель, которая будет предсказывать потерю связи беспроводного устройства. На данный момент я использую RandomForestClassifier, а также в качестве признаков – устройство и местоположение.
Data Science
Можно ли заменить категориальные данные на числа в задачах классификации?
00
Вопрос или проблема Я работаю с данными классификации, которые имеют 9 классов и множество признаков. Классы, очевидно, категориальные, как и некоторые признаки. Я использовал технику одноразового кодирования для преобразования категориальных данных в числовые.
Data Science
ValueError: Найдены входные переменные с несовпадающим количеством образцов: [6, 366]
00
Вопрос или проблема Я пытаюсь разделить свои x и y на обучающие и тестовые данные для моей модели машинного обучения, но получаю эту ошибку: ValueError: Найдены входные переменные с непоследовательным количеством образцов: [6, 366].
Data Science
Снизьте переобучение модели на одном подмножестве данных.
00
Вопрос или проблема У меня есть набор данных о продажах продуктов. В этом наборе данных есть случаи, когда происходят markdown-скидки. Исторически, обычно в данных ранее было 30% скидок, когда продукты продавались лучше, а комбинации скидок 30% и 50%
Data Science
Является ли развертывание машинного обучения частью науки о данных?
00
Вопрос или проблема Я подал заявку на (предположительно) должность дата-сайентиста. Я удивлён, что часть моих обязанностей включает развертывание моделей машинного обучения в производственной среде/облаке. Я бы подумал, что это задача дата-инженера.
Data Science
Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)
00
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Ищу пару идей, пожалуйста.
00
Вопрос или проблема У меня есть данные по почтовым зонам, которые включают: Код почтовой зоны Среднее значение аренды за квадратный фут Привязанность к бренду 1 Привязанность к бренду 2 Привязанность к бренду 3 Привязанность к бренду 4 … и так далее Данные
Data Science
Обнаружить крупнейший связанный компонент на散点ном графике (на двумерных данных)
00
Вопрос или проблема У меня есть бивариантные данные, представляющие положение определенной опорной точки вдоль оси y, которая варьируется от -100 до 100 мм. Когда я строю эти данные в виде графика рассеяния, я вижу выбросы и группы неправильно определенных опорных точек.
Data Science
В чем разница между сглаживающейся кривой валидации и такой, которая снова увеличивается?
00
Вопрос или проблема Я знаю, что мы отслеживаем потери на валидации для изучения переобучения. Мне известна кривая валидации, которая сначала уменьшается, а затем снова увеличивается. Увеличивающаяся часть означает, что модель начинает переобучаться.
Data Science
Инженерия признаков: признак свежести
00
Вопрос или проблема У меня есть проблема с оценкой клиентов, над которой я работаю, в частности, с прогнозированием конверсии и подсчетом вероятностного балла конверсии (в данный момент используется классификатор xgboost). Есть один признак, который я
Data Science
Существует ли стандартизированный способ анализа данных?
00
Вопрос или проблема Существует ли стандартный способ проведения анализа данных? Например, что-то вроде этого: 1. Добыча данных 2. Очистка данных 3. xx 4. Интерпретация данных и результатов Я спрашиваю это, потому что хотел бы сделать это для статьи, которая
Data Science
Что значит нормализовать временной ряд по отношению к другому?
00
Вопрос или проблема Я рассматриваю способы уменьшения размерностей многомерного набора данных до одномерных сигналов. Но сначала нужно провести некоторую предобработку. Кто-то упомянул, что мне следует объединить сигналы, сначала нормализовав временные
Data Science
Как я могу уменьшить количество измерений, используя алгоритм кластеризации в смешанном наборе данных?
00
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.