Data Science
Недостающие данные в обучающем наборе и тестовом наборе
00
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
С помощью модели регрессии возможно ли точно предсказать “выталкивающие” результаты на основе сильно несбалансированного набора данных?
00
Вопрос или проблема Заголовок. У меня есть набор данных, который сильно несбалансирован, скажем, выходная переменная, которую я хочу предсказать, ограничена диапазоном от 0 до 1, но почти все точки данных находятся в диапазоне от 0,7 до 0,9, тогда как
Data Science
Импутация данных для сильно отсутствующих признаков
00
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Data Science
Разделение временных данных
00
Вопрос или проблема У меня есть проект, в котором требуется вычислить (с помощью регрессии), сколько времени займет задача. Из определения бизнес-проблемы ясно, что в данных существует некоторая временная зависимость, поэтому мне нужно разделить данные
Data Science
Классификация типов переменных в списке переменных
00
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Как улучшить идентификацию выбросов для удаления
00
Вопрос или проблема У меня есть много наборов данных, где измеренное значение либо «нормальное» (т.е. процесс работает), либо аномальное (т.е. процесс не работает). К сожалению, у меня нет измерений, которые ясно указывают на то, что процесс работает
Data Science
Архитектуры, которые принимают входные данные с разными частотами дискретизации
00
Вопрос или проблема Предположим, что модель обучается на нескольких наборах данных одномерных временных рядов. Эти наборы данных были собраны с разными частотами выборки. Я планирую использовать сверточную нейросеть для обработки этих временных рядов для классификации.
Data Science
Предварительная обработка многомерных данных
00
Вопрос или проблема Я пытаюсь понять, как работает предобработка многомерных данных, но у меня есть несколько вопросов. Например, я могу выполнять сглаживание данных, преобразование (бокс-кокс, дифференцирование), удаление шума в одномерных данных (для
Data Science
Как предварительно обработать файлы Json в табличный формат для задачи классификации файлов.
00
Вопрос или проблема У меня есть файлы json, каждый из которых помечен конкретной меткой от A до C. Ниже приведен образец выходного JSON-файла. Каждый json-файл имеет: p = количество процессов metric = время выполнения (в данных это метрика) callpath представляет
Вопросы и ответы
Datacamp: Образец практического экзамена для инженера по данным (HappyPaws)
00
Вопрос или проблема В настоящее время я работаю над задачей очистки данных, где мне нужно объединить три набора данных, связанные с активностью домашних животных, медицинскими записями и информацией о владельцах. Цель состоит в том, чтобы создать единственный
Data Science
Существует ли стандартизированный способ анализа данных?
00
Вопрос или проблема Существует ли стандартный способ проведения анализа данных? Например, что-то вроде этого: 1. Добыча данных 2. Очистка данных 3. xx 4. Интерпретация данных и результатов Я спрашиваю это, потому что хотел бы сделать это для статьи, которая
Data Science
Недостающие данные продолжают появляться.
00
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Заполнение большого количества пропущенных значений произвольным значением
00
Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков
Data Science
Корреляция пропущенных значений
00
Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?
Data Science
Как я могу рассчитать общее количество дней просрочки между событиями выставления счетов?
00
Вопрос или проблема Я работаю с dataframe, содержащим события подписки, разделенные по именам пользователей, статусам подписки и относительным временным меткам. Для каждой из дат есть изменения во времени, когда подписка становится просроченной и продлевается
Data Science
Современные библиотеки R и/или Python делают SQL устаревшим?
00
Вопрос или проблема Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до их очистки и трансформации. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих
Data Science
Заменить ли значения NaN в столбце результата
00
Вопрос или проблема У меня есть обучающий набор данных, где нам необходимо предсказать “Результат” на основе признаков “A”, “B”, “C” и “D” с использованием машинного обучения. Для нескольких строк “
Data Science
Должен ли я удалить дубликаты по признакам, но без цели?
00
Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными
Data Science
Логистическая регрессия Многоуровневые независимые переменные
00
Вопрос или проблема Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней.
Data Science
Как обрабатывать столбец значений типа int, разделенных запятыми, как строку в наборе данных для обучения модели?
00
Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы