data-cleaning - ответы на вопросы - Page 2 of 3

Data Science

С помощью модели регрессии возможно ли точно предсказать “выталкивающие” результаты на основе сильно несбалансированного набора данных?

00

Вопрос или проблема Заголовок. У меня есть набор данных, который сильно несбалансирован, скажем, выходная переменная, которую я хочу предсказать, ограничена диапазоном от 0 до 1, но почти все точки данных находятся в диапазоне от 0,7 до 0,9, тогда как

Data Science

Импутация данных для сильно отсутствующих признаков

00

Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений

Data Science

Разделение временных данных

00

Вопрос или проблема У меня есть проект, в котором требуется вычислить (с помощью регрессии), сколько времени займет задача. Из определения бизнес-проблемы ясно, что в данных существует некоторая временная зависимость, поэтому мне нужно разделить данные

Data Science

Классификация типов переменных в списке переменных

00

Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.

Data Science

Как улучшить идентификацию выбросов для удаления

00

Вопрос или проблема У меня есть много наборов данных, где измеренное значение либо «нормальное» (т.е. процесс работает), либо аномальное (т.е. процесс не работает). К сожалению, у меня нет измерений, которые ясно указывают на то, что процесс работает

Data Science

Архитектуры, которые принимают входные данные с разными частотами дискретизации

00

Вопрос или проблема Предположим, что модель обучается на нескольких наборах данных одномерных временных рядов. Эти наборы данных были собраны с разными частотами выборки. Я планирую использовать сверточную нейросеть для обработки этих временных рядов для классификации.

Data Science

Предварительная обработка многомерных данных

00

Вопрос или проблема Я пытаюсь понять, как работает предобработка многомерных данных, но у меня есть несколько вопросов. Например, я могу выполнять сглаживание данных, преобразование (бокс-кокс, дифференцирование), удаление шума в одномерных данных (для

Data Science

Как предварительно обработать файлы Json в табличный формат для задачи классификации файлов.

00

Вопрос или проблема У меня есть файлы json, каждый из которых помечен конкретной меткой от A до C. Ниже приведен образец выходного JSON-файла. Каждый json-файл имеет: p = количество процессов metric = время выполнения (в данных это метрика) callpath представляет

Вопросы и ответы

Datacamp: Образец практического экзамена для инженера по данным (HappyPaws)

00

Вопрос или проблема В настоящее время я работаю над задачей очистки данных, где мне нужно объединить три набора данных, связанные с активностью домашних животных, медицинскими записями и информацией о владельцах. Цель состоит в том, чтобы создать единственный

Data Science

Существует ли стандартизированный способ анализа данных?

00

Вопрос или проблема Существует ли стандартный способ проведения анализа данных? Например, что-то вроде этого: 1. Добыча данных 2. Очистка данных 3. xx 4. Интерпретация данных и результатов Я спрашиваю это, потому что хотел бы сделать это для статьи, которая

Data Science

Недостающие данные продолжают появляться.

00

Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она

Data Science

Заполнение большого количества пропущенных значений произвольным значением

00

Вопрос или проблема У меня есть набор данных, скажем, с 1 миллионом наблюдений. В качестве глупого примера представим, что мы хотим предсказать, может ли человек стать специалистом по данным или нет (0/1). У меня есть переменные, в которых много пропусков

Data Science

Корреляция пропущенных значений

00

Вопрос или проблема Стоит ли изучать корреляцию пропусков между столбцами? Если у вас сильно коррелированные отсутствующие значения (скажем, между двумя столбцами, A и B), как это изменит или повлияет на ваш взгляд на данные? Добавляет ли это новую информацию при анализе данных?

Data Science

Как я могу рассчитать общее количество дней просрочки между событиями выставления счетов?

00

Вопрос или проблема Я работаю с dataframe, содержащим события подписки, разделенные по именам пользователей, статусам подписки и относительным временным меткам. Для каждой из дат есть изменения во времени, когда подписка становится просроченной и продлевается

Data Science

Современные библиотеки R и/или Python делают SQL устаревшим?

00

Вопрос или проблема Я работаю в офисе, где SQL Server является основой всего, что мы делаем, от обработки данных до их очистки и трансформации. Мой коллега специализируется на написании сложных функций и хранимых процедур для методической обработки входящих

Data Science

Заменить ли значения NaN в столбце результата

00

Вопрос или проблема У меня есть обучающий набор данных, где нам необходимо предсказать “Результат” на основе признаков “A”, “B”, “C” и “D” с использованием машинного обучения. Для нескольких строк “

Data Science

Должен ли я удалить дубликаты по признакам, но без цели?

00

Вопрос или проблема Я веду дебаты с кем-то по поводу проблемы, где есть дубликаты по признакам (т.е. $ X_1 = X_2 $, но $ Y_1 != Y_2 $). С моей точки зрения, мы должны сохранить эти данные, так как они могут быть показательными и, следовательно, интересными

Data Science

Логистическая регрессия Многоуровневые независимые переменные

00

Вопрос или проблема Я пытаюсь изучить логистическую регрессию. Когда я сделал целевую переменную со всеми признаками, у меня был итог, показывающий p-значения, как обычно, но один из признаков имеет 60 уровней, другой признак имеет 13 уровней.

Data Science

Как обрабатывать столбец значений типа int, разделенных запятыми, как строку в наборе данных для обучения модели?

00

Вопрос или проблема Я работаю над проектом машинного обучения для прогнозирования победителя матчей по кабадди с использованием набора данных. Одной из важных характеристик является состав команды. У меня есть столбец в DataFrame, который содержит идентификаторы

Data Science

Является ли пакет plyr устаревшим или избыточным (если мы используем dplyr)?

00

Вопрос или проблема Мы используем пакет plyr в одном из наших курсов по манипуляциям с данными на R. У нас также есть материалы по пакету dplyr. Вы считаете, что пакет plyr устарел или избыточен? Нужно ли нам продолжать его преподавание?