preprocessing
Data Science
Вопрос или проблема Я работаю с взаимодействиями в своей модели машинного обучения, где я создаю новые признаки, умножая числовую переменную на закодированный категориальный признак. Мой вопрос: Следует ли применять нормализацию к этим термам взаимодействия?
Data Science
Вопрос или проблема Мне интересно, какие статистические инструменты использовать при анализе данных, имеющих несколько сильных эффектов партии (распределения варьируются от одной партии к другой). Я хотел бы скорректировать эффект партии, когда он возникает
Data Science
Вопрос или проблема Я работаю над проектом, цель которого состоит в кластеризации участников опроса в зависимости от их ответов. Набор данных состоит из 63 вопросов, некоторые из которых номинальные, а некоторые – порядковые.
Data Science
Вопрос или проблема Я пытаюсь предсказать следующую метку в шаблоне на основе предыдущих меток, используя рекуррентную нейронную сеть. У меня в общей сложности 100 меток. Пример входного шаблона: 1) апельсин, яблоко, банан, лимон ->
Data Science
Вопрос или проблема Я предварительно обрабатываю свои данные для использования в модели линейной регрессии. Мои признаки сильно искажены, и я хотел бы применить трансформацию Йео-Джонсона к некоторым из моих признаков, а логарифмическую трансформацию к другим.
Data Science
Вопрос или проблема У меня есть набор данных по продажам, в котором каждый магазин имеет уникальный идентификатор. Набор данных содержит ежедневные данные о продажах для каждого магазина за период около двух лет. Я хочу построить модель прогнозирования
Data Science
Вопрос или проблема У меня есть набор данных с ~40k записей и 16 столбцами (включая целевой) и я хочу понять правильный процесс всего процессаData Science. Вот что я сделал: Провел EDA, в результате чего я удалил два столбца, так как они были сосредоточены
Data Science
Вопрос или проблема У меня есть данные о многих автомобилях за время (несколько лет на каждый автомобиль) Я планирую создать модель для всех автомобилей вместе (не одну модель на каждый автомобиль). Хочу ли я нормализовать (привести к стандартному виду)
Data Science
Вопрос или проблема В настоящее время я работаю над реализацией модели EEG_DMNet. Для предварительной обработки требуется использование дифференциальной энтропии, как $$ h(X) = -\int_{-\infty}^{\infty} p(x) \log p(x) \, dx $$ Предполагая, что данные
Data Science
Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).
Data Science
Вопрос или проблема Я применяю логарифмическое преобразование ко всем переменным, которые, кажется, имеют выбросы (на основе боксплотов). Мой вопрос: если у меня есть переменная, например, ‘Возраст’, где есть значения выше 100, и я выполняю
Data Science
Вопрос или проблема Я хочу обучить OneClassSVM() с помощью sklearn, и у меня есть набор из около 800 изображений в тренировочном наборе. Я использую opencv для чтения изображений и изменения их размера до постоянных размеров (960×
Data Science
Вопрос или проблема Я пытаюсь улучшить точность. Я создал несколько новых признаков на основе старых признаков. Поэтому мне нужно заполнить пустые ячейки новых признаков одинаковыми значениями, чтобы уравнять формы. Затем я попробовал это с медианой
Data Science
Вопрос или проблема Я хочу создать новую переменную для датафрейма details, названную lower, после итерации по нескольким data frames. list1 – это список строковых значений столбца с именем variable_name в details. vars_df –
Data Science
Вопрос или проблема Извините, если это слишком общий вопрос, но я застрял где-то между идеальным и адекватным в моей модели. Поэтому я хотел бы спросить здесь. Если это не подходящий вопрос, ваши негативные отзывы тоже приветствуются, извините.
Data Science
Вопрос или проблема Я работаю над кодом регрессии с использованием нейронной сети. Набор данных включает 14 признаков в диапазоне значений от -1 до 1, в то время как целевая переменная изменяется от (0.000759) до (1100). Целевые значения масштабируются тремя методами.
Data Science
Вопрос или проблема Я тренирую регрессионную модель (используя лес регрессии с квантилами) для прогнозирования отклонений урожайности от тренда (остатков) с использованием погодных переменных с разными временными задержками. Пытаясь улучшить точность
Data Science
Вопрос или проблема У меня есть столбец в Excel, который содержит много данных, разделенных разделителями ||. Данные можно классифицировать по некоторым классам, таким как сущности, коды IFSC, идентификаторы транзакций и т. д.
Data Science
Вопрос или проблема Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует
Data Science
Вопрос или проблема Я работаю над проектом, в котором две функции называются entryHeading и exitHeading. Обе они указывают направление (С, СВ, В, ЮВ, Ю, ЮЗ, З) транспортного средства в нескольких точках. Мой вопрос: как мне подойти к предварительной обработке этих данных?