data-cleaning
Data Science
Вопрос или проблема Мы используем пакет plyr в одном из наших курсов по манипуляциям с данными на R. У нас также есть материалы по пакету dplyr. Вы считаете, что пакет plyr устарел или избыточен? Нужно ли нам продолжать его преподавание?
Data Science
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Вопрос или проблема У меня есть линейная модель, используемая для прогнозирования, с около 30 предикторами, которые представляют собой процент использования автомобилей по различным почтовым индексам. Все эти предикторы имеют одну и ту же величину, так
Data Science
Вопрос или проблема Я новичок в машинном обучении. У меня есть задача предсказать результат “процесса” для набора входных данных. Проблема в том, что “процесс” не производит точно одинаковый выход для данного набора входных данных
Data Science
Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?
Data Science
Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.