Data Science
Является ли пакет plyr устаревшим или избыточным (если мы используем dplyr)?
00
Вопрос или проблема Мы используем пакет plyr в одном из наших курсов по манипуляциям с данными на R. У нас также есть материалы по пакету dplyr. Вы считаете, что пакет plyr устарел или избыточен? Нужно ли нам продолжать его преподавание?
Data Science
Исследовательский анализ данных на наборе, разделенном на победителей и проигравших
00
Вопрос или проблема У меня есть набор данных о характеристиках победителей теннисных турниров и о характеристиках проигравших: возраст_победителя, рейтинг_победителя / возраст_проигравшего, рейтинг_проигравшего Чтобы провести надлежащий EDA, мне нужно
Data Science
Какой лучший подход к работе с пропущенными данными в наборе данных?
00
Вопрос или проблема У меня есть набор данных, содержащий пропущенные значения в некоторых столбцах. Я хотел бы знать, какой лучший подход для работы с этими недостающими данными. Следует ли мне удалять строки с пропущенными данными или заполнять отсутствующие
Data Science
Существует ли токенизатор для токенизации кода на языке Swift в Python?
00
Вопрос или проблема import SwiftUI struct ContentView: View { @State var moveOnPath = false var body: some View { ZStack { Circle() .stroke() .frame(width: 100, height: 100, alignment: .center) Circle() .frame(width: 15, height: 15, alignment: .
Data Science
Линейная модель: Как работать с предикторами с большим количеством отсутствующих/малых значений?
00
Вопрос или проблема У меня есть линейная модель, используемая для прогнозирования, с около 30 предикторами, которые представляют собой процент использования автомобилей по различным почтовым индексам. Все эти предикторы имеют одну и ту же величину, так
Data Science
Подготовка данных для машинного обучения
00
Вопрос или проблема Я новичок в машинном обучении. У меня есть задача предсказать результат “процесса” для набора входных данных. Проблема в том, что “процесс” не производит точно одинаковый выход для данного набора входных данных
Data Science
PySpark: Как указать ось dropna в преобразовании PySpark?
00
Вопрос или проблема Я хотел бы удалить столбцы, которые содержат только значения null, используя dropna(). В Pandas это можно сделать, установив аргумент ключевого слова axis="columns" в dropna(). Вот пример в посте на GitHub. Как это сделать в PySpark?
Data Science
Предобработка данных
00
Вопрос или проблема Я просто хочу знать, как определить, следует ли удалять отсутствующие значения или заполнять их средним, медианой или модой. Обычно я удаляю отсутствующие значения, но это уменьшает размер датасета более чем на 50%.