Data Science
Заменить пропущенные значения на наиболее частое число при условии
00
Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать
Вопросы и ответы
проблемы производительности использования lambda для присвоения переменных в pandas в цепочке методов
00
Вопрос или проблема Когда я работаю с dataframe в pandas, мне нравится использовать цепочки методов, потому что это делает рабочий процесс похожим на подход tidyverse в R, где вы используете строку пайпов. Рассмотрим пример из этого ответа: N = 10 df = ( pd.
Вопросы и ответы
Как добавить строку для отсортированного многоиндексного датафрейма?
00
Вопрос или проблема У меня есть multiindex dataframe, который получается из groupby. Вот демонстрация: In [54]: df = pd.DataFrame({'color': ['blue', 'grey', 'blue', 'grey', 'black'], 'name': ['pen', 'pen', 'pencil', 'pencil', 'box'],'price':[2.
Вопросы и ответы
Интерполяция данных емкости батареи в логарифмической шкале с использованием Python
00
Вопрос или проблема Я работаю над интерполяцией данных емкости батареи на основе взаимосвязей между hour_rates, capacities и currents. Вот образец моих данных: import numpy as np import pandas as pd from scipy.interpolate import interp1d import matplotlib.
Вопросы и ответы
Разделите столбец списков Pandas на несколько столбцов
00
Вопрос или проблема У меня есть DataFrame Pandas с одним столбцом: import pandas as pd df = pd.DataFrame({"teams": [["SF", "NYG"] for _ in range(7)]}) teams 0 [SF, NYG] 1 [SF, NYG] 2 [SF, NYG] 3 [SF, NYG] 4 [SF, NYG] 5 [SF, NYG] 6 [SF, NYG] Как можно
Вопросы и ответы
Сравнение двух колонок дат, чтобы указать, произошло ли событие после другого.
00
Вопрос или проблема У меня есть датафрейм, в котором я хочу вернуть количество (долю) пациентов, которые прошли последующий осмотр после диагноза заболевания. Исходный ДФ (пример 1 пациента) | patient_id | app_date | diag_date | cancer_yn | |------------|------------|------------|-----------|
Data Science
Подсчет значений из разных столбцов
00
Вопрос или проблема Я работаю с dataframe pandas, который содержит такие столбцы: Col1 Col2 Col3 Col4 Да Нет Возможно Не уверен Возможно Да Нет Нет Да Я пытаюсь подсчитать значения в каждом столбце, а затем сложить их, чтобы получить общие количества этих значений.
Data Science
Сравнить несколько значений из DataFrame с одной строкой из другого.
00
Вопрос или проблема Я пытаюсь сравнить значения адресов на предмет неточностей, например, данные по нескольким записям, как показано ниже: Ссылка Квартира Адрес Почтовый индекс AS097 NaN 00 Name Road BH1 4HB AS097 Квартира 1 Название здания 00 Name Road
Data Science
Прогнозирование временных рядов для продаж в нескольких магазинах с одновременными временными метками
00
Вопрос или проблема У меня есть набор данных по продажам, в котором каждый магазин имеет уникальный идентификатор. Набор данных содержит ежедневные данные о продажах для каждого магазина за период около двух лет. Я хочу построить модель прогнозирования
Data Science
Сократите длину данных для эффективного обучения.
00
Вопрос или проблема У меня есть данные о покупках клиентов, в которых каждая строка указывает на товар, купленный клиентом. Проблема в том, что даже если клиент одновременно покупает пять товаров, то для этого будет пять разных строк, и в результате общее
Data Science
Память RAM崩溃 для функции преобразования XML в DataFrame
00
Вопрос или проблема Я создал следующую функцию, которая преобразует XML файл в DataFrame. Эта функция хорошо работает для файлов размером менее 1 ГБ, для всего, что больше этого, память (13 ГБ в Google Colab) выдает ошибку. То же самое происходит, если
Вопросы и ответы
Datacamp: Образец практического экзамена для инженера по данным (HappyPaws)
00
Вопрос или проблема В настоящее время я работаю над задачей очистки данных, где мне нужно объединить три набора данных, связанные с активностью домашних животных, медицинскими записями и информацией о владельцах. Цель состоит в том, чтобы создать единственный
Data Science
Ищите номер в списке внутри ячейки pandas и возвращайте соответствующее строковое значение из второго DataFrame.
00
Вопрос или проблема (Я изменил название первого столбца в labels_df для ясности) У меня есть два DataFrame: train_df и labels_df. В train_df есть целые числа, которые соответствуют именам атрибутов в labels_df. Я хотел бы найти каждое число в данной ячейке
Вопросы и ответы
Непоследовательное использование памяти Pandas для встроенного numpy
00
Вопрос или проблема Может кто-то помочь объяснить, почему здесь разница в результатах? В частности, использование памяти, выведенное после сериализации/десериализации, резко отличается. Единственное, что я заметил, это то, что df["data"][0].flags выводит ‘
Data Science
Как избежать ошибки памяти при вызове метода Pandas pd.read_csv в сочетании с использованием GridSearchCV для модели DecisionTreeRegressor?
00
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Вопросы и ответы
Как мне организовать свой набор данных, чтобы использовать его в качестве обучающей выборки в PyTorch?
00
Вопрос или проблема Я был бы признателен за советы по организации моего набора данных или рекомендации по его использованию в качестве входных данных для моей модели. Набор данных содержит внутридневные значения акций, и я хочу извлечь входные и выходные
Data Science
Какой самый эффективный инструмент в Python для построчной манипуляции данными?
12
Вопрос или проблема Я выполняю много работы, которая требует операций, выполняемых по строкам, используя данные в столбцах этой строки в других столбцах строки. Недавно мне нужно было провести обработку набора данных на 1,2 миллиона строк (27 столбцов
Вопросы и ответы
Проблема с разбором таблицы, разделенной несколькими трубками, в Python
00
Вопрос или проблема Следующие результаты представлены в таблице, извлеченной из JIRA, и моей программе нужно извлечь данные, чтобы включить их в Excel-таблицу. Когда данные окружены парами вертикальных черт, это столбец, а когда только 2 вертикальные
Data Science
Обновите сохранённую модель после тренировки.
00
Вопрос или проблема Сохранение обученной модели таким образом даст мне модель, обученную на каждом куске данных, или только на последнем куске? df = pd.read_csv(, chunksize=10000) for chunk in df: text = chunk['body'] label = chunk['user_id'] print(text.
Data Science
Как объединить два временно зависимых набора данных?
00
Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).