pandas
Data Science
Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать
Вопросы и ответы
Вопрос или проблема Когда я работаю с dataframe в pandas, мне нравится использовать цепочки методов, потому что это делает рабочий процесс похожим на подход tidyverse в R, где вы используете строку пайпов. Рассмотрим пример из этого ответа: N = 10 df = ( pd.
Вопросы и ответы
Вопрос или проблема У меня есть multiindex dataframe, который получается из groupby. Вот демонстрация: In [54]: df = pd.DataFrame({'color': ['blue', 'grey', 'blue', 'grey', 'black'], 'name': ['pen', 'pen', 'pencil', 'pencil', 'box'],'price':[2.
Вопросы и ответы
Вопрос или проблема Я работаю над интерполяцией данных емкости батареи на основе взаимосвязей между hour_rates, capacities и currents. Вот образец моих данных: import numpy as np import pandas as pd from scipy.interpolate import interp1d import matplotlib.
Вопросы и ответы
Вопрос или проблема У меня есть DataFrame Pandas с одним столбцом: import pandas as pd df = pd.DataFrame({"teams": [["SF", "NYG"] for _ in range(7)]}) teams 0 [SF, NYG] 1 [SF, NYG] 2 [SF, NYG] 3 [SF, NYG] 4 [SF, NYG] 5 [SF, NYG] 6 [SF, NYG] Как можно
Вопросы и ответы
Вопрос или проблема У меня есть датафрейм, в котором я хочу вернуть количество (долю) пациентов, которые прошли последующий осмотр после диагноза заболевания. Исходный ДФ (пример 1 пациента) | patient_id | app_date | diag_date | cancer_yn | |------------|------------|------------|-----------|
Data Science
Вопрос или проблема Я работаю с dataframe pandas, который содержит такие столбцы: Col1 Col2 Col3 Col4 Да Нет Возможно Не уверен Возможно Да Нет Нет Да Я пытаюсь подсчитать значения в каждом столбце, а затем сложить их, чтобы получить общие количества этих значений.
Data Science
Вопрос или проблема Я пытаюсь сравнить значения адресов на предмет неточностей, например, данные по нескольким записям, как показано ниже: Ссылка Квартира Адрес Почтовый индекс AS097 NaN 00 Name Road BH1 4HB AS097 Квартира 1 Название здания 00 Name Road
Data Science
Вопрос или проблема У меня есть набор данных по продажам, в котором каждый магазин имеет уникальный идентификатор. Набор данных содержит ежедневные данные о продажах для каждого магазина за период около двух лет. Я хочу построить модель прогнозирования
Data Science
Вопрос или проблема У меня есть данные о покупках клиентов, в которых каждая строка указывает на товар, купленный клиентом. Проблема в том, что даже если клиент одновременно покупает пять товаров, то для этого будет пять разных строк, и в результате общее
Data Science
Вопрос или проблема Я создал следующую функцию, которая преобразует XML файл в DataFrame. Эта функция хорошо работает для файлов размером менее 1 ГБ, для всего, что больше этого, память (13 ГБ в Google Colab) выдает ошибку. То же самое происходит, если
Вопросы и ответы
Вопрос или проблема В настоящее время я работаю над задачей очистки данных, где мне нужно объединить три набора данных, связанные с активностью домашних животных, медицинскими записями и информацией о владельцах. Цель состоит в том, чтобы создать единственный
Data Science
Вопрос или проблема (Я изменил название первого столбца в labels_df для ясности) У меня есть два DataFrame: train_df и labels_df. В train_df есть целые числа, которые соответствуют именам атрибутов в labels_df. Я хотел бы найти каждое число в данной ячейке
Вопросы и ответы
Вопрос или проблема Может кто-то помочь объяснить, почему здесь разница в результатах? В частности, использование памяти, выведенное после сериализации/десериализации, резко отличается. Единственное, что я заметил, это то, что df["data"][0].flags выводит ‘
Data Science
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Вопросы и ответы
Вопрос или проблема Я был бы признателен за советы по организации моего набора данных или рекомендации по его использованию в качестве входных данных для моей модели. Набор данных содержит внутридневные значения акций, и я хочу извлечь входные и выходные
Data Science
Вопрос или проблема Я выполняю много работы, которая требует операций, выполняемых по строкам, используя данные в столбцах этой строки в других столбцах строки. Недавно мне нужно было провести обработку набора данных на 1,2 миллиона строк (27 столбцов
Вопросы и ответы
Вопрос или проблема Следующие результаты представлены в таблице, извлеченной из JIRA, и моей программе нужно извлечь данные, чтобы включить их в Excel-таблицу. Когда данные окружены парами вертикальных черт, это столбец, а когда только 2 вертикальные
Data Science
Вопрос или проблема Сохранение обученной модели таким образом даст мне модель, обученную на каждом куске данных, или только на последнем куске? df = pd.read_csv(, chunksize=10000) for chunk in df: text = chunk['body'] label = chunk['user_id'] print(text.
Data Science
Вопрос или проблема Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны. У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк).