dataframe
Data Science
Вопрос или проблема Давайте скажем, что есть массив, содержащий числа с плавающей запятой, и его размер n. Теперь m чисел будут выбраны из этого массива, и сумма этих m чисел будет генерировать новое число. Таким образом, все возможные комбинации суммы
Data Science
Вопрос или проблема Я изучаю Data Science на Datacamp, и у меня возник вопрос: если у нас есть DataFrame cars, структурированный следующим образом cars_per_cap country drives_right US 809 United States True AUS 731 Australia False JPN 588 Japan False
Data Science
Вопрос или проблема У меня есть набор данных A и набор данных B, оба набора данных имеют общий столбец, который является идентификатором (ID). Я хочу проверить, можно ли найти значения идентификаторов A в значениях идентификаторов B.
Data Science
Вопрос или проблема Как сгруппировать метки (в задаче многоклассовой классификации), которые чаще всего встречаются вместе в датафрейме? Например, у меня есть следующий датафрейм: text | жанр =========================== текст 1 | [экшн, детектив, ужас
Data Science
Вопрос или проблема Не могли бы вы помочь мне с следующим вопросом? У меня есть датафрейм с данными активности клиентов, который выглядит так: Он содержит как минимум 500.000 клиентов и “временной ряд” из 42 месяцев.
Вопросы и ответы
Вопрос или проблема Я пытаюсь преобразовать файл htm, содержащий текстовые таблицы, в датафрейм. Я посмотрел на предыдущие вопросы здесь и здесь, но не решил свою проблему. Таблица получается испорченной. Следующий воспроизводимый пример. # URL сайта url <
Вопросы и ответы
Вопрос или проблема Я пытаюсь создать столбчатую диаграмму, показывающую согласие с определенной темой в зависимости от политической принадлежности людей. Я хочу, чтобы каждую переменную политической принадлежности представляли два столбца: один для процента
Вопросы и ответы
Вопрос или проблема Существует ли способ преобразовать приведенные ниже вложенные списки в датафрейм в R? Списки ниже имеют неравные размеры, поэтому я хотел бы узнать, можем ли мы преобразовать это в датафрейм. Если значение отсутствует, оно должно быть заменено на NA.
Вопросы и ответы
Вопрос или проблема Я импортировал CSV в DataFrame pandas; однако столбец, который мне нужно использовать, имеет свободный формат и находится в плохом состоянии. Мне нужно извлечь первую серию цифр после слова NBU или первую серию цифр в строке.
Data Science
Вопрос или проблема Я пытаюсь заменить недостающие значения в столбце “Age”, но с учетом других столбцов в этих данных Titanic – Машинное обучение на основе катастрофы df.Age[(df['Sex'] == 0) & (df['Pclass'] == 1)] Я пытался сделать
Вопросы и ответы
Вопрос или проблема У меня есть DataFrame Pandas с одним столбцом: import pandas as pd df = pd.DataFrame({"teams": [["SF", "NYG"] for _ in range(7)]}) teams 0 [SF, NYG] 1 [SF, NYG] 2 [SF, NYG] 3 [SF, NYG] 4 [SF, NYG] 5 [SF, NYG] 6 [SF, NYG] Как можно
Вопросы и ответы
Вопрос или проблема Я пытаюсь выполнить join_asof в Polars, который будет смотреть только назад во времени, игнорируя совпадения в одной строке. В частности, я хочу, чтобы он находил последнюю строку, где Team и Field совпадают точно, но только если значение
Data Science
Вопрос или проблема Я создал следующую функцию, которая преобразует XML файл в DataFrame. Эта функция хорошо работает для файлов размером менее 1 ГБ, для всего, что больше этого, память (13 ГБ в Google Colab) выдает ошибку. То же самое происходит, если
Data Science
Вопрос или проблема Я человек, работающий в инфраструктуре над продуктом для хранения данных. Я довольно много искал в интернете ответ на следующий вопрос, но не смог его найти. Поэтому я пытаюсь задать вопрос здесь. Я знаю, что реляционные данные или
Вопросы и ответы
Вопрос или проблема В настоящее время я работаю над задачей очистки данных, где мне нужно объединить три набора данных, связанные с активностью домашних животных, медицинскими записями и информацией о владельцах. Цель состоит в том, чтобы создать единственный
Вопросы и ответы
Вопрос или проблема Может кто-то помочь объяснить, почему здесь разница в результатах? В частности, использование памяти, выведенное после сериализации/десериализации, резко отличается. Единственное, что я заметил, это то, что df["data"][0].flags выводит ‘
Data Science
Вопрос или проблема У меня есть следующий дата-фрейм: Date.POSIXct Date WeekDay DayCategory Hour Holidays value 1 2018-05-01 00:00:00 2018-05-01 MA MA-MI-JU 0 0 30 2 2018-05-01 01:00:00 2018-05-01 MA MA-MI-JU 1 0 80 3 2018-05-01 02:00:00 2018-05-01 MA
Вопросы и ответы
Вопрос или проблема Следующие результаты представлены в таблице, извлеченной из JIRA, и моей программе нужно извлечь данные, чтобы включить их в Excel-таблицу. Когда данные окружены парами вертикальных черт, это столбец, а когда только 2 вертикальные
Data Science
Вопрос или проблема страна год пол мера значение0 ... значение12 A 2000 1 вакцинирован_в_месяце 2 ... 1 B 2000 1 вакцинирован_в_месяце 13 ... 12 A 2000 0 вакцинирован_в_месяце 4 ... 3 A 2000 9 вакцинирован_в_месяце 5 ... 4 B 2000 0 гулял_в_месяце 3 .
Data Science
Вопрос или проблема Я использую Julia 0.6.3 с Dataframes.jl Мне было интересно, есть ли способ легко получить категориальные признаки в Julia? Для больших наборов данных может быть невозможно ввести все вручную. Мой обходной путь — полагаться на строки