pandas - ответы на вопросы

Data Science

Нечеткое сопоставление имен между двумя файлами Excel для заполнения сумм в Python

00

Вопрос или проблема В рамках моей стажировки я работаю над проектом, где мне нужно обработать два файла Excel: Файл 1 содержит имена и числа. Файл 2 содержит имена и пустую колонку для сумм. Цель — сопоставить имена из Файла 1 с именами в Файле 2 и правильно

Data Science

Как узнать, какие аргументы и ключевые аргументы принимает функция pandas?

00

Вопрос или проблема Мне было интересно, как найти, какие kargs и args являются допустимыми для данной функции? Например, в pandas есть функция cummin DataFrame.cummin(axis=None, skipna=True, *args, **kwargs); как узнать, какие *args принимает эта функция?

Data Science

Найти диапазоны с использованием pandas

00

Вопрос или проблема Как найти диапазоны, в которых в столбце pandas dataframe одни и те же значения? Например, если у нас есть dataframe: df = pd.DataFrame({'A': [0,1,2,3,4,5,6,7,8], 'B': [True, True, True, False, True, True, False, False, True]}) и я

Data Science

Как прочитать файл dat, структуру которого я не знаю?

00

Вопрос или проблема Есть ли способ хотя бы прочитать текст из файла dat. У меня есть соответствующий mdf файл, поэтому я знаю, какие данные и столбцы в нем находятся. Как мне выяснить содержимое моего dat файла? Потому что всё, что я получаю в данный

Data Science

Разделение данных, которые перекрываются между строками в файле CSV, с использованием библиотеки Pandas.

01

Вопрос или проблема Итак, я скачал этот набор данных Ecommerce с Kaggle здесь: https://www.kaggle.com/datasets/kolawale/focusing-on-mobile-app-or-website После преобразования его в файл csv, кажется, возникла проблема. Данные, начиная со 2-й строки (1-я

Data Science

Высокая точность на валидационном наборе, очень низкая точность на тестовом наборе!

00

Вопрос или проблема Я запускаю модель для бинарной классификации, 75% данных составляет FALSE, а 25% данных составляет TRUE. Я получаю 100% точности на обучающей выборке, 96,5% на валидационной выборке, но только 40% точности на тестовом наборе. Пожалуйста, помогите!

Data Science

Ищем возможность заменить отсутствующие значения временного ряда на значения от конкурента, которые коррелируют.

00

Вопрос или проблема У меня есть набор данных розничного продавца, который включает следующие атрибуты: Дата, Час, Входы, Выходы. У меня есть другой набор данных с такими же атрибутами от конкурента, который коррелирует с исходным набором данных на 94% R2.

Data Science

Как сохранить предсказания TensorFlow в DataFrame?

00

Вопрос или проблема Я новичок в Tensorflow. Я обучил модель Tensorflow, но мне нужно взять предсказания модели и добавить их в мой оригинальный тестовый набор в качестве столбца. Как я могу это сделать? def model(self, layers_dims, X_train, Y_train, X_test, Y_test, learning_rate=0.

Data Science

ImportError: cannot import name ‘Settings’ from ‘pandas_profiling.config’ (/usr/local/lib/python3.7/dist-packages/pandas_profiling/config.py)

00

Вопрос или проблема Я пытаюсь импортировать pandas profiling на Google Colab. !pip install https://github.com/ydataai/pandas-profiling/archive/master.zip после успешной установки pandas-profiling import numpy as np import pandas as pd from pandas_profiling

Data Science

Как исправить ValueError: Значение DataFrame неоднозначно. Используйте a.empty, a.bool(), a.item(), a.any() или a.all().

00

Вопрос или проблема Я использую pytest для тестирования функции, которая читает csv в словарь списков. В тестовой функции создается тестовый словарь, который записывается в csv, после чего вызывается функция для его чтения. Для этого в df.

Data Science

RFECV и поиск по сетке – какие наборы использовать для настройки гиперпараметров?

00

Вопрос или проблема Я запускаю модели машинного обучения (все с использованием оценщиков из sci-kit learn, без нейронных сетей) на основании пользовательского набора данных с рядом признаков и биномиальным выходом. Я сначала разделяю набор данных на 0.

Data Science

пандас датафрейм ничего не показывает, когда просматривается как датафрейм в PyCharm

00

Вопрос или проблема import pandas as pd; dataSet = pd.read_csv("winequality-red.csv"); dataSet.describe(include="all"); Когда просматриваю набор данных в виде фрейма данных, он показывает пустую таблицу. Но при выводе dataSet я получаю следующий результат. <

Data Science

лучший алгоритм или модель для кластеризации областей на карте?

00

Вопрос или проблема У меня есть база данных, которая содержит информацию, такую как широта, долгота, а также другую информацию, например, достопримечательности, рестораны и торговые центры, сельская местность это или пригород, …

Data Science

Как отсортировать многоуровневый DataFrame в pandas по определённому столбцу?

00

Вопрос или проблема Я хотел бы отсортировать многоиндексный DataFrame pandas по столбцу, но не хочу, чтобы весь DataFrame сортировался сразу. Я предпочел бы отсортировать по одному из индексов. Вот пример того, что я имею в виду: Ниже приведен пример

Data Science

Python 3.11 | Как заставить Python собирать значения определенной ячейки в читаемом файле Excel, ЕСЛИ строка этой ячейки имеет определенное значение в другом столбце.

00

Вопрос или проблема Я совсем новичок в этой части кодирования, связанной со сбором данных, просто пытаюсь немного автоматизировать процесс. В настоящее время у меня есть этот excel файл, который Python читает нормально, однако, я пытаюсь выяснить, как

Data Science

Ошибка при воспроизведении демонстрационной тетради Eland

00

Вопрос или проблема Я пытался воспроизвести блокнот клиента Python Elasticsearch Eland, доступный в документации Eland. Вот первые строки кода для создания eland dataframe из моего локального индекса Elasticsearch под названием sensor_index: import eland

Data Science

Создание функции для записи листов Excel с использованием pandas

00

Вопрос или проблема def CTDataSQ (name): name= cleanDF[[“PatientstudyId2″,”RATER”,”CT_3D”,name]] name= name.loc[name[‘CT_3D’] == 1] del name[“CT_3D”] name.to_excel(name, “

Data Science

Использование Python/Pandas для сравнения столбцов неравной длины

00

Вопрос или проблема https://ibb.co/cyCzVgy Я хотел бы сравнить NEW_PRICE с LINE_TOTAL_ALLOWED на основе PROC_CODE. Идеально, если Pandas начнет с первой строки, сопоставит PROC_CODE и PROC_CODE_NEW, затем вычтет NEW_PRICE из LINE_TOTAL_ALLOWED и выведет

Data Science

Заказ набора данных по материаловедению (названия свойств, скаляры свойств, формулы)

00

Вопрос или проблема Я работаю с набором данных материаловедения и нахожусь в следующей ситуации, У меня есть данные, организованные следующим образом: Chemical_ Formula Property_name Property_Scalar He Electrical conduc. 1 NO_2 Resistance 50 CuO3 Hardness .

Data Science

Как найти аномалии в (почти) постоянном потоке данных?

00

Вопрос или проблема У меня есть процесс, который (проще говоря), запускается каждые 5 минут, собирает данные и записывает эти данные в базу данных. Более подробное объяснение: процесс запускается, собирает данные (что занимает некоторое время) и размещает