Построить датафрейм с несколькими CSV

Question 1

Я собираю метрики по 6 REST-сервисам из архитектуры микросервисов. Для каждого собранного момента я извлекаю два CSV-файла из каждого сервиса. Один CSV содержит три метрики задержки (99-й процентиль, 50-й процентиль, среднее значение). А другой CSV содержит количество ответов в секунду, которые сервис вернул с HTTP-кодами 200 и 400.

Примеры каждого из CSV:

Задержка:

"Время", "99-й процентиль", "50-й процентиль", "Среднее", "Ошибка"
2023-02-23 15:20:30,2.45,0.577,0.602,True
2023-02-23 15:21:00,0.939,0.424,0.457,True
2023-02-23 15:21:30,0.740,0.417,0.456,True
2023-02-23 15:22:00,0.965,0.396,0.443,True
2023-02-23 15:22:30,2.34,0.438,0.547,True

QPS:

"Время","2xx","4xx/5xx","Ошибка"
2023-02-22 21:18:30,216,0,False
2023-02-22 21:19:00,280,0,False
2023-02-22 21:19:30,242,0,False
2023-02-22 21:20:00,311,0,False

В дополнение к метрикам есть столбец с Временем и столбец с отметкой, является ли это булевым значением.

Имена CSV-файлов всегда начинаются с названия сервиса и содержат слово “latency” в случае метрик задержки и “QPS” в случае запрашиваемого за секунду.

Пример:

Cart latency-data-as-seriestocolumns-2023-02-23 15_53_38.csv
Cart QPS-data-2023-02-23 15_53_26.csv
Catalogue latency-data-as-seriestocolumns-2023-02-23 15_53_20.csv
Catalogue QPS-data-2023-02-23 15_53_13.csv
Frontend latency-data-as-seriestocolumns-2023-02-23 15_54_54.csv
Frontend QPS-data-as-seriestocolumns-2023-02-23 15_54_48.csv
Orders latency-data-as-seriestocolumns-2023-02-23 15_53_54.csv
Orders QPS-data-2023-02-23 15_53_47.csv
Payment latency-data-as-seriestocolumns-2023-02-23 15_54_10.csv
Payment QPS-data-2023-02-23 15_54_00.csv
Shipping latency-data-as-seriestocolumns-2023-02-23 15_54_24.csv
Shipping QPS-data-2023-02-23 15_54_17.csv
User latency-data-as-seriestocolumns-2023-02-23 15_54_40.csv
User QPS-data-as-seriestocolumns-2023-02-23 15_54_32.csv

Я хотел сделать набор данных, в котором читаются все CSV из вставки и создается весь набор данных для обучения и валидации.

В конце концов, у меня будет набор данных со следующим форматом:

"Время","99-й процентиль","50-й процентиль","Среднее","2xx","4xx/5xx","Ошибка","Сервис"
2023-02-06 16:13:00,0.0970,0.00402,0.00771,254,0,True,Orders
2023-02-06 16:13:30,0.0700,0.00377,0.00614,267,0,True,Orders
2023-02-06 16:14:00,0.0208,0.00328,0.00388,251,0,True,Orders
2023-02-06 16:14:30,0.0971,0.00349,0.00655,273,0,True,Orders
2023-02-06 16:15:00,0.0232,0.00323,0.00443,276,0,True,Orders
2023-02-06 16:15:30,0.00995,0.00309,0.00380,69,0,True,Orders
2023-02-06 16:16:00,0.00957,0.00283,0.00316,171,0,True,Orders

Можно ли собрать всю эту информацию в одном DataFrame? Учитывая, что собранный момент представлен двумя CSV, и что в одной папке у меня будет несколько периодов сбора времени.

Question 2

Если я правильно понимаю ваш вопрос, это должно дать вам то, что вы ищете:

from glob import glob

dfs = {'latency': [], 'qts': []}

for file_path in glob('*.csv'):
    service, data_type = file_path.split('_')[0:2]
    df = pd.read_csv(file_path)
    df['Service'] = service
    df = df.rename(columns={'IsError': f'IsError_{data_type}'})
    dfs[data_type].append(df)

# объединить все датафреймы для задержки и qts
latency, qts = pd.concat(dfs['latency']), pd.concat(dfs['qts'])

# присоединить задержку и qts по Сервису и Времени
dataset = qts.join(latency, on=['Service', 'Timestamp'], how='inner').reset_index()

# это предполагает, что ошибка возникает, если либо задержка, либо qts является ошибкой
dataset['IsError'] = dataset['IsError_latency'] | dataset['IsError_qts']
dataset = dataset.drop(columns=['IsError_latency', 'IsError_qts'])

Построить датафрейм с несколькими CSV

Вопрос или проблема

Ответ или решение

Шаг 1: Подготовка окружения

Шаг 2: Чтение и группировка CSV файлов

Шаг 3: Объединение DataFrame

Шаг 4: Завершение и вывод данных

Заключение