Сравнение 2 файлов данных и создание нового файла с недостающими данными с использованием Python [закрыто]

Question

Этот вопрос был закрыт, потому что он не касается официального дистрибутива Ubuntu. В данный момент он не принимает ответы.

Это не касается официального дистрибутива Ubuntu. Вопросы о других дистрибутивах Linux можно задавать на Unix & Linux, вопросы о Windows на Super User, вопросы о продуктах Apple на Ask Different и общие вопросы по программированию на Stack Overflow.

Закрыт 10 часов назад.

Улучшить этот вопрос

Я довольно новичок в Python и пытаюсь создать приложение, где я беру основной файл с информацией о продуктах и сравниваю его с более старым файлом данных с теми же данными.

Цель приложения заключается в выделении любых новых продуктов с использованием столбца ‘SKU’ и затем в создании нового файла, который будет содержать все те же столбцы из основного файла, но только строки с ‘новыми’ продуктами.

Описание файлов:

“downloaded_data.csv” – это главный файл, который загружается с URL.

“current-data.csv” – это старый файл данных для сравнения с целью найти новые продукты.

“new-products.csv” – это файл, который будет создан и который будет содержать только новые продукты, которые появляются в основном файле после сравнения с текущим файлом данных (current-data.csv). Этот новый файл должен также включать все столбцы, которые появляются в основном файле (downloaded_data.csv).

“comparison-file.csv” – это файл, который просто выводит список SKU, которые считаются новыми.

Примеры столбцов из файла “downloaded_data.csv”, которые также должны появиться в новом файле.

Название	URL изображения	SKU
Название продукта Один	imageurl.jpg	SKU123
Название продукта Два	imageurl.jpg	SKU456

Ниже мой код на Python. После его выполнения файл “new-products.csv” оказывается просто копией загруженного основного файла.

import pandas as pd
import requests

pd.set_option("display.max_rows", None)

# Загрузка CSV файла
url = "URL ЗДЕСЬ"
response = requests.get(url)

# Проверка, успешен ли запрос (код состояния 200)
if response.status_code == 200:
    # Сохранение содержимого ответа в локальный CSV файл
    with open("downloaded_data.csv", "wb") as f:
        f.write(response.content)
    print("CSV файл успешно загружен")
else:
    print("Не удалось загрузить csv файл. Код состояния: ", response.status_code)

# Чтение CSV файла в Pandas DataFrame
master_file_compare = pd.read_csv("downloaded_data.csv", usecols=[29], names=['SKU'])
account_data = pd.read_csv("account-data.csv", usecols=[5], names=['SKU'])

# Объединение обоих датафреймов с использованием левого объединения
comparison_result = pd.merge(master_file_compare, account_data, on='SKU', how='left', indicator=True)

# Фильтрация только строк, доступных слева (master_file_compare)
comparison_result = comparison_result.loc[comparison_result['_merge'] == 'left_only']

comparison_result.to_csv('comparison-file.csv', encoding='utf8')

# Сравнение файла сравнения с мастером и генерация файла данных
with open('downloaded_data.csv', 'r', encoding='utf8') as in_file, open('new-products.csv', 'w', encoding='utf8') as out_file:
    for line in in_file:
        if line.split(',')[0].strip() not in comparison_result:
            out_file.write(line)

# print(account_data.head)
print(comparison_result)

Следует отметить, что текущие данные (файл сравнения) не будут иметь таких же столбцов или даже порядка столбцов. Все, что я пытаюсь сделать, это сопоставить столбцы SKU, так как они являются идентификаторами.

Любые указания или предложения, на чем сосредоточиться дальше, будут высоко оценены.

Спасибо!

Сравнение 2 файлов данных и создание нового файла с недостающими данными с использованием Python [закрыто]

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Заключение