Выполнение поиска с использованием ключевых слов и годов

Вопрос или проблема

У меня есть большой набор данных (6000 строк на 40 столбцов), который содержит столбец с ключевыми словами и другой столбец для финансовых лет. Я хочу использовать функцию фильтрации, которая возвращает все строки, содержащие определенное ключевое слово в определенном финансовом году. Вот пример 3×3:

Название проекта                       Ключевые слова                Финансовый год
Анализ рынка и политики   Экономика.матери.еда                2018
Региональное заболевание картофеля      Экономика.картофель.болезнь           2020
Рынки фермеров             Картофель.лук.помидоры              2020

Таким образом, если я буду искать в этом наборе данных слово “картофель” и “2020”, я отфильтрую два проекта.

Ответ или решение

Для выполнения фильтрации большого набора данных, содержащего ключевые слова и фискальные годы, можно использовать различные инструменты и технологии. В данном ответе мы сосредоточимся на подходах, которые позволяют эффективно извлекать нужные строки по заданным критериям.

Фильтрация данных: применение Python и Pandas

Одним из самых удобных и мощных инструментов для работы с большими наборами данных является библиотека Pandas в языке программирования Python. Ниже будет представлен пошаговый подход к фильтрации строк по ключевым словам и фискальному году.

Шаг 1: Установка необходимых библиотек

Если у вас еще не установлена библиотека Pandas, выполните следующую команду:

pip install pandas

Шаг 2: Импортируем библиотеку и загружаем данные

Предположим, что ваш набор данных сохранён в формате CSV. Вы можете загрузить его следующим образом:

import pandas as pd

# Загрузка данных из CSV файла
data = pd.read_csv('your_dataset.csv')

Шаг 3: Определение критериев фильтрации

Теперь определите ключевое слово и фискальный год, которые вы хотите использовать для фильтрации. В вашем случае это будет ‘potato’ и 2020.

keyword = 'potato'
fiscal_year = 2020

Шаг 4: Применение фильтров

Пользуясь методами Pandas, вы сможете легко извлечь нужные строки:

filtered_data = data[(data['Key Words'].str.contains(keyword, case=False)) & (data['Fiscal Year'] == fiscal_year)]
  • str.contains(keyword, case=False) – для поиска ключевого слова в столбце ‘Key Words’. Параметр case=False делает поиск нечувствительным к регистру.
  • & – логический оператор «и», который позволяет комбинировать условия фильтрации.

Шаг 5: Вывод результатов

Чтобы просмотреть отфильтрованные данные, просто выполните:

print(filtered_data)

Заключение

Фильтрация больших наборов данных может быть сложной задачей, однако с помощью современных инструментов, таких как Pandas, этот процесс значительно упрощается. Правильное использование функций фильтрации позволит вам быстро находить нужную информацию, что значительно повышает эффективность работы.

Оптимизация поиска и эффективность

Помимо использования Pandas, для более сложных запросов можно рассмотреть базы данных, такие как SQL, где можно использовать SQL-запросы для извлечения необходимых данных.

Итог

Используя методологию, представленную в данном ответе, вы сможете легко находить нужные строки в вашем наборе данных. Это не только упростит вашу работу, но и обеспечит эффективный подход к обработке данных.

Оцените материал
Добавить комментарий

Капча загружается...