Как объединить два временно зависимых набора данных?

Question 1

Я совершенно новый в области науки о данных, так что, пожалуйста, будьте снисходительны.

У меня есть набор данных, который содержит записи о случаях возникновения пожаров за последние 35 лет (+-700.000 строк). Каждая дата и время могут иметь более одного случая, так как два пожара могут произойти одновременно в разных местах. Его характеристики примерно следующие:

Дата и Время | Район | Графство | Площадь сгоревшего | Тип | Причина | и т.д.

Я планирую совместить это с новым набором данных, который я сейчас создаю. Этот новый набор данных будет иметь следующие характеристики:

Дата и Время | Широта | Долгота | Средняя Температура | Средняя Скорость Ветра | Средняя Влажность | и т.д.

Моя идея заключается в том, чтобы попытаться предсказать вероятность возникновения пожара и его потенциальную интенсивность на основе заданного набора атмосферных параметров. Но я не уверен, как лучше всего их объединить.

Если я объединю по датам, у меня будут несколько повторяющихся строк с пожарами, происходящими в одно и то же время в разных местах; будет ли это лучшим способом? Проблема, которую я вижу, заключается в том, что места, где пожара не было, не будут представлены, поэтому мне придется добавить кучу пустых строк для всех мест, где не было пожара, чтобы сбалансировать набор.

Есть идеи по поводу лучшей стратегии для этого?

Question 2

Если я объединю по датам, у меня будут несколько повторяющихся строк с пожарами, происходящими в одно и то же время в разных местах; будет ли это лучшим способом?

Вероятно, нет, так как вы не хотите потерять информацию о местоположении. Вам, вероятно, стоит найти способ сопоставить широту/долготy с районом/графством между двумя наборами данных, чтобы получить семантически согласованный набор данных (список пожаров по дате/времени и местоположению).

Проблема, которую я вижу, заключается в том, что места, где пожара не было, не будут представлены, поэтому мне придется добавить кучу пустых строк для всех мест, где не было пожара, чтобы сбалансировать набор.

Это зависит от того, что вы планируете делать с вашими данными, но учитывая, как ваш первый набор данных сейчас структурирован (список пожаров), не имеет смысла добавлять местоположения, где не было пожара. Вы можете создать набор данных, который перечисляет для каждого места и каждого времени, был ли пожар или нет, например.

Question 3

Важно помнить, что вы всегда можете сохранять объекты (например, словари или json) в отдельные ячейки в Pandas. Особенно если вы не уверены, как бы вы хотели их анализировать в данный момент.

Данные Google Analytics по прогнозированию доходов клиентов используют много JSON

Вы также можете увидеть, как люди анализируют данные в разделе Ноутбуки
https://www.kaggle.com/c/ga-customer-revenue-prediction/notebooks

Кроме того, вполне возможно, что будет нормально иметь несколько повторяющихся строк в зависимости от вашего анализа. Например, вы можете затем сделать сводную таблицу/группировку/агрегацию, чтобы «удалить дубликаты» из ваших данных.

Как объединить два временно зависимых набора данных?

Вопрос или проблема

Ответ или решение

Как объединить два временно зависимых набора данных

1. Структура и формат наборов данных

2. Определите ключ для объединения

3. Подход к объединению данных

4. Предварительная обработка данных

5. Построение модели

Заключение