Существует ли автоматический способ проверить, представляют ли 2 столбца данных одну и ту же информацию?

Question 1

У меня есть 2 набора данных, которые представляют собой перекрывающуюся информацию. Например:

**Набор данных 1 : **
| ID | Дата регистрации | Категория |
|——|———| ——–|
| P123 | 23/2/2019 | 3 |
| P345 | 24/6/2019 | 2 |

**Набор данных 2 : **
| EID | Дата регистрации| Местоположение|
|——|—————-| ——–|
| P666 | 27/4/2020 | NZ |
| P459 | 6/6/2019 | AU |

Что я хочу сделать, так это создать автоматический способ обработки 2 наборов данных, а затем вывести совпадающие столбцы, то есть какие столбцы представляют собой одинаковый тип информации. Здесь, хотя ID и EID имеют разные названия, они оба представляют собой один и тот же тип информации, поскольку оба являются идентификаторами, которые начинаются с P, за которыми следуют 3 числа.

Аналогично, для дат регистрации, хотя даты разные, мы можем сказать по заголовку, что они, вероятно, представляют собой один и тот же тип информации: дата регистрации идентификатора.

Что касается последнего столбца, “Категория” и “Местоположение” вероятно представляют совершенно различную информацию.

В конечном итоге я хочу получить автоматический способ конкатенации соответствующего столбца из Набора данных 1 с его соответствующим столбцом в Наборе данных 2. (Например, конкатенировать P123 и P345 из “ID” в “EID”). И я хочу, чтобы этот метод был как можно более автоматизированным, чтобы он также мог обрабатывать другие наборы данных.

Я подумал, что обучение модели машинного обучения с использованием характеристик информации из каждого столбца для прогнозирования соответствующего столбца в Наборе данных 2 может быть самым выполнимым методом. Однако я затрудняюсь определить, какие признаки извлекать, и является ли модель машинного обучения самым эффективным методом для выполнения этой задачи. Буду очень благодарен за идеи!

Question 2

Если два столбца данных в вашем наборе данных содержат информацию схожего типа, вы можете найти соответствующие столбцы, используя функцию re.search().
Эта функция принимает регулярный шаблон и строку и ищет этот шаблон в строке. Это вернет совпадение, если поиск будет успешным, или None в противном случае.
Вы можете попробовать использовать следующую функцию

import pandas as pd
import re

def myFunc(data):
  l=[]
  for col in df1:
    p=[x for x in df.get(col)]
    for j in p:
      #print(j)
      if(re.search("^P\d{3}$", str(j))):
        l.append(col)
        break
  return l

data = {'ID': ['P123', 'P345'],'Reg_Date': ['23/2/2019','24/6/2019'], 'Category': [3,2]}      
df = pd.DataFrame(data)
print(myFunc(data))

Выход – [‘ID’]

"^P\d{3}$" – это вернет столбцы с идентификатором.

"^[1-9][1-9]*/[1-9][1-2]*/\d{4}$" – это вернет столбец даты

Аналогично, когда вы используете "^[1-9][1-9]*/[1-9][1-2]*/\d{4}$",
выход, который вы получите, будет :

Выход – [‘Reg_Date’]

После нахождения нужных столбцов вы можете конкатенировать их.

Существует ли автоматический способ проверить, представляют ли 2 столбца данных одну и ту же информацию?

Вопрос или проблема

Ответ или решение

Подход к проблеме: Анализ и сопоставление столбцов

1. Определение структуры данных

2. Анализ имен столбцов

3. Объединение данных

Заключение