Как преобразовать аббревиатуры префиксов названий городов?

Question 1

Существует ли какой-либо стандартный инструмент, библиотека или список для расширения сокращений названий городов? Например, “MT HOLLY” -> “MOUNT HOLLY” или “ST MICHAELS” -> “SAINT MICHAELS”?

У меня есть два набора данных, содержащие названия городов США, и я пытаюсь сопоставить их, но эти несоответствующие системы наименования затрудняют задачу. Мне даже трудно найти список всех известных сокращений.

Question 2

Возможно, вы могли бы взять набор данных с полными названиями, выделить многословные и использовать первые слова для генерации сокращений самостоятельно. Таким образом, у вас будет необходимое сопоставление. Однако могут возникнуть бессмысленные сокращения, которые вы получите таким образом. Поэтому отбрасывайте все такие сокращения, которые не имеют совпадений в наборе данных с сокращенными названиями городов. Любые потенциальные дубликаты вам придется разрешать самостоятельно, так же как и те сокращения из второго набора данных, которые не нашли соответствия.

Question 3

Мне даже трудно найти список всех известных сокращений.

Что ж, это не имеет значения для вас, так как у вас уже есть список соответствующих сокращений, встречающихся в вашем наборе данных.

Почтовая служба США ведет список почтовых индексов и действительных адресов, плюс стандарты, такие как действительные сокращения. Существует целая индустрия, направленная на ответ на вопрос “является ли адрес на этом письме доставляемым адресом?”, для эффективной массовой рассылки с минимальным количеством возвращаемых предметов.

Бюро переписи населения США ведет список CDP, обозначенных мест переписи. Похоже, что он довольно близко соответствует набору действительных почтовых пунктов назначения, что, я полагаю, вас и интересует.

В python вы можете удобно получить к нему доступ с помощью import uszipcode. Он использует внутреннюю базу данных sqlite, так что вы можете выдавать запросы SELECT … ORDER BY до своего удовольствия.

Некоторые почтовые отделения США используют модифицированные адресные соглашения, такие как в Пуэрто-Рико, но, возможно, ваш случай использования касается только пятидесяти штатов плюс Округ Колумбия.

При столкновении с именами с дефисами вам может быть удобно превратить - дефис в ПРОБЕЛ, получая пару слов.

Оказалось, что названия городов США, к счастью, короткие. Четыре слова, кажется, максимум, например, Carmel By The Sea в Калифорнии.

У вас есть канонический список имен мест, и у вас также есть более одного “грязного” набора данных, которые включают сокращенные имена. Канонизируйте все имена, преобразовывая их в верхний регистр. Давайте сосредоточимся на сокращенном первом слове, таком как “MT”.

Составьте список канонических имен, упорядоченный по второму слову (с первым словом для разрешения равенства). Составьте список потенциально сокращенных имен, упорядоченный таким же образом. Выполните двустороннее слияние этих списков.

Многие из результатов будут точными совпадениями, которые не представляют интереса и могут быть проигнорированы. Результаты, которые остаются после этого фильтра, соответствуют сокращениям или опечаткам, удобно упорядоченным для вас в сортированном порядке. Либо просмотрите их, чтобы составить список сокращений, либо используйте программу или модель NLP, чтобы сделать это за вас. Составьте “дообработанный” выходной список имен, который теперь частично канонизирован.

Теперь повторите для других позиций слов. На самом деле, решение проблемы “последнего слова” может быть самым простым и очевидным решением, которое осталось, поскольку муниципалитеты Нью-Джерси часто называются TWNSHP, TSHP, TWP и другими забавными вариантами.

Опубликуйте здесь URL вашего результирующего репозитория GitHub в качестве ответа.

Как преобразовать аббревиатуры префиксов названий городов?

Вопрос или проблема

Ответ или решение

Как конвертировать сокращения названий городов: практический подход

1. Поиск стандартных ресурсов

2. Построение собственного словаря сокращений

3. Сопоставление названий

4. Обработка результатов

5. Финализируйте и публикуйте результаты

Заключение