Классификация коротких строк текста с дополнительным контекстом

Question 1

У меня есть список коротких строк, каждая из которых определяет город. Орфографические ошибки очень распространены. Пример ниже показывает некоторые из этих коротких строк и правильный город, которому они должны соответствовать.

строка	город
амстердам	амстердам
асмтерддам	амстердам
амсттердм	амстердам
нью йорк	нью йорк
нью йрок	нью йорк
нве йорк	нью йорк
неев йорк	нью йорк
нв йорк	нью йорк

Я хотел бы обучить классификатор, который принимает входную строку и затем предсказывает наиболее вероятный город, который должен быть идентифицирован. Однако есть тонкость, заключающаяся в том, что правильный город будет зависеть не только от входной строки, но и от других факторов, таких как текущее местоположение человека и кто именно пишет.

Например, следующие строки могут означать разные города в зависимости от этих других характеристик:

текущее_местоположение	человек	строка	город
великобритания	Джон	дратфорд	дарфорд
великобритания	Джек	дарффорд	дарфорд
великобритания	Джил	датрфрод	дарфорд
норвегия	Джил	дарфорд	дарфорд
норвегия	Джон	датрфрод	дарфьорд
норвегия	Джеймс	датрфрод	дарфьорд
швеция	Олаф	дратфйод	дарфьорд
великобритания	Олаф	дратфорд	дарфьорд

Как мы видим, одна и та же входная строка может означать разный фактический город в зависимости от того, кто это пишет, и где в настоящее время находится автор. Это означает, что просто нечеткий поиск с использованием tf-idf не будет достаточен для корректного предсказания.

Я думаю о двух различных подходах для реализации соответствующего классификатора:

увеличенные деревья, использующие n-граммы символов в качестве признаков + другие категориальные признаки
нейронная сеть с использованием сверток на буквах + другие категориальные признаки

Одним из преимуществ здесь является то, что строка всегда будет ограничена по размеру (максимум около 50/60 символов).

Одна вещь, с которой я особенно сталкиваюсь в случае увеличенных деревьев, заключается в том, как заставить модель учиться на порядке n-грамм символов? Например, последовательность mst, следующая за последовательностью ams, свидетельствует о амстердаме, но я не знаю, как дать модели понять последовательность, когда эта последовательность может быть в любом месте в строке? (например, если входная строка aамстердам, тогда эта последовательность будет на позиции 2, а не на позиции 1).

Таким образом, в кратце, я ищу рекомендации по наилучшему способу разложения и моделирования входной строки, чтобы преобразовать ее в признаки, которые можно использовать как для увеличенных деревьев, так и для (сверточной?) нейронной сети, вдобавок к другим категориальным входным признакам.

Я очевидно не ищу полного решения, просто общие рекомендации будут очень полезны.

Question 2

В типичном процессе обработки естественного языка (NLP) обычно есть много дискретных этапов. Два возможных этапа – это нормализация и классификация. Строки нормализуются перед классификацией. Нормализация (также известная как стандартизация) делает строковые данные более последовательными. Приведение орфографических вариаций к одной и той же записи – это пример. Приведение орфографических вариаций к последовательной записи не требует машинного обучения. Это можно сделать, например, с помощью поиска расстояния редактирования в словаре.

После нормализации классификация становится более прямолинейной. Модели классификации зависят от качества и количества признаков, также известных как обработка признаков. Предсказать город, скорее всего, не получится на уровне символов. Моделирование на уровне токенов было бы, вероятно, более полезным.

Классификация коротких строк текста с дополнительным контекстом

Вопрос или проблема

Ответ или решение

Шаги к решению задачи

1. Нормализация строк

2. Выбор метода классификации

Учет контекста

Расширенное представление строк

Заключение