Как предоставлять данные для CNN при обработке текста?

Question 1

Как инженер по обработке сигналов, только начинающий осваивать обработку естественного языка, я сбит с толку в вопросе подачи входных данных в сеть CNN.

С моими знаниями о CNN я пытаюсь создать классификатор для определения этнической принадлежности, используя в качестве входных данных текст (фамилию (LN), отчество (MN), имя (FN)). У меня есть список из 8 000 000 образцов с фамилиями, отчествами, именами и информацией о классе.

array = [['person1_LN','person1_MN','person1_FN','Person1_class'],
         ['person1_LN','person1_MN','person1_FN','Person2_class'], 
         ....]

Я хочу применить сверточный слой (CL), после которого следует слой подвыборки (PL) для LN, MN и FN соответственно.

Пример обработки текста демонстрирует, как преобразовать предложения в векторные представления слов. Я пытаюсь понять этот фрагмент кода:

W = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0), name="W")
self.embedded_chars = tf.nn.embedding_lookup(W, self.input_x)
self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)

Этот учебник говорит, что обучение должно проводиться с использованием word2vec. Читая эти два блога, я ничего не смог понять. В обоих случаях мои данные не являются предложениями, тем более, на чем я должен обучаться во втором случае?

Будет ли CL работать, если я просто подам на вход слова без векторных представлений?
Если нет, есть ли какой-то пример, как в моем случае представить слова для подачи на вход CNN?

Question 2

Итак, здесь вопрос в том, как использовать текст в архитектуре CNN.

Так же, как когда мы обрабатываем изображения с помощью CNN, текстовые данные также будут 2D-матрицей, где строки будут представлять текстовые признаки, а столбцы — последовательность символов (например, составляющих имя).

Конечно, если мы просто используем one-hot кодирование, мы получаем разреженность данных, что не особо эффективно с точки зрения вычислений, особенно при использовании CNN. Поэтому предпочтительно использовать векторные представления слов, которые вы описали в своем посте. Здесь векторные представления слов направлены на уменьшение высокой размерности входных данных, чтобы уменьшить вероятность разреженности данных.

Однако есть потенциальная проблема с использованием векторных представлений слов в вашей задаче. Принцип векторных представлений заключается в том, чтобы назначать схожие векторы словам, которые могут легко заменяться в похожих контекстах (например, “Сэм добрый” и “Саймон добрый”), и которые не влияют на связность предложения. Как вы можете заметить, когда дело касается имен собственных, мы можем получить похожие векторы для всех имен, так как они очень взаимозаменяемы в любом контексте и не влияют на общую связность предложения.

Таким образом, хотя это и противоречиво, я бы посоветовал начать с использования one-hot кодированных последовательностей символов для этой задачи, а затем, когда вы это реализуете, вы можете найти более эффективный способ представления имен.

Как предоставлять данные для CNN при обработке текста?

Вопрос или проблема

Ответ или решение

Теоретические основы

Пример на практике

Применение на практике