Вывод из текстовых данных без метки или цели.

Question 1

У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов.

Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?

Это неанглоязычный текст. Может ли кластеризация текста помочь?? Возможна ли кластеризация ТЕКСТА на неанглийском языке с использованием библиотек Python?

Question 2

Возможна ли кластеризация ТЕКСТА на неанглийском языке с использованием библиотек Python?

Конечно! Классические подходы, основанные на Bag-of-Words, не зависят от языка. Для современных методов, основанных на DNN, в основном предварительно обученных моделей, вам просто нужно найти модель на вашем языке или обучить одну с нуля (для этого вам потребуется много текста на этом языке). Например, в случае использования инфраструктуры AWS, проверьте алгоритм Object2Vec.

Может ли кластеризация текста помочь?

Может помочь. Например, для первоначальной маркировки вы можете кластеризовать данные в похожие тексты и маркировать каждый в соответствии с общей концепцией. Более сложное решение (легко реализуемое на Python) — это моделирование тем, например, алгоритм LDA.

Более сложное решение — это, опять же, предварительно обученные модели, такие как S-BERT.

Я также рекомендую провести анализ ключевых слов для алгоритмов, таких как RAKE или YAKE.

Надеюсь, это поможет!

Question 3

Трудно дать конкретный ответ, так как не ясно, какое именно заключение вы хотите сделать. Так что я предположу, что вы хотите без надзора классифицировать эти тексты. Есть несколько вариантов сделать это, но в общем случае шаги следующие:

Создание числового представления текста. Это могут быть простые n_граммы/ко-локации или что-то более сложное, например, тонкая настройка LLM на вашем тексте для создания эмбеддингов. Статические эмбеддинги слов, такие как word2vec, доступны на многих языках и довольно просты в использовании с приличным потенциалом для вывода. Или вы можете комбинировать эмбеддинги с методами манипуляции измерениями, такими как PCA, t-SNE или автоэнкодеры. В некоторых случаях они улучшают результаты анализа.
Извлечение информации. После создания эмбеддингов вашего текста, вы можете многое с ними сделать. Методы, такие как LDA (также известный как моделирование тем), могут дать вам основные темы в документах. Поскольку у вас задача без надзора, вероятно, вы захотите выполнить какую-то кластеризацию. Модуль sklearn.clustering предлагает множество алгоритмов для кластеризации и оптимизации.
Валидация. Вы должны проверить, что результаты, полученные из классификации без надзора, имеют смысл. Вы можете сделать это вручную (буквально прочитать несколько документов) или найти эталонную золотую стандартную модель для сравнения.
Профит

Надеюсь, это поможет, удачи!

Вывод из текстовых данных без метки или цели.

Вопрос или проблема

Ответ или решение

Шаг 1: Представление текста в числовой форме

Шаг 2: Извлечение информации и кластеризация

Шаг 3: Валидация

Шаг 4: Получение выводов

Заключение