Возможно ли использовать BERTopic на данных, не основанных на предложениях?

На чтение 3 мин Опубликовано 24.11.2024

Содержание

Вопрос или проблема
Ответ или решение
1. Суть проблемы
2. Возможные решения
3. Тестирование и валидация
4. Заключение

Вопрос или проблема

Я хотел бы создать тематическую модель содержимого поля “Заметки” в CRM. Таких записей несколько сотен. Чаще всего это не целые предложения, а просто комбинации слов (например, “клиент с конференции 2024 года в Цюрихе” или “поставщик оборудования, заинтересованный в продукте X”).

Я новичок в тематическом моделировании, но я создал начальную модель с использованием BERTopic. Однако многие из сгенерированных тем не связаны между собой. Может быть, это связано с тем, что BERTopic основан на векторизации предложений, а мои исходные данные не состоят из целых предложений?

Ответ или решение

Использование BERTopic для построения моделей тем на основе данных, которые не представляют собой полные предложения, действительно может представлять определённые сложности. Основная причина заключается в том, что BERTopic основан на извлечении эмбеддингов, что предполагает наличие более сложной структуры текста, чем просто набор слов. Ваша задача состоит в создании модели тем на основе содержимого поля «Remarks» (Замечания) в CRM, и, судя по вашему описанию, в этом поле часто встречаются неразличимые фразы или комбинации слов.

1. Суть проблемы

Эмбеддинг — это числовое представление текста, которое позволяет алгоритмам машинного обучения интерпретировать значение слов и фраз. Однако, когда вы работаете с несогласованными комбинациями слов, как в вашем случае, качество эмбеддингов может значительно снизиться, что приводит к неясным и неконгруентным темам.

2. Возможные решения

Несмотря на указанные ограничения, существуют несколько подходов, которые могут облегчить задачу использования BERTopic на несловесных данных:

Предварительная обработка текста:
- Попробуйте улучшить свою выборку данных, добавив контекст или дополнительные слова. Например, вы можете добавлять фиктивные слова, чтобы создать ощущения полноты предложения: «клиент из 2024 конференции в Zürich — интересный случай» вместо «клиент из 2024 года, Zürich».
Сегментация данных:
- Подумайте о разбиении ваших фраз на составные части или сегменты, создавая небольшие предложения, которые будут более осмысленными. Это может потребовать некоторой ручной работы, но создаст более подходящие предложения для анализа.
Использование других методов моделирования тем:
- Если BERTopic не дает желаемых результатов, стоит рассмотреть альтернативные алгоритмы, такие как LDA (Latent Dirichlet Allocation) или NMF (Non-negative Matrix Factorization), которые иногда лучше справляются с менее структурированными данными.

3. Тестирование и валидация

Важно проводить итеративное тестирование ваших моделей, чтобы оценить качество тем, которые они генерируют. Подходите к этому процессу систематически, проверяя разные методы предобработки и сравнивая результаты.

4. Заключение

В заключение, хотя BERTopic изначально ориентирован на предложение, вы можете адаптировать вашу стратегию обработки данных, чтобы добиться более точного анализа в случае неполных фраз. Используйте методы предварительной обработки, рассматривайте другие алгоритмы моделирования тем и активно тестируйте различные подходы. Это позволит повысить эффективность создания тематических моделей на основе ваших данных из CRM.

Не забывайте, что наибольшим успехом будут увенчаны те подходы, которые сочетают в себе как качественную подготовку данных, так и адекватное использование алгоритмов.