Вопрос или проблема
Я новичок в мире больших данных и извлечения текста.
Мне потребовалось время, чтобы понять все связи и научиться классифицировать модные термины.
Но есть одно, что я все еще не понимаю. Связь между NLP, извлечением текста и такими задачами, как токенизация, лемматизация, удаление стоп-слов и т. д.
Я ссылаюсь на две статьи, например:
- https://www.elderresearch.com/wp-content/uploads/2020/10/Whitepaper_The_Seven_Practice_Areas_of_Text_Analytics_Chapter_2_Excerpt.pdf
- https://www.researchgate.net/publication/311394659_Text_Mining_Techniques_Applications_and_Issues
Как мне это связать?
Вариант 1:
- Задачи, такие как токенизация, лемматизация и т. д., являются задачами NLP
- и NLP является прикладной областью извлечения текста
Вариант 2:
- Задачи, такие как токенизация, лемматизация и т. д., являются задачами извлечения текста
- которые находят свое применение в NLP?
Может кто-то объяснить это мне?
С исследовательской точки зрения эта область называется Обработка естественного языка (NLP). Это термин, который люди используют, чтобы описать свою специальность, называть свои команды, крупные конференции и т. д. Для полноты картины я должен упомянуть, что термин Компьютерная лингвистика также довольно распространен (извините, что добавил еще один термин для вашего смятения!).
Насколько мне известно, термин “извлечение текста” никогда не используется как научная область и на самом деле не так часто используется. Википедия определяет извлечение текста как общий процесс извлечения информации из текста, поэтому с этой точки зрения это общий термин, который включает большинство областей NLP. Так что технически ваш вариант 1, вероятно, наиболее правильный, однако я не думаю, что кто-либо когда-либо сказал бы, что “NLP является прикладной областью извлечения текста”, это звучит неправильно, потому что извлечение текста не является названием области.
В употреблении “извлечение текста” обычно относится к исследовательской (часто неконтролируемой) стороне приложений, чем-то напоминающей то, что извлечение данных для машинного обучения. Но честно говоря, я не думаю, что стоит пытаться формально определить взаимосвязь или точные границы этих понятий, которые во многом пересекаются и все равно быстро развиваются. Другими словами: не зацикливайтесь на этом 😉
Для справки, NLP находится на пересечении многих областей или подобластей: он пересекается с обработкой речи, извлечением информации, представлением знаний, извлечением данных и т. д.
В любом случае, добро пожаловать в эту область 🙂
Ответ или решение
Связь между текстовой аналитикой (text mining), обработкой естественного языка (Natural Language Processing, NLP) и такими задачами, как токенизация, лемматизация, удаление стоп-слов и прочими, действительно может быть запутанной, особенно для новичков в этой области.
Основные понятия
-
Обработка естественного языка (NLP) – это междисциплинарная область, изучающая взаимодействие между компьютерами и человеческим (естественным) языком. Она включает в себя разработку алгоритмов и моделей, которые позволяют компьютерным системам понимать и интерпретировать текстовую и речевую информацию.
-
Текстовая аналитика (Text Mining) – это процесс извлечения информации из текстов, который в основном фокусируется на неструктурированных данных. Текстовая аналитика может включать в себя такие аспекты, как кластеризация, извлечение знаний и выявление паттернов в текстах. Можно сказать, что это более обширная категория, включающая в себя как алгоритмы NLP, так и методы, которые могут не входить в категорию обработки языка.
Связь между понятиями
Теперь перейдем к вашим вариантам классификации:
-
Вариант 1: Задачи, такие как токенизация и лемматизация, являются задачами NLP, а NLP – это прикладная область текстовой аналитики.
-
Вариант 2: Задачи, такие как токенизация и лемматизация, являются задачами текстовой аналитики, которые находят применение в NLP.
Корректность вариантов
С точки зрения научного сообщества, вариант 1 ближе к истине. Токенизация, лемматизация и удаление стоп-слов — это базовые операции в NLP, необходимые для предварительной обработки текста перед применением более сложных моделей и алгоритмов. Однако в некотором контексте можно сказать, что данные задачи имеют отношение и к текстовой аналитике, так как они помогают извлекать ценные сведения из текстовой информации.
Заключение
Общая рекомендация для вас — не стремитесь определить четкие границы между этими понятиями. Обработка естественного языка и текстовая аналитика пересекаются и взаимодополняют друг друга. Например, технологии NLP могут применяться для решения задач, связанных с текстовой аналитикой, и наоборот. Важно понимать, что эти области находятся под влиянием различных смежных дисциплин, таких как машинное обучение, семантический анализ, информационный поиск и другие.
Не стоит слишком беспокоиться о том, как строго классифицировать эти концепции. Со временем и с практикой вам станет легче различать эти понятия и понимать, как они взаимосвязаны. Добро пожаловать в мир текстовой аналитики и обработки естественного языка!