Какова основная концепция использования лексического, лингвистического, семантического или синтаксического подхода в обработке естественного языка для борьбы с кибербуллингом?

Question 1

Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее, может кто-то объяснить мне… Какова основная концепция использования лексического, Linguistic, семантического или синтаксического подхода в NLP и как это применяется к кибербуллингу, или какие шаги, или почему люди говорят, что я создал эту систему кибербуллинга с лингвистического подхода, я знаю, что POS-тегирование — это способ группировки слов и поиска зависимостей в других словах, моя идея о POS-тегировании — это синоним семантики, потому что POS-тегирование — это процесс связывания слов с его корнем и представления слова в понятном контексте, исправьте меня, если я неправ.

Я прочитал статью, в которой обсуждался проект, использующий подход предсказательной аналитики с техниками извлечения признаков, Наивный Байес для классификации и для обучения модели, в обсуждении также говорилось о том, как другая команда использовала семантический подход для классификации кибербуллинга. Я знаю о очистке данных, токенизации, стемминге и большинстве моделей извлечения признаков, однако я застрял на проблеме подхода, а именно, какова актуальность лексического, семантического или синтаксического подхода и как они рассматриваются.

Question 2

Я предлагаю ознакомиться с некоторыми вводными книгами по NLP, например, Обработка естественного языка с Python. Это очень доступное и практическое введение, полезное даже если вы не собираетесь работать с Python. Другая, более детализированная учебник — это Обработка речи и языка Джурафски и Мартина.

Сначала вам нужно понять основы, и они независимы от вашего конкретного применения (кибербуллинг). И я думаю, что это слишком много знаний, чтобы уместить в ответ здесь. Но чтобы дать вам представление:

Лексический: информация о словах (значение и структура)

Синтаксический: структура текста (как слова составляют фразы и как фразы составляют предложения, правила, которые регулируют этот процесс)

Семантический: о значении текста (как он строится из значений слов и их композиции).

Обычно это составная часть процесса, что означает, что вы должны начать обработку с слов, затем посмотреть, как они формируют предложения, и затем вы можете взглянуть на значение.

Ваше понимание POS-тегирования, похоже, не совсем точное: это процесс присвоения словам в тексте их части речи (POS), например, глагол, существительное, прилагательное и т. д. Таким образом, это часть синтаксической обработки (но также требует лексических знаний), но также полезно для семантического анализа на более поздних этапах.

Вопрос или проблема

Ответ или решение

Основные концепции использования лексического, лингвистического, семантического и синтаксического подходов в NLP для определения кибербуллинга

1. Лексический подход

2. Синтаксический подход

3. Семантический подход

4. Интеграция подходов

Шаги для построения системы на основе лингвистического подхода

Заключение