Как я могу выявить шаблоны и/или ключевые слова или фразы?

Question 1

Я собираю данные в базе данных через php из apache.

Меня интересует обнаружение паттернов в каждом столбце на данный момент.

Например, ручное исследование данных показывает, что паттерн phpmyadmin встречается в различных формах и написании, а также на различных позициях в тексте. Также необходимо обнаружить любые другие паттерны.

Как я мог бы обнаружить это программным способом, используя компьютер вместо моего мозга?

Мне нужно подробное объяснение, так как я совершенно нов в такой работе.

Паттерн — это любая последовательность символов, которая повторяется вместе. Например, phpmyadmin — это последовательность из 9 букв, которая повторяется вместе. Я обнаружил “phpmyadmin” вручную, я хотел бы обнаружить его программно. Исключая совпадения с одиночными цифрами общих символов, которые находятся в диапазоне ascii 32-127.

Question 2

Это зависит от того, что вы хотите сделать, и как вы определяете “паттерн”. Если вас интересуют часто встречающиеся термины, тогда токенизируйте и подсчитайте слова. Если вы хотите сравнить различные формы одних и тех же терминов, я бы предложил вам создать две матрицы терминов: одну, где вы берете ввод как есть, и одну, где вы берете версию ввода, преобразованную в нижний регистр.

Кстати, матрица частоты терминов — это просто матрица, где строки — это ваши примеры (я полагаю, столбцы в вашей базе данных), а столбцы — это обнаруженные токены (то есть слова).

Например, в фразе ‘кошка сидела на коврике’, соответствующий вектор строки с количеством слов будет таким:

кошка 2
сидела 1
на  1
коврике 1

Чтобы получить частоты, вам просто нужно разделить полученные векторы на общее количество слов.

[ИСПРАВЛЕНО] После прочтения комментариев, я бы рекомендовал вам изучить решения для обнаружения аномалий. Вот здесь хорошая статья, которая решает аналогичную задачу, как ваша. Авторы кодируют документы как мешок слов с использованием частот терминов (см. выше) и строят классификатор, чтобы пометить весь документ как аномалию.

В вашем случае это немного сложнее, потому что вы хотите пометить конкретные термины как хорошие или плохие, и у вас нет размеченного набора данных. Поэтому либо найдите размеченный набор данных (не обязательно полностью размеченный набор данных, существуют полупод监督ные решения, но хотя бы несколько меток было бы неплохо), либо исследуйте несупервизионные решения для обнаружения выбросов. Что касается пометки паттернов, то лучше всего использовать рекуррентные нейронные сети, которые предназначены для обработки последовательных данных, таких как ваши. Тем не менее, я сомневаюсь, что вам удастся это сделать с PHP, поэтому, возможно, рассмотрите другой вариант. Tensorflow / PyTorch / Neo4J — очень хорошие альтернативы для создания таких моделей, и много других тоже существует.

Question 3

Вы не упомянули о предпочтении языка, но есть способы делать распознавание паттернов — я лично рекомендую использовать Python. Алгоритмы K-ближайших соседей, декорреляция и матрица несходства — это несколько идей, как только вы определите, что такое паттерн.

Так как вы упомянули, что вы новички во всем этом — вот несколько действительно хороших источников, чтобы понять, что нужно сделать и как.

https://towardsdatascience.com/machine-learning-basics-with-the-k-nearest-neighbors-algorithm-6a6e71d01761

http://en.m.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/Dissimilarity_Matrix_Calculation

Как я могу выявить шаблоны и/или ключевые слова или фразы?

Вопрос или проблема

Ответ или решение

1. Определение Паттерна

2. Сбор Данных

3. Токенизация и Нормализация

4. Подсчет Частоты

5. Поиск Паттернов

6. Использование Алгоритмов Машинного Обучения

7. Заключение