Предсказание, является ли поисковое ключевое слово низкочастотным, основываясь только на высокочастотных ключевых словах.

Question 1

Моего друга спросили этот вопрос на собеседовании на позицию аналитика, и я не могу добиться ответа, поэтому я хотел бы увидеть, как можно решить эту задачу в области науки о данных. Вот проблема:

Предположим, что ключевое слово “Супермен” имеет объем поиска 250 тысяч в месяц. Другие связанные поисковые запросы могут быть “Логотип Супермена” (55 тысяч), “Бэтмен против Супермена” (60 тысяч), “Супермен возвращается” (50 тысяч) и т. д., с помощью которых пользователи ищут определённую тему в Google в стране (например, США).

Однако может быть тысячи ключевых слов со словом “Супермен”, и у нас не всегда есть точные данные для многих из этих ключевых слов с низким объемом (менее 1000). Чтобы определить объем этих тем, мы используем предсказания на основе данных, которые у нас уже есть для ключевых слов с высоким объемом. Например, мы можем сказать, что запрос “Будущий Супермен” не будет часто искаться многими людьми, и его объем может быть средним (близким к 300).

Аналогично, такие термины, как “Изображение Супермена” и “Куртка Супермена”, будут иметь средний объем, а термины, которые люди редко ищут, будут иметь низкий объем, как “Рубашка Супермена с длинным рукавом” (100), а затем есть термины, такие как “дешевая рубашка Супермена” или “Супермен колледж”, которые будут иметь очень низкий объем. Можете ли вы придумать подход, как вы можете классифицировать ключевые слова на “Средний”, “Низкий” и “Очень Низкий”, используя какую-то логику, когда мы знаем только ключевые слова с высоким объемом?

Ваш ответ должен быть описательным и обоснованным. (Подсказка – ваш подход может заключаться в классификации определённых слов, которые, если они присутствуют, сделают ключевое слово “низким” объемом или “очень низким” объемом. Или ваш подход может основываться на количестве слов в ключевом слове, написании, где именно термин появляется в фразе и другой общей человеческой психологии, которая работает во время поиска).

Question 2

Это выглядит так, как будто его можно было бы сформулировать как порядковую регрессию или ранжирование, используя дисконтированное накопление выигрыша.

Порядковая регрессия полезна, когда вы пытаетесь классифицировать классы, которые имеют некоторый внутренний порядок, например “Средний”, “Низкий” и “Очень Низкий”. Она широко используется в психологии и маркетинге и является подходящей процедурой моделирования для этой конкретной проблемы. Реализация довольно сложна, но в двух словах её можно понять как перекрывающиеся распределения, которые можно трактовать как вероятности их принадлежности к указанному классу. В R есть пакет для порядковой регрессии.
Другой подход – ранжирование, большинство пакетов машинного обучения включают это в форме дисконтированного накопления выигрыша, который является мерой качества ранга, и часто используется для измерения эффективности алгоритмов веб-поисковых систем или связанных приложений. В xgboost это представлено как rank:ndcg.
Наивный подход, но который тоже может быть точным – это простая много-классовая классификация. Информация о порядке не будет включена в алгоритм, но, удивительно, его результаты похожи в таких проблемах, потому что алгоритмы, которые стоят за этим, такие как нейронные сети, сейчас довольно мощные, особенно когда у вас есть большой набор данных.

Предсказание, является ли поисковое ключевое слово низкочастотным, основываясь только на высокочастотных ключевых словах.

Вопрос или проблема

Ответ или решение

1. Правила классификации ключевых слов

2. Применение машинного обучения

3. Оценка и Анализ

Заключение