Вопрос или проблема
Я новичок в области Data Science, так что извините, если мой вопрос слишком базовый.
Задача заключается в создании модели рекламных ставок для онлайн-маркетинга, которая позволяет доставлять целевую рекламу нужным людям. Часть предоставленных данных
У меня нет дополнительной информации о задаче. Является ли моя целевая переменная переменной spent? Если да, то какой лучший метод использовать для предсказания целевой переменной?
Я бы сказал, что переменная ‘spent’ является вашей целевой переменной. Я бы предложил вам проанализировать распределение каждой характеристики и целевой переменной, чтобы проверить, может ли линейная регрессия быть уместной. Вы также можете попробовать другие методы, такие как регрессия на основе дерева решений, которая не требует никаких предположений, так как она не оценивает параметры. Тем не менее, я бы предложил сосредоточиться на распределениях параметров, чтобы проверить на наличие несбалансированности и создать группы для повышения устойчивости оценок.
Если выход вашей модели – это реклама, которая может понравиться людям, я бы сказал, что ad_id
является вашей целевой переменной, и вы создаете рекомендательную систему. Например, если человеку A нравится предмет Ad1, и у человека B схожие значения характеристик (возраст, пол и т.д.), то вы можете рекомендовать предмет Ad1 человеку B.
Это зависит от того, какой вопрос вы хотите задать.
Целевая переменная может быть spent
, но если вы хотите оптимизировать свои расходы, я думаю, это имеет смысл только в том случае, если соотнести это с тем, что вы пытаетесь достичь, а именно конверсий клиентов.
Я бы подошел к этой проблеме таким образом, чтобы попытаться предсказать, какие конкретные объявления приносят больше конверсий. Соотношение между деньгами spent
и total_conversion
или approved_conversion
будет вашей целевой переменной.
Предполагая, что spent
– это время, проведенное на странице, я бы сказал, что approved_conversion
является вашей целевой переменной. Ваш клиент что-то делает (например, что-то покупает, подписывается на рассылку…) на сайте (1) или не делает (0); и одним из простых алгоритмов классификации для предсказания этого значения (0 или 1 с определенной вероятностью) является логистическая регрессия. См. страница 131 книги ISLR.
Ответ или решение
Вопрос выбора типа модели и целевой переменной является основополагающим при разработке модели для аукционного рекламного механизма в онлайн-маркетинге. Рассмотрим детали, которые помогут нам сделать правильный выбор.
Понимание проблемы
Согласно вашему описанию, задача заключается в создании модели аукционного назначения рекламы, которая будет способна доставлять целевые объявления именно тем пользователям, которые, вероятнее всего, на них отреагируют. Это может включать в себя клики, покупки или другие виды взаимодействия. Конечно, основная цель таких моделей – максимизация эффективности рекламы при оптимизации затрат.
Выбор целевой переменной
На основе представленной информации, можно выделить несколько возможных целевых переменных:
-
Расходы (
spent
): Если ваша цель заключается в предсказании того, сколько денег вы потратите на рекламу, тогда это может быть вашей целевой переменной. Однако, для более эффективного моделирования, стоит учитывать также эффективность этих расходов (например, сколько конверсий они принесли). -
Конверсии (
approved_conversion
): Если ваша цель состоит в том, чтобы понять или предсказывать, какие объявления приводят к конверсиям, то разумнее использовать эту переменную в качестве целевой. Это бинарная переменная (0 или 1), показывающая, произошла ли конверсия или нет. -
Отношение затрат к конверсиям: Если вам нужно оптимизировать расходы на рекламу по сравнению с результатами, то целевой переменной может быть соотношение между
spent
и либоtotal_conversion
, либоapproved_conversion
.
Подход к выбору модели
В зависимости от вашей целевой переменной, выбор модели изменится. Вот несколько рекомендаций:
-
Регрессия: Если ваша целевая переменная – это
spent
, используйте методы регрессии (например, линейную регрессию или регрессию на основе деревьев решений), чтобы предсказать, сколько вы можете потратить, основываясь на других переменных. -
Логистическая регрессия: Если ваша целевая переменная бинарная (например,
approved_conversion
), целесообразно использовать логистическую регрессию. Она позволит вам предсказать вероятность достижения конверсии на основе различных характеристик пользователей и рекламных объявлений. -
Деревья решений и ансамблевые методы: Для более сложного анализа может подойти использование деревьев решений, случайных лесов или градиентного бустинга. Эти методы не требуют строгих предположений о распределении данных и могут лучше справляться с высокоразмерными наборами данных.
-
Рекомендательные системы: В случае, если вы хотите предсказать, какие именно объявления могут интересовать конкретного пользователя, возможно, вам будет интересно рассмотреть рекомендации на основе Collaborative Filtering или других технологий.
Анализ данных и подготовка
Перед тем как перейти к моделированию, важно провести предварительный анализ данных. Изучите распределение каждого признака, проверьте на наличие пропусков, выбросов и несоответствий. Это поможет вам улучшить качество данных и, как следствие, повысить эффективность модели. Вы можете провести анализ корреляций, который позволит выстроить более четкое понимание взаимосвязей между переменными.
Заключение
Таким образом, выбор целевой переменной и модели зависит от ваших конкретных целей и особенностей данных. Рекомендуется сначала провести глубокий анализ данных, чтобы обосновать свой выбор и улучшить качество модели. Всегда полезно тестировать несколько моделей и проводить сравнение их результатов, чтобы найти наилучший подход к решению вашей задачи.