Как я могу найти аномалии в признаках на основе разницы между истинными и предсказанными целями?

Содержание

Вопрос или проблема
Ответ или решение
Проблема
Оценка существующего подхода
Оптимизация процесса расследования
Заключение

Вопрос или проблема

В общем, проблема заключается в следующем: существует целевая величина (эффективность мобильных станций). Цель состоит в том, чтобы найти станции, которые работают неэффективно, и выявить причины этого. Кроме того, желаем найти средства для повышения общей эффективности. Одной из проблем является то, что существуют признаки, которые сильно коррелируют с целевой величиной (например, целевая эффективность сильно связана с трафиком и загрузкой, поэтому низкая цель, скорее всего, будет означать, что трафик низок, но суть заключается в том, чтобы выяснить, почему он низок). Текущий способ сделать это таков: сначала мы удаляем сильно коррелирующие признаки с целью, затем обучаем модель для предсказания цели. Для тех объектов, для которых предсказанная цель равна истинной цели, мы выполняем объяснение Шэпли, чтобы увидеть, какие признаки важны для анализа. Для тех станций, для которых предсказанная цель больше истинной цели (то есть модель видит потенциал для повышения эффективности этих станций), мы обучаем модели с признаками как целями, пытаясь найти ту, которая будет отличаться от истинной. Вопрос заключается в том, хорош ли этот подход? Есть ли способы улучшить его? Может быть, существуют другие эффективные методы для решения такой проблемы?

Подход выглядит неправильным. Ваши входные данные для окончательной модели являются бинарными, в то время как выход — это список признаков.

Я подготовлю данные. Входными данными будут признаки, которые описывают эффективность станции. Выходными данными будет информация о том, может ли эффективность быть повышена или нет. Используйте Шэпли для определения факторов, влияющих на решение.

Ответ или решение

Для выявления аномалий в характеристиках на основе разницы между истинными и предсказанными целями, необходимо разработать последовательный и многогранный подход, учитывающий комплексность задачи. В данном контексте вы хотите не только обнаружить станции с низкой эффективностью, но и понять причины их недостаточной работы, а также предложить пути для улучшения общей эффективности.

Проблема

Существующая методология предполагает устранение сильно коррелирующих с целевой переменной признаков, что может привести к потерям важной информации, критически необходимой для объяснения тех аномалий, которые вы пытаетесь исследовать. Подход с использованием моделей предсказания для оценки, какие признаки важны, когда предсказанная цель соответствует истинной, может быть расширен для более глубокого анализа аномалий.

Оценка существующего подхода

Удаление коррелирующих признаков: Это не всегда желательно, так как коррелирующие признаки могут содержать важные детали, помогающие объяснить, почему именно определенные станции показывают низкую эффективность.
Использование SHAP для интерпретации: Применение SHAP (SHapley Additive exPlanations) — это правильный шаг в исследовании важности признаков. Однако, этот шаг должен быть интегрирован в общий процесс анализа.
Тренировка моделей с цельными приближенными значениями: Когда предсказанная цель превышает истинную, целесообразнее использовать те же признаки для создания моделей, которые будут предсказывать, что именно мешает эффективности на данной станции.

Оптимизация процесса расследования

Сохранение всех признаков: Вместо удаления коррелирующих признаков, рассмотрите возможность их агрегирования или трансформации. Это может привести к тому, что вы сможете сохранить информацию, трансформируя данные в менее коррелированные службы.
Многоуровневая модель: Разработайте многоуровневую или иерархическую модель, где первый уровень будет определять, возможно ли улучшение, а второй — выявлять конкретные факторы, которые влияют на это улучшение.
Кластеризация станций: Перед началом предсказательной модели может быть полезно провести кластерный анализ с целью группировки станций по схожести их характеристик. Это поможет лучше понять поведение недопроизводительных станций.
Анализ аномалий: Используйте методы обнаружения аномалий, такие как DBSCAN или Isolation Forest, для выставления явных аномалий в данных, которые могут не проявляться явно в рамках стандартной педагогической модели.
Оптимизация с моделями градиентного бустинга: Используйте градиентный бустинг для адаптации точных предсказаний, что позволит вам глубже внедриться в данные.
Регуляризация и отбор признаков: Рассмотрите возможность использования техник регуляризации (например, Lasso или Ridge) для выявления наиболее значимых признаков, которые позитивно влияют на предсказания.

Заключение

Ваш подход к выявлению аномалий в таких сложных системах, как эффективность мобильных станций, должен быть адаптивным и многоуровневым. Комбинация методов интерпретации, анализа аномалий и итеративного обучения ваших моделей позволит получить более глубокие insight’ы о важнейших факторах, влияющих на низкую эффективность. Это, в свою очередь, позволит эффективно выделить факторы, усовершенствовать общую производительность и предоставит руководство для улучшения управления мобильными станциями с целью достижения максимальной эффективности.