Вопрос или проблема
У меня есть датасет, который содержит только случаи и не имеет контролей. Возможно ли сделать выбор характеристик в таких датасетах? В конечном итоге я хочу создать предсказательную модель, которая предсказывает случай.
Вы можете использовать любой метод отбора признаков, который не учитывает целевую переменную. Простой пример – удалить сильно коррелирующие признаки.
Поскольку я понимаю вашу проблему, то вы ищете метод отбора признаков без учителя.
Существует как минимум два способа рассматривать методы отбора признаков [1]:
- Перспектива надзора
- Супервизированный отбор признаков, который с помощью информации о надзоре оценивается через корреляцию с метками классов (для задач классификации) или целевой переменной регрессии (для задач регрессии).
- Несупервизированный отбор признаков в целом предназначен для задач кластеризации, которые не имеют информации о метках для оценки процесса и поэтому ищут альтернативные критерии для определения релевантности признаков.
- Полу-супервизированный отбор признаков – это процесс, который сочетает в себе супервизированные и несупервизированные подходы, где доступные данные частично размечены, но не все из них.
- Перспектива стратегии отбора
- Методы оберток полагаются на предсказательную эффективность алгоритма обучения для оценки качества выбранных признаков.
- Методы фильтрации полагаются на (статистические) характеристики данных для оценки важности признаков и, как правило, более эффективно с точки зрения вычислений, чем обертки.
- Методы встраивания представляют собой компромисс между методами фильтрации и оберток, которые встроены в процесс обучения модели.
Существует также перспектива данных [1].
Оставляю вам некоторые ссылки для более глубокого изучения:
Ответ или решение
Тема выбора признаков в наборе данных, состоящем только из случаев (без контрольной группы), вызывает интересные вопросы и требует аккуратного подхода. Давайте рассмотрим, как можно провести выбор признаков в такой ситуации, опираясь на научные методы и практические соображения.
1. Понимание задачи
Выбор признаков — это важный этап при построении моделей машинного обучения, так как это может существенно повлиять на производительность модели. В вашем случае, мы сталкиваемся с набором данных, в котором отсутствует контрольная группа. Обычно контрольная группа позволяет производить анализ корреляции между признаками и целевыми переменными. Однако даже без этой информации возможно применить несколько стратегий.
2. Неподконтрольные методы выбора признаков
Как было упомянуто в вашем сообщении, для выбора признаков в условиях отсутствия контроля можно использовать методы неподконтрольного обучения. Эти методы не требуют наличия меток и позволяют выполнять анализ признаков за счет внутренней структуры данных.
2.1. Удаление высококоррелирующих признаков
Одним из простых и эффективных методов выбора признаков является удаление высококоррелирующих признаков. Это можно сделать с помощью вычисления корреляционной матрицы, где признаки с высокой корреляцией (например, выше 0.8) могут быть исключены.
2.2. Алгоритмы кластеризации
Другим способом является использование алгоритмов кластеризации (например, K-means или иерархическая кластеризация). Признаки, которые способствуют образованию четких кластеров, могут быть более полезными. Вы можете проанализировать, какие признаки лучше разделяют данные на кластеры, и оставить их.
2.3. Метод главных компонент (PCA)
Метод главных компонент (PCA) также может быть полезен для уменьшения размерности вашего набора данных. Он позволяет выделить наиболее значимые компоненты, которые объясняют наибольшее количество вариаций в данных. Однако стоит помнить, что PCA создает новые признаки, которые являются линейными комбинациями исходных.
3. Изучение структуры данных
Важно провести предварительный анализ данных (EDA). Это поможет выявить закономерности и связи между признаками. Метод визуализации данных, например, с помощью диаграммы рассеяния или графиков распределения, может указать на возможные взаимосвязи.
4. Заключение
Несмотря на отсутствие контрольной группы, выбор признаков все же возможен и может быть весьма успешным. Используя методы неподконтрольного обучения, такие как удаление высококоррелирующих признаков, алгоритмы кластеризации и PCA, вы сможете оптимизировать свой набор данных и повысить качество модели.
Полезные ссылки для дальнейшего изучения
- Обзор методов выбора признаков
- Обзор методов полу-контрольного выбора признаков
- Обзор методов неподконтрольного выбора признаков
Следите за последними исследованиями и подходами в этой области, чтобы повысить качество своих предсказательных моделей.