Когда мне следует делать разделение на обучающую и тестовую выборки, а также отбор признаков, если мой набор данных несбалансированный?

Question 1

У меня есть набор данных, содержащий ЭКГ-сигналы с 5 различными классами, описывающими качество конкретного окна ЭКГ-сигнала. Мне нужно создать модель машинного обучения для предсказания качества сигнала на основе признаков, извлеченных из каждого окна.

Набор данных содержит 1020 окон по 5 секунд, с следующим распределением меток:

Очень хорошо: 485 случаев
Хорошо: 272 случая
Умеренно: 138 случаев
Плохо: 75 случаев
Плохое: 50 случаев

Набор данных несбалансирован, поэтому я еще не провел отбор признаков. Я узнал, что отбор признаков следует проводить перед увеличением данных, чтобы гарантировать, что синтетические данные, созданные для балансировки набора данных, повлияют на значимость признаков. Однако я также читал, что разделение на обучающую и тестовую выборки должно выполняться перед отбором признаков. Я обеспокоен тем, что, если я разделю данные, нехватка данных меньшинств повлияет на процесс отбора признаков.

Я новичок в машинном обучении, поэтому буду признателен за любые предложения по правильному подходу к этому. Любые дополнительные советы будут очень полезны.

Question 2

Разделение на обучающую/тестовую выборки должно выполняться перед отбором признаков, чтобы выбор признаков для модели не зависел от тестового набора (поэтому вы также можете проверить качество отбора признаков).

Если вы обеспокоены достаточной представленностью отдельных классов меток, вы можете провести стратифицированную выборку для разделения на обучающую/тестовую выборки, чтобы гарантировать, что у вас будет достаточно каждого класса в обеих выборках.

Question 3

Данная проблема :-

Эта проблема заключается в создании модели машинного обучения для предсказания качества ЭКГ-сигнала из несбалансированных данных, где отбор признаков, увеличение данных и разделение на обучающую и тестовую выборки требуют тщательной обработки, чтобы избежать предвзятости в классах меньшинств во время выбора признаков и обеспечить корректную модель.

Решение:-

Исходя из вышеуказанной проблемы, я хотел бы предложить алгоритм многоклассовой классификации в машинном обучении с нейронными сетями через такие фреймворки, как TensorFlow / PyTorch, что является лучшим подходом для построения вашего алгоритма машинного обучения.

Жизненный цикл построения модели машинного обучения включает в себя :-

1.Сбор данных :- первый шаг, который вы уже сделали.

2.Предобработка данных :- собранные данные проверяются на наличие нулевых значений и требуют следующих шагов:

1.  проверка на наличие нулевых значений 
2.  удаление нулевых значений
3.  моделирование данных 
4.  разметка данных
5.  выполнение исследовательского анализа данных

3.Отбор признаков:- на основе исследовательского анализа данных выберите необходимые признаки и нормализуйте их для достижения лучших результатов модели.

4.Построение модели :- проведите разделение на обучающую и тестовую выборки с учетом необходимых условий, которые могут быть представлены ниже.

Обучение	Тест
70	30
80	20
60	40

после выбора правильного метода разделения на обучающую и тестовую выборки создайте модель с помощью фреймворков `PyTorch/ TensorFlow/ SKLearn`.

5.Оценка модели :- после построения модели оцените ее.

6.Оптимизация модели :- после завершения многоклассовой классификации ЭКГ-сканов продолжайте проверку на точность и на основе этой точности принимайте решение о следующих шагах:

1. Используйте ансамблевые методы для повышения точности и соответствия модели 
2. Используйте противостоящее обучение или другие различные методы оптимизации модели для улучшения работы

7.Развертывание модели:- если это приложение “от конца до конца”, то убедитесь, что вы создаете дизайн интерфейса и затем реализуете анализ модели на серверной стороне и развертываете его с использованием облачных провайдеров и Docker.

Когда мне следует делать разделение на обучающую и тестовую выборки, а также отбор признаков, если мой набор данных несбалансированный?

Вопрос или проблема

Ответ или решение

1. Разделение на обучающую и тестовую выборки

2. Отбор признаков

3. Устранение несбалансированности

4. Построение модели

5. Оценка и оптимизация модели

Заключение