Как мне справиться с несбалансированными классами в задаче предсказания фондового рынка?

Question 1

Я работаю над моделью предсказания, чтобы определить, нужно ли продавать, удерживать или покупать акцию через n дней. Каждый день (или строка в наборе данных) я классифицирую, нужно ли продавать, удерживать или покупать, основываясь на процентном изменении, и будет создан новый столбец, чтобы указать, какое действие следует предпринять в этот конкретный день.

Как мне справиться с несбалансированной классификацией в моем наборе данных при обучении моей модели? Набор для обучения выглядит следующим образом:

 1    1401
 0     835
-1     413

# 1 — это купить, 0 — удерживать, -1 — это продать

Судя по прочитанному, балансировка зависит от проблемы. Нужно ли мне балансировать данные для классификации предсказаний фондового рынка?

Заранее спасибо.

PS: Я использую SVM и наивный Байес.

Question 2

Какие проценты вы используете для классов покупки, удержания и продажи? Судя по данным, которые вы предоставили в вопросе, я предполагаю, что это акция, которая в большинстве случаев росла, а не падала. Таким образом, если вы увеличите процентные пороги для акции, у вас получится сбалансированный набор данных.

Поскольку вы не предоставляете детали в своем вопросе, давайте предположим, что вы устанавливаете свои классы, чтобы сигнализировать “купить”, если изменение больше %1, продать, если меньше -%1, и удерживать где-то посередине. Но если вы установите порог “купить” на – скажем – %2 и порог “продать” на %0, у вас может получиться лучше сбалансированный набор данных.

Чтобы получить точные точки, которые дадут вам сбалансированные данные, вы можете использовать метод квантилей с q= 1/3.

Question 3

Обычный подход к несбалансированным классам заключается в том, чтобы сделать обучающий и тестовый наборы как можно более однородными. Поэтому убедитесь, что пропорции классов в обоих наборах одинаковы. Существует множество факторов, которые можно учитывать при делении данных, но я предполагаю, что вам нужно просто основное решение. В sklearn это будет любая стратифицированная выборка.

Чтобы проверить, не вызывает ли дисбаланс классов проблемы, вы можете затем посмотреть, предсказывает ли модель некоторые классы в тестовом наборе хуже, чем другие. Вы могли бы затем скорректировать пороги для классификации образцов, чтобы избавиться от некоторых дисбалансов. Хотя я не думаю, что это будет так с теми двумя моделями, которые вы используете, но я могу и ошибаться, и не повредит проверить.

Также в наивном Байесе пропорции классов являются информативным вводом для модели. Они известны как априорные вероятности. Я думаю, что большинство библиотек заботится о вычислении априорных вероятностей самостоятельно, и вам не следует их изменять, если у вас нет на это уважительной причины.

Question 4

Существует идеальное соответствие между правилом и решением. Вы знаете процентное изменение; теперь примените свое правило, чтобы сопоставить это с решением о покупке/продаже/удерживании.

Здесь нет машинного обучения, но даже если бы оно было, сейчас подходящее время, чтобы напомнить, что дисбаланс классов не является большой проблемой, когда используются надлежащие статистические методы. Модели, такие как SVM и наивный метод Байеса, полезны, потому что они открывают правила, о которых вы не знали. Логистическая регрессия определяет оптимальные коэффициенты, даже если мы указываем функциональную форму. Однако вы уже знаете правило для сопоставления процентного изменения с решением о покупке/удерживании/продаже. Вам не нужно его выяснять.

Как мне справиться с несбалансированными классами в задаче предсказания фондового рынка?

Вопрос или проблема

Ответ или решение

1. Понимание природы вашей задачи

2. Настройка порогов классов

3. Балансировка классов

4. Кросс-валидация

5. Оценка производительности модели

Заключение