Вопрос или проблема
У меня есть несколько временных рядов данных о фондовом рынке с основными показателями. Я хотел бы построить модель, которая выбирает акции для покупки и удержания.
Я понимаю, что для выполнения этой задачи у меня есть два варианта:
-
Обучить модель для каждой акции: таким образом, я понимаю, это наиболее практично, однако, количество данных для каждой модели будет очень ограничено (каждый набор данных содержит менее 1000 строк).
-
Объединить все данные в один набор данных: я не нашел в интернете ничего, что поддерживало бы эту идею, однако, я понимаю, что модель будет более надежной и будет иметь гораздо больше данных для обучения.
Итак, какой был бы правильный способ выполнения такого рода анализа? Кто-нибудь из вас предложил бы другой способ?
Заранее спасибо!
Я бы предложил второй вариант. Потому что таким образом ваша модель получит возможность изучить что-то для одной акции, что она может применить для других акций. Если вы предоставите тип акции в качестве входной функции, она должна будет суметь различить особенности, которые встречаются только в одной акции, и общие вещи. Таким образом, она как бы сможет перенести знания с одной акции на другую.
Но в то же время я бы посоветовал попробовать оба варианта и выбрать тот, который работает лучше всего. Таким образом, вы также сможете обосновать свой выбор в конце.
Эти два метода предполагают два разных предположения. Первый метод подразумевает, что одни и те же признаки на двух разных акциях приводят к разным результатам, и, следовательно, обучение на обоих контрпродуктивно. Второй метод подразумевает, что если вы что-то узнали об одной акции, это также будет верно и для другой акции. Другими словами, хорошая модель для одной акции хороша для всех акций.
Как вы решите моделировать мир, оставляется на ваше усмотрение.
Я бы предложил при использовании второго метода проверить, чтобы ваши признаки не утекали информацию. Например, объединение двух временных рядов с разными диапазонами значений позволило бы вашей модели “знать”, над каким рядом она работает.
Ответ или решение
Вопрос о том, следует ли объединять несколько временных рядов данных по акциям в единый набор данных, является актуальной задачей при разработке моделей для выбора акций с целью покупки и удержания. Рассмотрим тщательно оба подхода и предоставим рекомендации.
### Объединение нескольких временных рядов в один набор данных
#### Плюсы:
1. **Увеличение объема данных:** Объединение данных приводит к созданию большего набора данных для тренировки модели, что может повысить ее устойчивость и обучаемость.
2. **Трансфер знаний:** Модель получает возможность обнаруживать общие шаблоны и закономерности, применимые ко всем акциям. Это может улучшить способность модели предсказывать поведение акций, используя возможности переноса знаний между различными активами.
3. **Упрощение структуры данных:** Наличие единого набора данных упрощает процесс предобработки и анализа, позволяя избежать множества изолированных циклов тренировки и оптимизации моделей для каждой отдельной акции.
#### Минусы:
1. **Риски утечки информации:** Необходимо тщательно следить за тем, чтобы данные не раскрывали информацию, позволяющую модели определить, на каком временном ряде она работает. Например, такие различия в диапазонах значений могут исказить результаты.
2. **Генерализация:** Модель может столкнуться с трудностью при распознавании специфических особенностей каждой отдельной акции, если они будут замаскированы общими тенденциями.
### Обучение отдельной модели для каждой акции
#### Плюсы:
1. **Индивидуальный подход:** Каждая акция анализируется отдельно, что позволяет учесть ее уникальные особенности и специфические рыночные условия.
2. **Изолированность от проблем совмещения данных:** Меньший риск утечки информации и отсутствия необходимости учитывать различия в данных.
#### Минусы:
1. **Ограниченный объем данных:** Небольшие объемы данных (менее 1000 строк для каждой акции) могут привести к недостаточной обучаемости модели, затрудняя получение точных прогнозов.
2. **Затраты времени и ресурсов:** Тренировка и оптимизация множества отдельных моделей может быть более затратной по времени и ресурсам.
### Рекомендации
Рекомендуется попробовать оба подхода и провести сравнение их производительности. Это позволит вам определить наиболее оптимальный вариант для вашей задачи и обосновать свой выбор. В случае объединения данных, важным шагом будет добавление индикатора типа акции в качестве одного из признаков, что помогает модели различать особенности данных для каждой акции.
Советую также внимательно проверить качественный состав данных, провести экспериментальное тестирование и использовать практики предотвращения переобучения, такие как перекрестная проверка и регуляризация, чтобы обеспечить корректность выводов.
Таким образом, решение о том, объединять ли наборы данных или использовать отдельные модели для каждой акции, зависит от вашей конкретной задачи, доступных данных и ресурсов для анализа. Тщательное тестирование и продуманный подход к выбору стратегии позволят добиться наилучших результатов.