Вопрос или проблема
Я работаю с данными финансовых временных рядов на большом глобальном рынке компаний. В настоящее время использую фундаментальные данные от FactSet, и мой вопрос касается прибыли на акцию (EPS). Я сталкиваюсь как с техническим, так и с философским вопросом о наилучшем подходе к обработке этих данных для анализа.
Текущая ситуация:
- У меня есть данные о квартальной/полугодовой/годовой EPS (переведенные в показатели за последние 12 месяцев, так как частота отчетности варьируется между компаниями) и данные о ценах
- Показатель EPS за последние 12 месяцев пересекает ноль для некоторых компаний, которые отчетировали отрицательный EPS на протяжении некоторого времени
Пример: канадская компания Kinaxis, которая отчетировала отрицательный квартальный EPS около 2014-2015 годов и затем снова в течение нескольких кварталов около 2022 года
Коэффициент P/E без какой-либо очистки:
Основной вопрос:
- В мире машинного обучения, должны ли мы явно сообщить нашей модели, что Price / EPS = PE, и что это важная вещь, по мнению фундаментальных инвесторов? Или следует доверять модели, чтобы она сама изучала EPS и Price и находила паттерны без моей посредственной попытки финансового инжиниринга?
Если рассчитывать P/E, как мне обращаться с периодами отрицательного EPS? Следует ли провести винзоризацию или обрезку до или после расчета коэффициента?
- Процентильный рейтинг после этого не работает, так как экстремальные периоды P/E слишком сильно исказили результаты.
- Стандартизация признака показывает перспективу, так как она сохраняет ценные инсайты после экстремального периода
- Винзоризация на уровнях 5%/95% также работает, либо обрезка PE ниже 0 и выше, скажем, 200, но беспокоит, что это слишком много вмешательства в данные.
Я ищу как теоретические или философские идеи, так и практический опыт.
Ответ или решение
Обработка отрицательных или близких к нулю значений прибыли на акцию (EPS) в финансовом временном ряде является сложной задачей, особенно в контексте расчета таких показателей, как коэффициент P/E (цена/прибыль). Этот вопрос имеет как технический, так и философский аспекты, и его решение требует сочетания теоретических знаний, практического опыта и философского подхода к анализу данных.
Теоретические аспекты
EPS, или прибыль на акцию, представляет собой ключевой показатель, который широко используется для оценки финансового состояния компании и ее стоимости на рынке. Тем не менее, когда EPS переходит через ноль и становится отрицательным, это может вызвать серьезные искажения в расчетах коэффициента P/E, так как отрицательные значения либо приводят к невозможности его расчета, либо не имеют действительного экономического смысла.
Проблемы при работе с EPS:
- Отрицательная EPS: Отрицательные значения EPS делают коэффициент P/E отрицательным, что не является информативным для большинства инвестиционных решений.
- Близкая к нулю EPS: Если EPS близка к нулю, то коэффициент P/E стремится к бесконечности, что также может сильно искажать результаты.
- Влияние на модели машинного обучения: Использование искаженных данных может привести к обучению модели на выбросах, что, в свою очередь, ухудшает ее предсказательные способности.
Практические примеры
В контексте компании Kinaxis, которая в 2014-2015 годах и затем снова в 2022 году имела отрицательные квартальные EPS, подобные ситуации вполне реальны. Если коэффициент P/E рассчитывается без учета этих анамалий, он может предоставить вводящие в заблуждение данные, не отражая действительной экономической ситуации.
Рассматриваемые подходы к решению проблемы:
- Винсоризация: Ограничение экстремальных значений P/E помогает сгладить влияние выбросов. Однако, это может потенциально удалить полезную информацию, особенно если выборка мала.
- Z-преобразование: Применение стандартизации (Z-score) позволяет сохранить распределение данных, при этом низведя влияние экстремальных значений.
- Обрезание данных (тримминг): Применение обрезания значений P/E ниже 0 и выше определенного порога (например, 200) может способствовать стабилизации данных, но требует внимательного подхода, чтобы не потерять критическую информацию.
Применение и философские рассуждения
С одной стороны, инженерия функций (например, формула P/E) является важной частью анализа данных, так как этот показатель имеет аналитическое значение и подкреплен экономической теорией. Однако в контексте машинного обучения каждый линейный признак должен также анализироваться в своем независимом смысле: то есть, обучающая модель может самостоятельно выявить связи между ценой и EPS без излишнего вмешательства.
С другой стороны, важно обеспечить, чтобы данные, на которых обучается модель, были релевантными и качественными. Это включает в себя как использование инженерии функции, так и применение методов, снижающих влияние выбросов.
Рекомендации
- Комбинированный подход: Используйте смешанный подход, который предполагает создание функциональных инженерных показателей, как коэффициент P/E, но дополнительно обучайте модели на сырых данных, чтобы они смогли выявить скрытые паттерны.
- Контролируемая чистка данных: Применяйте методы винсоризации или тримминга в сочетании с детальным исследованием данных, чтобы избежать потерю критической информации.
- Периодическая валидация моделей: Регулярно проверяйте и обновляйте модель, чтобы она адаптировалась к изменениям в данных и продолжала предоставлять актуальные прогнозы.
Таким образом, решение задачи заключается в балансировании между необходимостью инженерии функций и доверием к возможностям машинного обучения в извлечении скрытых корреляций из исходных данных.