Вопрос или проблема
Я работаю над задачей “двухклассовой классификации многомерных временных рядов”. Я использовал два разных подхода:
1) Ручная инженерия признаков временных рядов (таких как наклон, интерцепт, дисперсия и т.д. с использованием библиотеки tsfresh для Python), за которой следует многослойный перцептрон.
2) Conv1D, за которой следуют LSTM и полносвязные слои (keras/Python), без какой-либо инженерии признаков.
Оба подхода дают очень похожие результаты (~40% точности, ~95% полноты).
Могу ли я сделать какой-либо вывод из схожести результатов двух разных архитектур?
Я считаю, что единственный способ сделать вывод, подкрепленный наукой, заключается в тонкой настройке обоих предложенных вами решений, чтобы убедиться, что оба работают на своем максимальном потенциале. Только тогда можно утверждать, что метод А лучше метода В, иначе это может быть просто вопрос неправильного выбора параметров, который приводит к таким результатам.
Однако, если оба метода по-прежнему дают похожие результаты после их тонкой настройки, тогда вы можете следовать бритве Оккама и выбрать самый простой как лучший. Под самым простым можно рассматривать тот, который имеет наименьшее количество параметров и требует наименьшее время для обучения/вывода.
Ответ или решение
Когда вы сталкиваетесь с двумя различными архитектурами глубоких нейронных сетей (DNN), которые обеспечивают аналогичную точность, несмотря на различия в их конструкциях, это позволяет сделать несколько важных выводов и провести детальный анализ. Ваша задача заключается в двуклассовой классификации многомерных временных рядов, и вы используете два подхода:
-
Подход, включающий ручное инженерное проектирование признаков временного ряда, таких как наклон, перехват, дисперсия и другие с использованием библиотеки tsfresh Python. Далее следует многослойный перцептрон.
-
Использование Conv1D, за которым следует LSTM, а затем полносвязные слои без какого-либо инженерного проектирования признаков.
Оба эти подхода обеспечивают весьма схожие результаты: около 40% точности (precision) и около 95% полноты (recall).
Теория
Сходство результатов двух архитектур может указывать на несколько вещей. Во-первых, возможно, задача классификации уже решена до определенной степени. То есть, выбранные вами архитектуры способны извлекать ключевые признаки из данных независимо от различных подходов к обработке. Это может говорить об отсутствии необходимости в сложных моделях, если простые модели дают схожие результаты.
Во-вторых, аналогичный уровень результатов может сигнализировать о наличии фундаментальных ограничений в данных или в способах их представления, которые не позволяют моделям улучшить результаты. Другими словами, данное ограничение может быть связано с неполнотой информации в наборах данных или с существующей шумовой компонентой.
Пример
Рассмотрим пример использования двух подходов для классификации изображений. Предположим, что использование глубоких сверточных нейронных сетей (CNN) и простых подходов с использованием дистанционного обучения с ограниченным числом признаков приводит к схожим результатам. Это может означать, что в данных изображен небольшое разнообразие объектов или что существующая модель CNN перегружена для простых задач, которые легко решаются простым анализом.
Применение
Итак, что можно извлечь из этого для вашего конкретного случая и как это применить на практике? Вот несколько шагов, которые можно предпринять:
-
Тонкая настройка моделей: Прежде всего, убедитесь, что обе модели были тщательно настроены с использованием гиперпараметрической оптимизации, чтобы исключить вероятность того, что выбранные параметры не позволяют модели полностью раскрыть свои возможности.
-
Анализ сложности: Внимательно проанализируйте сложность обеих моделей. Если обе дают одинаково хорошие результаты, выбирайте менее сложную в построении и использовании. Это повысит эффективность использования ресурсов и упрощение внедрения.
-
Повышение качества данных: Рассмотрите возможности улучшения или увеличения объема данных. Дополнительные признаки или ультракачественные метки могут помочь улучшить результаты за счет обучения более сложных взаимосвязей.
-
Проверка на переобучение: Независимо от выбранного подхода, проверьте модели на переобучение. Чем проще модель, тем меньше риск переобучения на обучающих данных.
-
Изучение альтернативных методов: Рассмотрите возможность использования других архитектур или подходов, таких как рекуррентные сети или трансформерные модели, если у вас есть основания полагать, что они могут быть полезными.
-
Окамова бритва: Принцип Окамовой бритвы гласит, что при прочих равных условиях наилучшей является самая простая гипотеза, поэтому предпочтение стоит отдать модели с меньшим количеством параметров и временем обучения, если качество предсказаний одинаково.
В конечном счете, цель должна заключаться в выборе наиболее экономически эффективной модели, которая обеспечивает наилучшую производительность при минимальной сложности. Это может включать в себя и улучшение показателей, и уменьшение вычислительной нагрузки, и повышение интерпретируемости модели для бизнес-применений.