Вопрос или проблема
Это может быть очень широкий и нишевый вопрос, но я в тупике. Чтобы ввести в курс дела, я очень начинающий специалист по работе с данными, у меня больше знаний в области программного обеспечения, чем в области обработки данных, поэтому извиняюсь за возможные недоразумения.
Я пытаюсь автоматизировать процесс, в котором нужно отметить, когда животное прыгает с одной платформы на другую. В настоящее время проводится ручной просмотр видео, чтобы отметить, на каком кадре животное начинает прыжок и на каком кадре оно заканчивает прыжок.
Изначально я использовал модель LSTM, где X-значениями были данные о положении ключевых точек каждой части животного в формате x-y координат, а y-значения указывали состояние кадра: 0 — нет состояния, 1 — начало прыжка, 2 — конец прыжка. Результат этой модели LSTM дал мне невероятно неточные предсказания и выдавал больше одной оценки начала и конца прыжка.
Затем я использовал PCA и кластеризацию K-Means и попытался использовать кластеризацию, чтобы определить состояние кадра. Это не сработало и также привело к нескольким предсказаниям начального/конечного кадра.
Я пробовал использовать новое программное обеспечение для оценки позы, но кажется, что то, которое у нас есть сейчас, работает нормально. Я не уверен, стоит ли ввести ViT и передать видео непосредственно в него, вместо данных ключевых точек x-y.
Любые советы или подсказки были бы великолепны, я также могу добавить данные или иллюстрации, если это поможет.
Ответ или решение
Теория
Для решения вашей задачи по отслеживанию, где в данных начинается и заканчивается определённое событие, вам необходимо найти метод, который сможет эффективно анализировать серии видеоданных для идентификации начала и конца прыжка животного. Существует несколько подходов, которые могут быть использованы для такой задачи:
-
Модели временной последовательности: LSTM (Long Short-Term Memory) вы уже использовали, но возможно вы столкнулись с проблемой неправильной разметки данных или недостаточной сложности модели.
-
Компьютерное зрение: Использование Vision Transformer (ViT) или его аналогов может оказаться эффективным решением. Эти модели хорошо работают с видео и изображениями, анализируя пространственно-временные паттерны.
-
Разметка данных: Очень важно иметь качественно размеченные данные. Использование алгоритмов, таких как HMM (Hidden Markov Models), комбинированных с глубоким обучением, может помочь в более точной идентификации событий.
Пример
Предположим, вы хотите улучшить вашу текущую модель. В качестве входных данных у вас есть видеопоследовательности с отслеживаемыми точками на теле животного. Эти точки уже представляют собой большое количество информации, которую можно использовать для построения пространственно-временного контекста.
Применение
Шаги для создания модели:
-
Подготовка и разметка данных: Убедитесь, что ваши данные соответствуют правильным меткам для каждой фазы прыжка. Чем больше данных у вас есть, тем лучше будет работать ваша модель.
-
Использование ViT или 3D CNN: Попробуйте использовать Vision Transformers или трехмерные свёрточные нейронные сети (3D CNN), которые могут захватывать временные изменения в видеопоследовательностях.
-
Предварительная обработка данных: Применяйте методики нормализации и аугментации данных для улучшения обучения вашей модели.
-
Тонкая настройка гиперпараметров: Потребуется тщательная настройка и тестирование различных архитектур моделей, чтобы найти оптимальную конфигурацию.
-
Оценка и улучшение модели: После реализации модели оцените её эффективность с использованием метрик, таких как precision и recall, и в случае необходимости, усовершенствуйте модель.
Заключение
Проблема, с которой вы сталкиваетесь, требует комплексного подхода к обработке и анализу видеоданных. Разработка модели для отслеживания начала и конца события должна сочетать передовые методы компьютерного зрения с правильной стратегией обработки и оценки данных. Следуя вышеуказанным рекомендациям, вы повысите шансы на корректное определение ключевых моментов события.