Вопрос или проблема
Я построил модель LSMT для прогнозирования больных коров. У меня также есть факторы риска, такие как размер и высота коровы (статический фактор риска), которые я хочу включить в модель машинного обучения. Я обнаружил, что размер распределен геометрически. Мой вопрос: как я могу вставить это как признак в модель? Я знаю, что $P(x=K)= p*q^(k-1)$, но не знаю, как объединить это как признак.
Спасибо.
В общем подходе я бы сказал, что вам нужно создать новые признаки, которые используют ваше предыдущее знание. Например, если у вас есть известное распределение размеров, то для каждого конкретного размера вы можете рассчитать его вероятность и использовать ее как новый признак.
Как замечание на полях, геометрическое распределение размеров коров кажется мне очень удивительным, я ожидал бы увидеть какое-то гамма-распределение или просто нормальное (если размер измеряется в см/дюймах).
Использование вероятностного распределения в качестве признака невозможно в большинстве широко используемых фреймворков машинного обучения. Большинство широко используемых фреймворков машинного обучения принимают только скалярные значения в качестве входных данных. В случае высоты это было бы единичное числовое измерение.
Если вы готовы выйти за пределы установленных фреймворков, вы могли бы смоделировать проблему байесовским способом с использованием вероятностного программирования, где все величины являются распределениями.
Ответ или решение
Использование распределения вероятностей в качестве признака в модели машинного обучения: интеграция в LSTM для прогнозирования заболеваний у крупного рогатого скота
Для интеграции геометрически распределенного признака, такого как размер коровы, в модель LSTM, необходимо соблюдать определенные шаги, несмотря на ограниченность стандартных фреймворков машинного обучения, которые принимают скалярные значения как входные данные. Ваша суть вопроса заключается в том, как преобразовать знания о геометрическом распределении размера в полезный признак для модели.
шаги интеграции признака размерности
-
Расчет вероятности: Вы можете рассчитать вероятность для каждого размера коровы на основе геометрического распределения. Формула для вероятности: ( P(x = k) = p \cdot q^{k-1} ), где ( p ) и ( q ) – параметры распределения. Эта вероятность может использоваться как числовой признак.
-
Генерация нового признака: Используя рассчитанную вероятность, создайте новый числовой признак в вашем датасете. Этот признак будет представлять собой вероятность появления данного размера.
-
Преобразование и нормализация: Поскольку размер измеряется в конкретных единицах, может быть полезно нормализовать новый признак для улучшения обучения модели. Например, используйте мин-макс нормализацию или Z-преобразование.
-
Интеграция в модель LSTM: Объедините новые признаки с уже существующими статическими факторами, такими как рост и размеры. Удостоверьтесь, что структура входных данных соответствует ожиданиям вашей архитектуры LSTM.
альтернатива: Байесовский подход
Если вы готовы отклониться от стандартных методик машинного обучения, можно рассмотреть использование байесовских подходов и вероятностного программирования. Это дозволит вам моделировать все величины как распределения и более точно отражать неопределенности.
Заключение
Итак, использование вероятностного распределения как признака в модели требует преобразования. Посредством преобразования вероятности в скалярное значение вы сможете добавить его в модель LSTM, увеличивая тем самым ее прогностическую способность. Важно помнить о важности качественной предподготовки данных и тестирования новых признаков, чтобы они по-настоящему улучшали модель.
Буду рад предоставить дополнительную помощь или обсудить больше деталей вашего проекта.