Как подготовить данные для LSTM

Question 1

Мне сложно понять, как я могу подготовить свой набор данных для обучения LSTM.

Ниже приведен скриншот подмножества моего набора данных.

Существует несколько других признаков, не включенных в этот скриншот. Последний столбец – это inhospital_mortality, который имеет значение 0 или 1 для каждой строки.

Каждый признак был взят в определенный момент времени x. Признаки с такими же feature_1,2,3 были взяты в одно и то же время.

Моя идея состоит в том, что мне нужно разбить каждую строку (образец) на примере ниже: таким образом, каждая строка станет 6 новыми строками.

| tc_tb1 | spo2_tb1 | g1_tb1| inhospital_mortality (label 0 | 1) |
| tc_tb2 | spo2_tb2 | g1_tb2| inhospital_mortality (label 0 | 1) |
| tc_tb3 | spo2_tb3 | g1_tb3| inhospital_mortality (label 0 | 1) |
...
| tc_tb6 | spo2_tb6 | g1_tb6| inhospital_mortality (label 0 | 1) |

Я прав здесь? Если да, то как я мог бы выполнить это преобразование датафрейма более прямолинейным способом? Возможно, существует лучший способ преобразования этого набора данных в формат, который я хочу. У меня не получилось это сделать.

Спасибо.

Question 2

Добро пожаловать в сообщество.
Что касается вашей проблемы, вы говорите, что ваш последний столбец inhospital_mortality является бинарным, поэтому ваша цель – классифицировать, вероятно ли, что пациенты умрут в больнице в определенный момент времени, имея некоторую информацию о них, если я прав.

Предположим, это ваша цель, я думаю, что вы можете попробовать подход классификации без преобразования вашего набора данных во временной ряд, так как вы не заинтересованы в прогнозировании последовательности (или точки в этой последовательности), у вас есть независимые контейнеры x измерений на пациента, без временной связи в вашей учебной истории.
Вы можете использовать определенные значения задержки (те -1, 2, 3…, которые у вас уже есть) как информативные признаки и продолжить с бинарным классификатором. Другой вариант – с этим подходом и для каждого пациента рассчитать некоторые статистические значения, такие как минимум, максимум, среднее и т. д., для 8 измерений каждого типа показателя пациента, сохраняя то же количество строк, но объединяя атрибуты.

Конечно, вы также можете преобразовать его, используя уникальный индекс даты-времени с значением для каждого типа атрибута, как вы говорите, но вы получите меньше входных признаков на строку, чтобы предсказать ваше целевое значение inhospital_mortality.

Если вас интересует фактически прогнозирование и, возможно, использование LSTM, как вы предлагаете, вы можете ознакомиться с другими ответами по этой проблеме, например, этим

Как подготовить данные для LSTM

Вопрос или проблема

Ответ или решение