Как применить контролируемое машинное обучение, когда целевая переменная зависит от нескольких строк (с различным количеством строк)?

Question 1

Вот пример набора данных, который похож на тот, который я использую.

Назовем одну строку = один эксперимент.

Я пытаюсь предсказать Y на основе признаков X1 до X7

Проблема, с которой я сталкиваюсь, очень похожа на эту, в том смысле, что целевая переменная Y, которую нужно предсказать, зависит от нескольких входных строк (несколько экспериментов, проведенных в один день). Но что отличает мой случай, так это то, что количество экспериментов (то есть количество строк) варьируется от 1 до 9.

Используя метод, предложенный в самом популярном ответе (а именно, конкатенируя признаки за один и тот же день, чтобы у меня была одна строка на 1 день с 7*n_экспериментов признаками), я получаю большой датафрейм из более чем 100 колонок (в реальном наборе данных у меня больше 7 X признаков). Самое важное, что при использовании этого метода последние колонки (представляющие случаи дней с большим количеством экспериментов, таких как 6, 7, 8, 9 экспериментов в один день) содержат много пустых значений, потому что такие дни довольно редки (больше дней с 1-4 экспериментами, чем дней с 8-9 экспериментами, поэтому последние колонки почти никогда не заполняются значениями).

Таким образом, следуя методу конкатенации моих X признаков, чтобы получить 1 строку = 1 день, я в итоге получаю датафрейм, который для меня бесполезен для моей задачи предсказания.

Как бы вы подошли к этой проблеме?

Question 2

Вы можете собрать различные статистики для каждого признака (X1, X2, …, X7). Эти статистики могут быть средним, медианной, максимумом, стандартным отклонением, количеством пустых значений (если это имеет смысл для вашей задачи) и т.д. Допустим, вы учитываете только среднее, максимум и минимум. Тогда у вас будет 7*3=21 признаков.

Question 3

Метод, к которому я бы прибегнул, заключается в том, чтобы сделать шаг назад и спросить: “как связаны признаки и целевая переменная?” Это научная часть науки о данных; искать волшебный алгоритм, который ваши данные могут поглотить, не является наукой. Мы должны понять проблему.

Сначала несколько вопросов:

На каждый день есть только 1 целевая переменная. Это правильно? (Я предполагаю, что да)
Есть ли взаимосвязь между целевой переменной каждой даты? (Я предполагаю, что нет)
На каждую дату может приходиться несколько экспериментов. Влияет ли порядок, в котором эти эксперименты проводятся, на целевую переменную?
Есть ли какое-либо обоснование, почему проводится каждый эксперимент, например, «сначала мы тестируем с A, если результат X, тогда мы делаем B, иначе делаем C»? Или это совершенно случайно?
Как результаты экспериментов вносят вклад в целевую переменную вместе? Каждый эксперимент вносит свою часть или только выборка экспериментов в конечном итоге имеет значение?
Возможно ли, что некоторые эксперименты вообще не связаны с целевой переменной?

Эти вопросы являются началом для того, чтобы найти подходящий метод. И, как всегда, любые знания в предметной области полезны.

Как применить контролируемое машинное обучение, когда целевая переменная зависит от нескольких строк (с различным количеством строк)?

Вопрос или проблема

Ответ или решение

Применение контролируемого машинного обучения, когда целевая переменная зависит от нескольких строк

1. Понимание данных

2. Преобразование данных

3. Постановка модели

4. Выбор модели и обучение

5. Оценка и валидация

Заключение