Мульти-меточная классификация с вложенными признаками

Question 1

Мне нужно выполнить многометочный классификацию. У меня есть три признака, и они вложены. Я не уверен, как это объединить или какой классификационный алгоритм будет лучше всего. Некоторая многоуровневая нейронная сеть, как показано здесь, кажется хорошей, но вложенные признаки, похоже, там не учитываются.

Я представляю вложенные признаки (X) и метки (Y) в двух наборах данных ниже: один идентификатор субъекта может иметь один или несколько признаков и один или несколько классов. Признаки и классы могут быть ‘заняты’ одним или несколькими субъектами.

Примечание: У меня около 100 тысяч субъектов, 1 тысяча признаков (на третьем уровне) и 200 классов.

data_features
       subject_id   feature1   feature2   feature3
               1          a         aa          aaa
               2          a         aa          aab
               3          a         ab          aba
               1          a         ab          abb
               2          b         ba          baa
               3          b         ba          bac
               1          b         ba          bad
               2          b         ba          bad
               3          c         ca          caa
               4          c         ca          caa
               5          c         cb          cba
               6          c         cb          cbb
  


data_labels
       subject_id   label1   label2   label3   label4
               1        0        1        0        0
               2        0        1        1        1
               3        0        1        1        0
               4        1        1        0        1
               5        1        0        0        0
               6        0        1        1        1
               7        0        0        0        1
               8        1        1        1        1
               9        0        0        1        1
              10        1        0        1        0
              11        0        1        0        1
              12        1        0        0        1

Я совершенно не уверен, какой алгоритм лучше всего объединит это? (Я умею работать с R и SAS и неплохо с Python, но выучу любой другой язык, если это будет необходимо)

Question 2

Я думаю, что всегда хорошая идея начинать с простого, поэтому я бы просто предложил попробовать со всеми признаками, включая разные уровни “вложенности”, всего около 2 тысяч, по всей видимости. Учитывая, что набор данных большой, я не вижу препятствий, чтобы попробовать таким образом. По той же причине я бы начал с очень простой модели, такой как деревья решений или SVM, которые имеют дополнительное преимущество, что их быстро обучать. Это могло бы быть первым шагом, который предоставит вам приличную базовую линию, по крайней мере.

Если количество признаков становится проблемой для более продвинутого варианта, я думаю, что это хороший случай для использования извлечения признаков (например, PCA): это позволит уменьшить количество признаков и также объединить признаки, представляющие одну и ту же информацию.

Question 3

Судя по комментариям, похоже, что вложенные признаки не обязательно должны быть вложенными и могут быть разделены на отдельные признаки.

Например, если:

feature1 = марка
feature2 = марка + модель
feature3 = марка + модель + версия

То мы должны использовать стандартный подход ML с признаками, как:

feature1 = марка
feature2 = модель
feature3 = версия

Взаимодействие между признаками все равно будет захвачено моделью ML.

Мульти-меточная классификация с вложенными признаками

Вопрос или проблема

Ответ или решение

Многоуровневая классификация с вложенными признаками

1. Подготовка данных

2. Выбор алгоритма классификации

3. Многоуровневая нейронная сеть

4. Оценка модели и оптимизация

5. Выводы и дальнейшие шаги