Плохая форма ввода — как интерпретировать и диагностировать; Также вопрос по машинному обучению.

Question 1

Извините, я новичок в машинном обучении, но я пытаюсь научиться. Я создаю классификатор на основе этого набора данных, чтобы предсказать психические расстройства на основе признаков. Я хотел запустить очень простую модель классификатора наивного Байеса, но постоянно получаю ошибку неправильной формы ввода (я хочу ввести такие признаки, как возраст, этничность и пол, чтобы получить потенциальные диагнозы). К сожалению, у меня возникают трудности с диагностикой источника моей ошибки и устранением неполадок. Есть какие-либо рекомендации? (игнорируйте многофункциональные данные вверху; я пробовал разные вещи, но предполагаю, что проблема в том, как я ввожу параметры данных)

А именно, для этих меток (диагнозов) я хочу получить вывод, который покажет наличие/отсутствие каждого [0 или 1] на основе признаков (которые являются числовыми)
Имена признаков
[‘YEAR’, ‘AGE’, ‘EDUC’, ‘ETHNIC’, ‘RACE’]
Значения
[ 9, -9, 4 , 2]

Метки:
[‘ADHDFLG’, ‘CONDUCTFLG’, ‘DELIRDEMFLG’, ‘BIPOLARFLG’, ‘DEPRESSFLG’, ‘ODDFLG’, ‘PDDFLG’, ‘PERSONFLG’, ‘SCHIZOFLG’, ‘ALCSUBFLG’]
Соответствующие значения меток
[0, 1, 0, 0, 0, 1, 0, 0, 0, 0]

Также, вопрос на стороне — есть ли у кого-нибудь рекомендации по другим задачам машинного обучения, которые я мог бы попробовать с этим? Я делаю это для класса и пытаюсь подтолкнуть себя к изучению новых тем. Спасибо заранее!

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
import random
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB

import scipy

from sklearn.model_selection import train_test_split


df = pd.read_csv("https://csprojectdatavisualizationsample50k.s3.us-east-2.amazonaws.com/sample_df.csv")
df_columns = df.columns
df_feature_names = (df_columns[1:6]).to_list()
df_features = df.iloc[:,2:6].values
df_label_names = (df_columns[26:36]).to_list()
df_labels = df.iloc[:, 26:36].values
#Ввод
print(df_label_names)

# Разделить наши данные
train, test, train_labels, test_labels = train_test_split(df_features,
                                                          df_labels,
                                                          test_size=0.50,
                                                          random_state=42)

print(train.shape)
print(test.shape)

# Инициализировать наш классификатор
gnb = GaussianNB()

# Обучить наш классификатор
model = gnb.fit(train, train_labels)

# Сделать прогнозы
preds = gnb.predict(test)
print(preds)

Question 2

Согласно документации, GaussianNB может обрабатывать несколько классов, но его функция fit все еще принимает одномерный массив. Этот массив может содержать несколько классов, например: [0, 1, 2, 3,…]

Когда я изменил ваши метки обучения, как указано ниже, функция fit сработала:

train_labels = np.random.randint(0, 9, 25000)

Таким образом, вы можете создать массив для меток. Если каждый образец принадлежит только одному классу, то вы можете пометить этот образец соответствующим классом, но если есть образцы, которые одновременно имеют несколько классов, то вам следует использовать один из них или создать группы, состоящие из этих классов, и пометить образец, если он принадлежит этой группе или нет.

Плохая форма ввода — как интерпретировать и диагностировать; Также вопрос по машинному обучению.

Вопрос или проблема

Ответ или решение

Интерпретация и диагностика ошибки "Bad Input Shape"

1. Понимание структуры данных

2. Как исправить поврежденную структуру входа

3. Дополнительные рекомендации по исследованию машинного обучения

Заключение