Обучение модели с рядом текстовых ответов в качестве входных данных.

Question 1

Я хочу обучить бинарный классификатор на текстах — что-то вроде анализа настроений, но мои входные векторы будут представлять собой серию ответов от пользователя, разделенных некоторым разделяющим символом. Я не хочу разделять ответы по вектору — каждый вектор должен соответствовать ответам одного пользователя. Например, входной вектор может выглядеть следующим образом:

['Привет | я завтракаю, а ты? | ладно, поговорим позже']

Однако я никогда не сталкивался с входными данными такого рода при обучении модели. Был ли когда-либо решен такой тип задачи? Как это можно сделать?

Question 2

Все зависит от модели/библиотеки, которую вы хотите использовать. Я приведу вам два примера.

sklearn

В sklearn вы можете обучить вашу модель, применяя преобразование, конвертирующее текстовые данные в числовые (например, tfidf), а затем используя классификатор (например, случайный лес).

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.ensemble import RandomForestClassifier

# Обратите внимание, данные — это список строк
data = ["Привет", "я завтракаю, а ты?", "ладно, поговорим позже"]
labels = [1, 0, 1]

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', RandomForestClassifier()),
])

# обучение классификатора
pipeline.fit(data, labels)

# оценка всех шагов на новых данных
predicted = pipeline.predict('Привет, предскажи это')

tensorflow

Аналогично и в tf, у вас есть множество возможностей (можно даже напрямую передавать строки в модель и затем использовать слой преобразования).
Я настоятельно рекомендую ознакомиться с документацией или доступными уроками.

Здесь я покажу вам один пример использования классификатора на основе нейронной сети LSTM.

import tensorflow as tf

max_len = 6 # все предложения должны иметь одинаковую длину
data = np.array(["Привет", "я завтракаю, а ты?", "ладно, поговорим позже"])
labels = np.array([1, 0, 1])

tokeniser = tf.keras.preprocessing.text.Tokenizer()
tokeniser.fit_on_texts(data)

tokenised_text = tokeniser.texts_to_sequences(data)
tokenised_text = tf.keras.preprocessing.sequence.pad_sequences(tokenised_text, maxlen=max_len)
vocab_size = len(tokeniser.word_index) + 1

# Это модель, которую я изобретаю прямо сейчас, ее необходимо изменить в соответствии с вашей задачей
def build_model(emb_dim, dropout_rate, n_units, n_labels = len(labels)):
    inputs = tf.keras.Input(shape = (max_len,))
    x = tf.keras.layers.Embedding(vocab_size, output_dim = emb_dim)(inputs)
    x = tf.keras.layers.LSTM(n_units)(x)
    x = tf.keras.layers.Dense(n_labels, activation='softmax')(x)
    
    model = tf.keras.Model(inputs = inputs, outputs = x)
    model.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=['accuracy'])
    return model

затем, вы можете обучить вашу модель на токенизированных последовательностях

model = build_model(emb_dim, dropout_rate, n_units)
model.fit(tokenised_text, labels, epochs = 10)

В tf вы действительно можете использовать различные виды входных данных, но вам необходимо сконфигурировать вашу модель соответствующим образом.

Обучение модели с рядом текстовых ответов в качестве входных данных.

Вопрос или проблема

sklearn

tensorflow

Ответ или решение

Использование Scikit-learn

Использование TensorFlow

Заключение