Как объединить NLP и числовые данные для задачи линейной регрессии

Question 1

Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов, которая является числом с плавающей точкой (среднее значение всех отзывов пользователей для этого ресторана). Так что строка данных может выглядеть так:

{ 
    rating: 3.765, 
    review: `Еда была отличной, персонал был дружелюбным`, 
    tables: 30, 
    staff: 15, 
    parking: 20
    ... 
}

Следуя учебникам, я смог сделать следующее:

Создал модель линейной регрессии для прогнозирования рейтинга с использованием всех числовых данных в качестве входных данных.
Создал регрессионную модель для прогнозирования рейтинга на основе текста отзыва с использованием sklearn.TfidfVectorizer.

Но теперь я хотел бы объединить модели или объединить данные из обеих в одну, чтобы создать модель линейной регрессии. Как я могу использовать векторизованные текстовые данные в своей модели линейной регрессии?

Question 2

Похоже, что вы можете использовать FeatureUnion для этого. Вот пример:

from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

iris = load_iris()

X, y = iris.data, iris.target

# Этот набор данных слишком высокоразмерный. Лучше сделать PCA:
pca = PCA(n_components=2)

# Может быть, некоторые оригинальные функции тоже хороши?
selection = SelectKBest(k=1)

# Построить оценщик из PCA и одновариантного выбора:

combined_features = FeatureUnion([("pca", pca), ("univ_select", selection)])

# Используйте объединенные функции для преобразования набора данных:
X_features = combined_features.fit(X, y).transform(X)
print("Объединенное пространство имеет", X_features.shape[1], "функций")

svm = SVC(kernel="linear")

# Проведите поиск по сетке по k, n_components и C:

pipeline = Pipeline([("features", combined_features), ("svm", svm)])

param_grid = dict(features__pca__n_components=[1, 2, 3],
                  features__univ_select__k=[1, 2],
                  svm__C=[0.1, 1, 10])

grid_search = GridSearchCV(pipeline, param_grid=param_grid, cv=5, verbose=10)
grid_search.fit(X, y)
print(grid_search.best_estimator_)

Надеюсь, из этого примера ясно, как вы можете использовать это для объединения ваших результатов TfidfVectorizer с вашими оригинальными функциями.

Question 3

Две основные идеи для использования текстовых данных в системе рекомендаций заключаются в выборе правильного встраивания и объединении встраиваний текста с числовыми данными. Один из способов — объединить числовые и встраиваемые текстовые признаки с помощью техник на основе MMDF, что приведет к многомодальной модели. Вы также можете дополнительно объединить изображения и аудио в качестве дополнительных модальностей. Другой способ — обучить независимые модели на встраиваемых текстовых признаках и числовых (и категориальных) признаках, чтобы в конечном итоге объединить два прогноза через стеккинг по сравнению с рейтингами. Сначала я бы проверил, коррелируют ли оценки двух моделей, обученных как указано? Предполагая, что это низкое значение, примените стеккинг, но если это высокое, модель текста может быть вовсе не нужна.

Выбор встраивания векторных признаков зависит от контекста. Tf-idf (или cbow, skip-gram) хороши для начала, но не предоставляют семантической информации, предварительно обученные встраивания word2vec будут лучшим выбором. Также можно дообучить предварительно обученные встраивания для вашего корпуса, чтобы добавить лучший контекст к встраиваниям. Наконец, модель тематического моделирования может быть использована для извлечения только релевантной информации из отзывов. Она действует как техника уменьшения размерности для отзывов и извлекает общие темы, обсуждаемые в отзывах. Эти темы с низкой размерностью можно использовать для замены текстовых встраиваний как в многомодальной, так и в стекированной модели для повышения эффективности.

Как объединить NLP и числовые данные для задачи линейной регрессии

Вопрос или проблема

Ответ или решение

Объединение NLP и числовых данных для линейной регрессии: Полный гид

Шаг 1: Векторизация текстовых данных

Шаг 2: Подготовка числовых данных

Шаг 3: Объединение текстовых и числовых признаков

Шаг 4: Проверка результатов

Дополнительные советы

Заключение