вопрос о разделении набора данных по атрибутам и меткам

Вопрос или проблема

Почему набор данных должен использовать X как атрибуты и y как метку?
Почему не использовать один X для всего?

Fruit dataset

Вы действительно могли бы использовать один X для всего. Однако ваши модели на следующем этапе ожидают, что признаки и метки (то есть X и y) будут ссылаться через разные указатели объектов, чтобы обучить и оценить модель.

Например,

model.fit(X,y)

X — это то, что ваша модель использует для прогноза, y — это правильный ответ, который вы хотите получить. Если вы включите y в X, то вы даете модели правильный ответ как входные данные. Делать прогноз таким образом действительно легко, потому что модель просто передаст y из входных данных в выходные. Если бы вы сделали это и посмотрели на важность признаков, вы бы увидели, что единственный “признак”, который имеет значение, — это тот, который непосредственно содержит ответ.

Ответ или решение

Теория (Theory):
При работе с набором данных в машинном обучении принято разделять его на входные признаки (или атрибуты) и метки (или целевые переменные). Это разделение позволяет более эффективно обучать модели, поскольку модель должна научиться предсказывать метки на основе входных данных. Такого рода разделение также позволяет лучше контролировать процесс обучения и более точно настраивать алгоритмы.

Пример (Example):
Рассмотрим популярный пример – набор данных о фруктах, где каждый фрукт описывается различными характеристиками, такими как цвет, размер и вес. Эти характеристики будут входными признаками (X), которые модель использует для прогнозирования. Метка (y) в данном контексте может быть классом фрукта, например, яблоко или банан.

Применение (Application):
Когда вы обучаете модель, она получает X в качестве входных данных и пытается выйти на целевую метку y, опираясь на выявление паттернов в данных. Если бы мы включили y в X, модель могла бы просто "подсмотреть" правильные ответы, что приводит к крайне упрощённым выводам и нарушает основную задачу обучения – выявление зависимости между признаками и метками.

Разделение признаков и меток является более корректным способом подготовки данных, что снижает вероятность появления зависимости между обучающей и тестовой выборками и позволяет избежать переобучения. Основные алгоритмы машинного обучения, такие как линейная регрессия или решающие деревья, автоматически рассматривают только признаки для обучения, ожидая метки отдельно, как, например, в вызове model.fit(X, y). Именно такая структура входных данных позволяет моделям эффективно обучаться и справедливо оцениваться на тестовых наборах.

Оцените материал
Добавить комментарий

Капча загружается...