Вопрос или проблема
Я сейчас делаю анализ некоторых данных, связанных с НБА, и я близок к завершению проекта, но мне нужно решить, хочу ли я включить официальное предсказание для будущих данных или нет.
Судя по тому, что я видел в интернете, шаги в проекте по машинному обучению включают сбор данных, подготовку данных, наблюдение за данными, обучение модели, оценку модели и затем предсказание (на неизвестных данных).
Первые 5 шагов кажутся такими же, как в анализе данных, но “проект анализа данных” будет намного больше сосредоточен на части наблюдения данных и выводах из этого. Я следовал всем шагам, выводил заключения на основе данных и графиков, которые я наблюдал, также я запускал некоторые модели на данных, чтобы доказать некоторые корреляции между данными и показать, что обученная модель может предсказывать данные.
Однако в конце я не считаю, что предсказание будущего необходимо для моего проекта. Если я не включу эту “предсказательную” часть своего анализа, не могу ли я технически назвать это “проектом машинного обучения”? Потому что все, что я сделал, это посмотреть и проанализировать данные и графики и вывести заключение из этого, а не завершить с “наша обученная модель может предсказать эти тенденции”?
Это довольно неопределенно, так что дайте знать, если я могу что-то прояснить, спасибо!
Не могли бы вы рассказать немного больше о вашем обучении и оценке модели?
Если вы рассматриваете корреляции, это кажется мне исследовательским анализом данных.
Как правило, я полагаю, что модель машинного обучения будет пытаться предсказать какую-то точку/переменную данных. Это может быть в форме классификации или регрессии (т.е. вы делали что-то из этого?)
Просто интересно, почему важно обозначать это как проект машинного обучения? Если это классный проект, возможно, вам будет интересно, чтобы ваша модель предсказывала очки, очки за игру или соотношение побед и поражений. Или, возможно, в зависимости от вашей модели, вы захотите кластеризовать игроков на разные сегменты.
Удачи!
Ответ или решение
С удовольствием помогу вам разобраться с вашим вопросом о классификации вашего проекта.
Определение проекта машинного обучения
В целом, проект по машинному обучению можно охарактеризовать как совокупность методов и инструментов, предназначенных для разработки моделей, основанных на данных. Однако ключевым элементом такого проекта всегда является предсказание — способность модели делать выводы на основе ранее неизвестных данных.
Шаги проекта и их значение
Как вы правильно отметили, большинство проектов по машинному обучению включает следующие этапы:
- Сбор данных
- Подготовка данных
- Анализ данных
- Обучение модели
- Оценка модели
- Предсказание
Первоначальные шаги действительно аналогичны этапам анализа данных. Это может вызвать замешательство, так как и в машинном обучении, и в анализе данных акцент делается на выявлении зависимостей и закономерностей. Однако основное отличие заключается именно в конечной цели — предсказании.
Модель и её обучение
Вы упомянули, что провели обучение моделей и продемонстрировали наличие корреляции между данными. Это может указывать на использование методов машинного обучения, как, например, классификация или регрессия. Однако отсутствие шага с предсказанием ставит под сомнение классификацию вашего проекта как проекта по машинному обучению.
Смысл классификации проекта
Теперь давайте поговорим о том, почему вам важно определить свой проект как проект по машинному обучению. Если это ваш учебный проект, то включение предсказательной модели может повысить его значимость и продемонстрировать ваше понимание ключевых элементов машинного обучения.
Если вы не планируете делать предсказания, ваш проект, вероятно, более близок к экспоративному анализу данных (EDA). В этом случае вы можете акцентировать внимание на выявлении и представлении зависимостей, без необходимости предсказаний, что вполне обоснованно.
Заключение
Таким образом, можно сделать вывод, что если ваш проект не включает в себя предсказания, его не следует называть проектом машинного обучения. Это не умаляет его значимости; исследование и анализ данных — это важные аспекты в области аналитики. Но если цель вашего проекта состоит в том, чтобы продемонстрировать применение методов машинного обучения, добавление элемента предсказания было бы целесообразным.
Если у вас остались вопросы или вам нужна дополнительная помощь в определении вашего проекта, пожалуйста, дайте знать. Удачи с вашим анализом данных в НБА!