Вопрос или проблема
Я создал модель, но понял, что неправильно разделил данные между обучающим и тестовым наборами, поэтому точность предсказания низкая. Неэтично ли начать моделирование заново и изменить разделение данных?
Сначала вы правильно рандомизировали свой набор данных?
Если вы применяете надежную случайную функцию (например, из sklearn), вам не следует беспокоиться о том, связано ли это с неправильным разделением или нет.
В случае сомнений вы можете изменить random_state или seed, чтобы получить другое случайное распределение.
В общем, ваша фаза обучения модели не должна ‘видеть’ данные для разработки/тестирования. Это означает, что каждый тест, который вы проводите, должен основываться на данных, ‘невидимых’ вашей модели.
Модели работают с данными, поэтому если ваши данные были скомпрометированы с самого начала, ваши предсказания, безусловно, пострадают.
Ответ или решение
Можно ли изменить разбиение данных после создания модели?
Вопрос об изменении разбиения данных после завершения создания модели является важным аспектом машинного обучения и предсказывает как объективность, так и надежность ваших результатов. В данном ответе мы рассмотрим, является ли этичным повторное разбиение данных, а также обсудим принципы, связанные с этим процессом.
1. Осознание важности разбиения данных
Начнем с того, что разбиение данных на обучающую и тестовую выборки критически важно для процесса моделирования. Корректное распределение данных позволяет избежать переобучения и дает возможность оценить действенность модели на "невидимых" данных, что в свою очередь укрепляет доверие к результатам.
2. Проведение правильного разбиения
Если вы обнаружили, что ваше первоначальное разбиение данных было выполнено некорректно, это может привести к завышенным или заниженным показателям точности. Важно удостовериться, что использование случайной функции разбиения, такой как train_test_split
из библиотеки Scikit-learn, проведено правильно. Убедитесь, что данные были случайно перемешаны и не содержат предвзятости.
3. Этика и корректность
С точки зрения этики, повторное разбиение данных не только приемлемо, но и в большинстве случаев является необходимым шагом. Ваши выводы и модели должны основываться на качественных данных и корректно выполненных процедурах, что делает ваше исследование более надежным. Однако вы должны помнить, что изменение разбиения после того, как вы уже получили результаты модели, может привести к недопониманию, если это не будет задокументировано и объяснено в вашей работе.
4. Рекомендации по повторному разбиению
Если у вас есть основания полагать, что ваше разбиение могло быть неудачным, рекомендуется:
- Случайно перемешивайте данные: Для достижения надежного результата важно использовать случайный генератор. Это поможет уменьшить вероятность наличия предвзятости в ваших данных.
- Используйте параметр
random_state
: Это позволит вам контролировать случайность при разбиении, гарантируя, что вы можете воспроизвести свои результаты в будущем.
5. Заключение
Повторное разбиение данных после создания модели — это не только этично, но и необходимо для формирования истинной картины ваших статистических выводов. Поскольку модели работают с данными, и их точность зависит от того, насколько корректно были распределены данные, стоит серьезно отнестись к этому процессу. Профессионализм в создании модели требует не только знания теории, но и практического применения правильных методов, что и делает работу IT-экспертами успешной.
В заключение, не стесняйтесь пересмотреть и откорректировать свои данные на начальных этапах, поскольку это непосредственно повлияет на качество вашей модели и точность предсказаний.