hyperparameter-tuning
Data Science
Вопрос или проблема Вопрос Могу ли я применять различные гиперпараметры для разных наборов данных для обучения? Я вижу смысл в использовании общих параметров, но не вижу смысла в использовании общих гиперпараметров. Преимущество использования общих параметров
Data Science
Вопрос или проблема Я настраиваю гиперпараметры дерева решений для набора данных из 550 образцов. Так как я относительно новичок в настройке гиперпараметров (я учусь и реализую это), я запутался, какие значения установить для гиперпараметров, таких как
Data Science
Вопрос или проблема Я заметил в некоторых источниках, что автор сначала обучает модель (например, модель из scikit-learn) с параметрами по умолчанию, и модель естественным образом дает результат. Затем они пытаются оптимизировать гиперпараметры, даже
Data Science
Вопрос или проблема Я постоянно читаю, что свёрточные нейронные сети (CNN) работают лучше всего с огромным количеством данных (100 тысяч и более). Есть ли какие-либо эмпирические правила или нижний предел для объёма данных на этапе поиска по сетке?
Data Science
Вопрос или проблема Если кто-то может ответить на эти вопросы, это будет замечательно. Я нахожусь на этапе выполнения выпускного проекта по LSTM. В данный момент я застрял и запутался в кодах LSTM. Есть 4 гиперпараметра, с которыми я могу поэкспериментировать
Data Science
Вопрос или проблема У меня есть задача бинарной классификации с существенным дисбалансом классов (99% отрицательных – 1% положительных). Я хочу разработать модель случайного леса для предсказаний, и после установления базового уровня (с параметрами
Data Science
Вопрос или проблема Несмотря на то, что я использовал его несколько раз, я все еще немного запутан в использовании набора валидации для настройки гиперпараметров. Насколько я могу судить, я выбираю модель, обучаю ее на обучающих данных, оцениваю производительность
Data Science
Вопрос или проблема Обеспечение сбалансированных классов в пакетах во время обучения моделей keras возможно с использованием метода fit_generator. Я использовал imblearn.keras.BalancedBatchGenerator для этого, и это работает хорошо!
Data Science
Вопрос или проблема У меня есть набор данных, и я хотел бы обучить сверточные нейронные сети (CNN) на подмножествах разного размера этого набора данных. У меня уже есть CNN, который очень хорошо классифицирует, если я использую весь набор данных.
Data Science
Вопрос или проблема Я работал над своей тривиальной моделью LSTM на Keras, пытаясь реализовать Hyperas с помощью следующего кода, который вызывает ошибку, которую я не могу разрешить. Я просто экспериментировал с Hyperas, и было бы здорово заставить это работать.
Data Science
Вопрос или проблема Насколько я знаю, и поправьте меня, если я не прав, использование кросс-валидации для настройки гиперпараметров нецелесообразно, когда у меня есть огромный набор данных. В таком случае лучше разделить данные на обучающий, валидационный и тестовый наборы;
Data Science
Вопрос или проблема У меня примерно 30 переменных, и я пытаюсь создать модель случайного леса. Все переменные предполагаются предикторами исхода. Я хочу найти лучшую модель на основе C-статистики с любым количеством признаков.
Data Science
Вопрос или проблема Я пытаюсь реализовать dask. В данный момент я использую joblib, и он работает отлично, использует весь ЦП, что, на мой взгляд, идеально, но я хочу добавить больше ресурсов. Теперь, пытаясь реализовать dask, это идет гораздо медленнее
Data Science
Вопрос или проблема Я создаю класс, который следует следующему рабочему процессу: Выбор модели и подгонка Класс принимает список моделей и соответствующие им сетки гиперпараметров. Затем он выполняет стандартный процесс подгонки для каждой модели, используя
Data Science
Вопрос или проблема Я реализую модель дистилляции знаний. Однако баланс и соотношение между разными компонентами потерь сильно влияют на дистилляцию знаний. Есть ли какие-то хорошие практики для нахождения оптимальных весов потерь и существуют ли соответствующие
Data Science
Вопрос или проблема В настоящее время я пытаюсь построить модель с использованием CatBoost. Для настройки параметров я использую optuna и кросс-валидацию, а также подрезаю испытания, проверяя промежуточные оценки кросс-валидации.
Data Science
Вопрос или проблема Я хочу настроить параметры классификатора MLP из sklearn, но не знаю, какие из них настраивать и сколько вариантов предложить? Например, это скорость обучения. Должен ли я указать значения [.0001, .001, .01, .1, .2, .3]?
Data Science
Вопрос или проблема Я пробую пример, над которым я тренируюсь на огромном наборе данных в 5 миллионов (только 4 признака) строк с помощью Cudf и CUml, и я использую SGD логистическую регрессию, потому что я должен предсказать, болен ли пациент или нет.
Data Science
Вопрос или проблема Существует довольно много библиотек для оптимизации гиперпараметров, которые специфичны для Keras или других библиотек глубокого обучения, таких как Hyperas или Talos. Мой вопрос: в чем основное преимущество использования этих библиотек
Data Science
Вопрос или проблема Когда вы планируете обучать модель, имеет ли смысл разделение данных на 60-20-20 для обучения, валидации и тестирования, сначала настраивая гиперпараметры на обучающем наборе данных, используя валидационный набор, и выбирая лучшую модель.