scikit-learn
Data Science
Вопрос или проблема Я пытаюсь получить сертификат Data Scientist Associate от DataCamp. У меня возникла проблема с пробным экзаменом, предоставленным для практики перед Практическим Экзаменом. Я предоставил детали ниже. Буду очень признателен за вашу помощь.
Data Science
Вопрос или проблема Я попытался создать класс Python, CustomStackingClassifier(), чтобы реализовать метод стекинга в ансамблевом машинном обучении. В этой реализации выход базовых классификаторов задается как прогнозируемые вероятности, а для обучения
Data Science
Вопрос или проблема Во-первых, пожалуйста, простите мое невежество; я новичок, но готов учиться дальше. Пример: Я использую классификатор случайного леса для прогнозирования бинарного исхода. Бинарный исход равен 1, если люди в наборе данных когда-либо
Data Science
Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?
Data Science
Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.
Data Science
Вопрос или проблема У меня есть 2 набора данных с по сути одинаковыми переменными, хотя один из них представляет данные за один год, а другой – за другой год. Я применил алгоритм KModes к обоим наборам данных и теперь имею некоторые кластеризации.
Data Science
Вопрос или проблема Я работаю над проектом мульти-классовой текстовой классификации. Моя цель проста: с учетом “баг”, я хочу предсказать, к какому конечному владельцу группы он будет отнесен. Мне удалось собрать ~15000 образцов багов с релевантным статусом (т.
Data Science
Вопрос или проблема Я хочу создать поиск по сетке, для которого мне нужен параметр scoring, на основе которого будет производиться поиск. Я определил следующую функцию, чтобы получить Root Mean Squared Logarithmic Error. Но я чувствую, что оценщик считает
Data Science
Вопрос или проблема Я преобразовал все числовые целевые переменные датасета MNIST в категориальные переменные. Таким образом, 0 стало ноль и так далее. Затем я попробовал следующую модель на этом наборе данных: from sklearn.linear_model import SGDClassifier from sklearn.
Data Science
Вопрос или проблема Я обычно стараюсь учитывать расходы в обучении. Настройка следующая: задача статистического обучения с обычными X и y, где y несбалансирован (примерно 1% единиц). Scikit learn обычно предлагает параметры весов, где вы можете установить
Data Science
Вопрос или проблема У меня есть несколько миллионов данных, и классификатор не может завершить шаг кросс-валидации. Текущий код: X_train, y_train, X_val, y_val, X_test, y_test = load_dataset() print('Сажаем деревья...') clf = RandomForestClassifier(n_estimators=50
Data Science
Вопрос или проблема Я масштабировал исходную матрицу A с помощью sklearn‘s StandardScaler, в результате чего получилась матрица S. Затем я разделил результат на важную и неважную часть B и C таким образом, что B + C = S Теперь я хочу обратным образом
Data Science
Вопрос или проблема Я читаю книгу Практическое машинное обучение с использованием Scikit-learn и TensorFlow автора Джерона. Я создаю простую полиномиальную регрессию, используя PolynomialFeatures из sklearn. Сначала я создаю наборы X и y, используя случайные
Data Science
Вопрос или проблема В модели классификатора мы можем предсказать исходный класс, но здесь мне нужно выяснить, какие признаки способствуют определенному результату в задаче классификации, которые являются сильным индикатором конкретного результата, например
Data Science
Вопрос или проблема У меня есть большой набор данных с переменной y, которая отчасти зависит от переменных x1 и x2. Все переменные шумные, и y также зависит от других параметров, не зафиксированных в наборе данных. Я хотел бы обнаружить, когда y принимает
Data Science
Вопрос или проблема Я работаю над задачей предсказания дохода, который может сгенерировать фильм. Некоторые из доступных характеристик в наборе данных – это json-коллекция для команды, актеров, которые работали над фильмом.
Data Science
Вопрос или проблема Я провожу эксперименты с использованием контрольных наборов данных и auto-sklearn, чтобы увидеть, как его производительность отличается от стандартной библиотеки sklearn, поскольку automl выполняет исчерпывающий поиск по параметрам
Data Science
Вопрос или проблема Я сейчас работаю с линейной регрессией для задачи регрессии временных рядов (извините, но я не могу рассказать слишком много о проблеме и векторе признаков из-за соглашения о неразглашении). Я масштабировал как входные значения, так
Data Science
Вопрос или проблема Краткое введение: У меня есть отчет/абзац, в котором есть предложения, ссылающиеся на будущие планы/перспективы/ожидания для конкретного субъекта. Я хочу извлечь все такие предложения на данный момент. Проблема: Как идентифицировать
Data Science
Вопрос или проблема Я пытаюсь определить конформные предсказания для моей модели с использованием моих данных. Но появляется следующая ошибка, которая возникает при вызове icp.calibrate(X_cal, y_cal): Исключение: Данные должны быть одномерными Ниже вы