Data Science
Почему модель для набора данных может давать разные результаты среднеквадратичной ошибки?
00
Вопрос или проблема Я пытаюсь получить сертификат Data Scientist Associate от DataCamp. У меня возникла проблема с пробным экзаменом, предоставленным для практики перед Практическим Экзаменом. Я предоставил детали ниже. Буду очень признателен за вашу помощь.
Data Science
Ручная реализация стекинг-модели на Python
00
Вопрос или проблема Я попытался создать класс Python, CustomStackingClassifier(), чтобы реализовать метод стекинга в ансамблевом машинном обучении. В этой реализации выход базовых классификаторов задается как прогнозируемые вероятности, а для обучения
Data Science
Какие метрики classification_report лучше всего сообщать/интерпретировать для бинарной метки? Индивидуальные или макро средние для обоих классов? scikit-learn
00
Вопрос или проблема Во-первых, пожалуйста, простите мое невежество; я новичок, но готов учиться дальше. Пример: Я использую классификатор случайного леса для прогнозирования бинарного исхода. Бинарный исход равен 1, если люди в наборе данных когда-либо
Data Science
Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?
00
Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?
Data Science
Как выполнять отбор признаков на разреженной матрице?
00
Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.
Data Science
Сравнение кластеризаций из разных наборов данных
00
Вопрос или проблема У меня есть 2 набора данных с по сути одинаковыми переменными, хотя один из них представляет данные за один год, а другой – за другой год. Я применил алгоритм KModes к обоим наборам данных и теперь имею некоторые кластеризации.
Data Science
sklearn текстовый анализ – обработка пропущенных значений
00
Вопрос или проблема Я работаю над проектом мульти-классовой текстовой классификации. Моя цель проста: с учетом “баг”, я хочу предсказать, к какому конечному владельцу группы он будет отнесен. Мне удалось собрать ~15000 образцов багов с релевантным статусом (т.
Data Science
Python make_scorer дает неправильные результаты для ошибки среднеквадратичного логарифмического значения.
00
Вопрос или проблема Я хочу создать поиск по сетке, для которого мне нужен параметр scoring, на основе которого будет производиться поиск. Я определил следующую функцию, чтобы получить Root Mean Squared Logarithmic Error. Но я чувствую, что оценщик считает
Data Science
Оценка модели с категориальными целевыми переменными
00
Вопрос или проблема Я преобразовал все числовые целевые переменные датасета MNIST в категориальные переменные. Таким образом, 0 стало ноль и так далее. Затем я попробовал следующую модель на этом наборе данных: from sklearn.linear_model import SGDClassifier from sklearn.
Data Science
Учитывая стоимость экземпляра в обучении?
00
Вопрос или проблема Я обычно стараюсь учитывать расходы в обучении. Настройка следующая: задача статистического обучения с обычными X и y, где y несбалансирован (примерно 1% единиц). Scikit learn обычно предлагает параметры весов, где вы можете установить
Data Science
Случайный лес Sklearn онлайн-обучение
00
Вопрос или проблема У меня есть несколько миллионов данных, и классификатор не может завершить шаг кросс-валидации. Текущий код: X_train, y_train, X_val, y_val, X_test, y_test = load_dataset() print('Сажаем деревья...') clf = RandomForestClassifier(n_estimators=50
Data Science
Обратное масштабирование разделённых данных
00
Вопрос или проблема Я масштабировал исходную матрицу A с помощью sklearn‘s StandardScaler, в результате чего получилась матрица S. Затем я разделил результат на важную и неважную часть B и C таким образом, что B + C = S Теперь я хочу обратным образом
Data Science
Построение полиномиальной регрессии?
00
Вопрос или проблема Я читаю книгу Практическое машинное обучение с использованием Scikit-learn и TensorFlow автора Джерона. Я создаю простую полиномиальную регрессию, используя PolynomialFeatures из sklearn. Сначала я создаю наборы X и y, используя случайные
Data Science
Как найти особенности драйвера для достижения конкретного результата в задачах классификации
00
Вопрос или проблема В модели классификатора мы можем предсказать исходный класс, но здесь мне нужно выяснить, какие признаки способствуют определенному результату в задаче классификации, которые являются сильным индикатором конкретного результата, например
Data Science
обнаружение аномалии в конкретной характеристике относительно других (без обучения?)
00
Вопрос или проблема У меня есть большой набор данных с переменной y, которая отчасти зависит от переменных x1 и x2. Все переменные шумные, и y также зависит от других параметров, не зафиксированных в наборе данных. Я хотел бы обнаружить, когда y принимает
Data Science
Ошибка низкой памяти при выполнении регрессии полинома второй степени на массиве размером (3000*1835)
00
Вопрос или проблема Я работаю над задачей предсказания дохода, который может сгенерировать фильм. Некоторые из доступных характеристик в наборе данных – это json-коллекция для команды, актеров, которые работали над фильмом.
Data Science
Каковы будут основные и ключевые критерии для оценки библиотеки auto-sklearn?
00
Вопрос или проблема Я провожу эксперименты с использованием контрольных наборов данных и auto-sklearn, чтобы увидеть, как его производительность отличается от стандартной библиотеки sklearn, поскольку automl выполняет исчерпывающий поиск по параметрам
Data Science
Является ли хорошей практикой оценивать эффективность модели, сравнивая метрики пересчитанных (обратным образом преобразованных) предсказаний и истинных целевых значений?
00
Вопрос или проблема Я сейчас работаю с линейной регрессией для задачи регрессии временных рядов (извините, но я не могу рассказать слишком много о проблеме и векторе признаков из-за соглашения о неразглашении). Я масштабировал как входные значения, так
Data Science
Как определить/узнать, что предложение касается будущего?
00
Вопрос или проблема Краткое введение: У меня есть отчет/абзац, в котором есть предложения, ссылающиеся на будущие планы/перспективы/ожидания для конкретного субъекта. Я хочу извлечь все такие предложения на данный момент. Проблема: Как идентифицировать
Data Science
Ошибка с dataframe pandas (должен быть одномерным)
00
Вопрос или проблема Я пытаюсь определить конформные предсказания для моей модели с использованием моих данных. Но появляется следующая ошибка, которая возникает при вызове icp.calibrate(X_cal, y_cal): Исключение: Данные должны быть одномерными Ниже вы