Data Science
Как использовать SMOTENC внутри конвейера?
00
Вопрос или проблема Я был бы очень признателен, если бы вы могли сообщить мне, как использовать SMOTENC. Я написал: num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values) cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].
Data Science
Разделитель в деревьях решений в реализации sklearn
00
Вопрос или проблема Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают.
Data Science
Проблемы с самостоятельно реализованной логистической регрессией
00
Вопрос или проблема Я пытаюсь самостоятельно реализовать алгоритм логистической регрессии для самообучения, но у меня возникают некоторые проблемы с достижением аналогичной точности, как у логистической регрессии из sklearn. Вот код, который я использую
Data Science
Параметры для настройки MLP классификатора с помощью Gridsearch CV?
00
Вопрос или проблема Я хочу настроить параметры классификатора MLP из sklearn, но не знаю, какие из них настраивать и сколько вариантов предложить? Например, это скорость обучения. Должен ли я указать значения [.0001, .001, .01, .1, .2, .3]?
Data Science
У меня 100% точность на тестовом наборе, неужели что-то не так?
00
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Почему моя модель SVM работает долго и какие изменения мне внести в код?
00
Вопрос или проблема from sklearn.svm import SVR from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.
Data Science
Могу ли я использовать Tensorboard для управления задачами и визуализации обучения на алгоритмах, не связанных с Tensorflow? (например, Scikit?)
00
Вопрос или проблема Я все еще ищу отличный инструмент для управления задачами и визуализации обучения на моих моделях. TensorBoard очевидно является одним из вариантов, учитывая его огромную поддержку. Но возможно ли организовать задачи и визуализировать
Data Science
Модель коллаборативной фильтрации на основе классификации
00
Вопрос или проблема Я изучал алгоритмы для предсказания на основе коллаборативной фильтрации. В большинстве источников я читал о использовании матричной факторизации, основанной на оценках схожести пользователя. Но в моем случае мне нужно делать предсказания
Вопросы и ответы
Что означает ys_fit для sklearn.ensemble.RandomForestClassifier()?
00
Вопрос или проблема Случайный лес — это модель ИИ. В этом коде я пытаюсь использовать его для классификации химических веществ. Однако при настройке случайного леса я заметил странную переменную ys_fit. Я пытался поискать в интернете, но не нашел результатов.
Data Science
scikit-learn OMP ошибка памяти
00
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.
Data Science
не удается импортировать имя ‘LSHForest’ из ‘sklearn.neighbors’
00
Вопрос или проблема from sklearn.neighbors import NearestNeighbors, LSHForest ImportError: невозможно импортировать имя 'LSHForest' из 'sklearn.neighbors' Я узнал, что LSHForest устарел. Как я могу его использовать? Есть ли у нас другие альтернативы.
Data Science
Как использовать scikit-learn для извлечения признаков из текста, если у меня есть только положительные и неразмеченные данные?
00
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
Критерии, используемые для создания и выбора листовых узлов в sklearn
00
Вопрос или проблема Я просто хочу узнать детали того, какие (и как) критерии используются в sklearn.tree.DecisionTreeClassifier для создания листовых узлов. Я знаю, что параметры criterion{“gini”, “entropy”}, по умолчанию=”gini” и splitter{“best”, “random”}
Data Science
Как Naive Bayes делает предсказания на основе scikit-learn?
00
Вопрос или проблема Мне нужно понять, как алгоритм многомерного наивного байеса может делать предсказания на основе реализации в scikit-learn. Я увидел исходный код, но хочу понять математику, стоящую за этим. Не могли бы вы объяснить математику этого предсказания?
Data Science
Нестированная кросс-валидация: ошибка обобщения для нескольких моделей
00
Вопрос или проблема Я имею в виду этот вопрос: Вложенная кросс-валидация и выбор лучшей модели регрессии – является ли это правильным процессом SKLearn? В ответах говорится, что вложенная кросс-валидация может оценивать ошибку обобщения оптимизации
Data Science
Среднее значение метрик с использованием 10-кратной проверки
00
Вопрос или проблема Я работаю с 10-кратной кросс-валидацией и хочу усреднить метрики, но не могу это сделать с помощью sklearn. Вот как я это делаю, и метрики выводятся по каждому разделению. from sklearn.model_selection import KFold from sklearn.
Вопросы и ответы
Как импортировать файл mnist и все связанные с ним изображения.
00
Вопрос или проблема train = pd.read_csv("fashion-mnist_train.csv") test = pd.read_csv("fashion-mnist_test.csv") Я пытаюсь импортировать таким образом, но, похоже, не все файлы импортируются. Я пробовал использовать ноутбук на Kaggle, но хочу узнать, как
Data Science
Агломеративная кластеризация с ограничениями на минимальный и максимальный размер кластеров
00
Вопрос или проблема Существуют ли пакеты Python, которые содержат алгоритмы агломеративной кластеризации с встроенными ограничениями на минимальный и максимальный размер кластеров? Я нашёл отличный пакет под названием KMeansConstrained, но, к сожалению
Data Science
ValueError: Ожидался 2D массив, вместо этого получен 1D массив.
00
Вопрос или проблема Я хотел бы извлечь 20 самых информативных признаков из очень большого набора признаков $X$, который поступает из набора данных, содержащего клинические данные, с помощью функции RFE из библиотеки scikit-learn в Python.
Data Science
Использование Keras с sklearn: применение class_weight с cross_val_score
00
Вопрос или проблема У меня имеется сильно несбалансированный набор данных (± 5% положительных экземпляров), для которого я обучаю бинарные классификаторы. Я использую вложенную 5-кратную кросс-валидацию с поиском по сетке для настройки гиперпараметров.