scikit-learn
Data Science
Вопрос или проблема Я пытаюсь самостоятельно реализовать алгоритм логистической регрессии для самообучения, но у меня возникают некоторые проблемы с достижением аналогичной точности, как у логистической регрессии из sklearn. Вот код, который я использую
Data Science
Вопрос или проблема Я хочу настроить параметры классификатора MLP из sklearn, но не знаю, какие из них настраивать и сколько вариантов предложить? Например, это скорость обучения. Должен ли я указать значения [.0001, .001, .01, .1, .2, .3]?
Data Science
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Вопрос или проблема from sklearn.svm import SVR from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.
Data Science
Вопрос или проблема Я все еще ищу отличный инструмент для управления задачами и визуализации обучения на моих моделях. TensorBoard очевидно является одним из вариантов, учитывая его огромную поддержку. Но возможно ли организовать задачи и визуализировать
Data Science
Вопрос или проблема Я изучал алгоритмы для предсказания на основе коллаборативной фильтрации. В большинстве источников я читал о использовании матричной факторизации, основанной на оценках схожести пользователя. Но в моем случае мне нужно делать предсказания
Вопросы и ответы
Вопрос или проблема Случайный лес — это модель ИИ. В этом коде я пытаюсь использовать его для классификации химических веществ. Однако при настройке случайного леса я заметил странную переменную ys_fit. Я пытался поискать в интернете, но не нашел результатов.
Data Science
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.
Data Science
Вопрос или проблема from sklearn.neighbors import NearestNeighbors, LSHForest ImportError: невозможно импортировать имя 'LSHForest' из 'sklearn.neighbors' Я узнал, что LSHForest устарел. Как я могу его использовать? Есть ли у нас другие альтернативы.
Data Science
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
Вопрос или проблема Я просто хочу узнать детали того, какие (и как) критерии используются в sklearn.tree.DecisionTreeClassifier для создания листовых узлов. Я знаю, что параметры criterion{“gini”, “entropy”}, по умолчанию=”gini” и splitter{“best”, “random”}
Data Science
Вопрос или проблема Мне нужно понять, как алгоритм многомерного наивного байеса может делать предсказания на основе реализации в scikit-learn. Я увидел исходный код, но хочу понять математику, стоящую за этим. Не могли бы вы объяснить математику этого предсказания?
Data Science
Вопрос или проблема Я имею в виду этот вопрос: Вложенная кросс-валидация и выбор лучшей модели регрессии – является ли это правильным процессом SKLearn? В ответах говорится, что вложенная кросс-валидация может оценивать ошибку обобщения оптимизации
Data Science
Вопрос или проблема Я работаю с 10-кратной кросс-валидацией и хочу усреднить метрики, но не могу это сделать с помощью sklearn. Вот как я это делаю, и метрики выводятся по каждому разделению. from sklearn.model_selection import KFold from sklearn.
Вопросы и ответы
Вопрос или проблема train = pd.read_csv("fashion-mnist_train.csv") test = pd.read_csv("fashion-mnist_test.csv") Я пытаюсь импортировать таким образом, но, похоже, не все файлы импортируются. Я пробовал использовать ноутбук на Kaggle, но хочу узнать, как
Data Science
Вопрос или проблема Существуют ли пакеты Python, которые содержат алгоритмы агломеративной кластеризации с встроенными ограничениями на минимальный и максимальный размер кластеров? Я нашёл отличный пакет под названием KMeansConstrained, но, к сожалению
Data Science
Вопрос или проблема Я хотел бы извлечь 20 самых информативных признаков из очень большого набора признаков $X$, который поступает из набора данных, содержащего клинические данные, с помощью функции RFE из библиотеки scikit-learn в Python.
Data Science
Вопрос или проблема У меня имеется сильно несбалансированный набор данных (± 5% положительных экземпляров), для которого я обучаю бинарные классификаторы. Я использую вложенную 5-кратную кросс-валидацию с поиском по сетке для настройки гиперпараметров.
Data Science
Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление
Data Science
Вопрос или проблема Я использую Classifier Chain с логистической регрессией, и когда пытаюсь использовать метод fit, получаю Этот решатель требует наличие образцов как минимум 2 классов в данных, но данные содержат только один класс: 1 Но я довольно уверен