Data Science
Параллельные байесовские поисковые СВР, пох似, умирают как в плане использования ЦП, так и в плане прогресса.
00
Вопрос или проблема Этот вопрос не о том, почему SVM требуют много времени для обучения, а о ненадежном времени выполнения с использованием skopt BayesSearchCV и, как видно, умирающих процессов. Краткий обзор: Я пробую множество моделей.
Data Science
плохая форма входных данных (5634, 2)
00
Вопрос или проблема Я попробовал всё, и не уверен, как решить следующую ошибку: ValueError: плохая форма входных данных (5634, 2) Это мой первый пример машинного обучения, так что прошу вас проявить терпение. Вот код на Python: import numpy as np import
Data Science
Сенсорное слияние: Генерация виртуального датчика на основе анализа данных с датчиков.
00
Вопрос или проблема У меня есть паровая машина, оборудованная следующими датчиками: датчик температуры в котельной датчик температуры в отопительном помещении датчик давления в котельной датчик оборотов в минуту, который измеряет обороты колеса, которое
Data Science
SKLearn decisionTreeClassifier не обрабатывает разряженные правила в качестве входных данных.
00
Вопрос или проблема Существует ли способ обучения decisionTreeClassifier в SKLearn на разреженных кортежах? Данные, которые у меня есть, основаны примерно на 100 характеристиках, но только несколько из них используются для принятия решения.
Data Science
Значимость признаков в алгоритме PCA + k-means
00
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).
Data Science
SKLearn decisionTreeClassifier не обрабатывает разреженные или категориальные данные.
00
Вопрос или проблема Существует ли способ в фите decisionTreeClassifier в SKLearn для разреженных кортежей? Данные, которые я имею, основаны на примерно 100 признаках, но лишь некоторые из них используются для принятия решения.
Data Science
Предварительная обработка изображений данных перед обучением OneClassSVM и уменьшение количества признаков.
00
Вопрос или проблема Я хочу обучить OneClassSVM() с помощью sklearn, и у меня есть набор из около 800 изображений в тренировочном наборе. Я использую opencv для чтения изображений и изменения их размера до постоянных размеров (960×
Data Science
настройка гиперпараметров с использованием валидационного набора
00
Вопрос или проблема Насколько я знаю, и поправьте меня, если я не прав, использование кросс-валидации для настройки гиперпараметров нецелесообразно, когда у меня есть огромный набор данных. В таком случае лучше разделить данные на обучающий, валидационный и тестовый наборы;
Data Science
Порог дисперсии с проблемой на Python
00
Вопрос или проблема Я начинающий в scikit-learn, и у меня небольшая проблема при использовании модуля отбора признаков VarianceThreshold. Проблема в том, что когда я устанавливаю дисперсию Var[X]=.8*(1-.8) предполагается, что будут удалены все признаки
Data Science
Уравнение гиперплоскости для радиальной основы SVM.
00
Вопрос или проблема Мне нужно сгенерировать уравнение для гиперплоскости, у меня есть две независимые переменные и одна бинарная зависимая переменная. Что касается следующего уравнения для svm, $f(x)=sgn( sum_i alpha_i K(sv_i,x) + b )$ У меня есть две
Data Science
Многофункциональный One-Hot-кодировщик с переменным количеством экземпляров признаков
00
Вопрос или проблема Предположим, у нас есть данные в таких экземплярах: [ [15, 20, ("банан","яблоко","огурец"), ...], [91, 12, ("апельсин","банан"), ...], ... ] Мне интересно, как я могу закодировать третий элемент этих данных.
Data Science
Можно ли вычислить оценку Дэвиса-Боулдина на основе заранее вычисленной матрицы расстояний с использованием sklearn?
00
Вопрос или проблема Я пытаюсь вычислить показатель Дависа-Боулдина, чтобы сравнить различные подходы к кластеризации. У меня есть предрасчитанная матрица расстояний (которая представляет собой расстояние на основе редактирования между текстами).
Data Science
Несуперvised обучение::Спутниковые изображения::Один канал
00
Вопрос или проблема Кто-нибудь добивался успеха в построении моделей с использованием KMeans для классификации? У меня есть изображения, которые имеют только один слой, и это продолжает не удаваться. Я предполагаю, что проблема связана как с размером
Data Science
Как вычислить f1_score для многоклассовой многометочной классификации
00
Вопрос или проблема Я использовал одномерное кодирование [1,0,0][0,1,0][0,0,1] для своей функциональной модели классификации. Предсказанные вероятности для тестовых данных yprob = model.predict(testX) дают мне : yprob = array([[0.
Data Science
В качестве промежуточного программиста на R, желающего погрузиться в машинное обучение, мне стоит выбрать Python или остаться на R?
00
Вопрос или проблема Предыстория Я промежуточный R программист с некоторым опытом в концепциях машинного обучения и простом моделировании в R. У меня есть возможность сотрудничать с профессиональной командой машинного обучения, которая не против того
Data Science
Кросс-валидация с однолассной классификацией в Python
00
Вопрос или проблема Я пытаюсь выполнить кросс-валидацию с использованием классификации одного класса – я использую библиотеку PyOD – но не знаю, делаю ли я это правильно. Точность слишком низка, и я также не могу вывести среднее и стандартное отклонение F1.
Data Science
Какие хорошие модели можно использовать для тестирования скорости машины для Data Science?
00
Вопрос или проблема Я пишу набор тестов (на Python) с целью измерения скорости различных вычислительных экземпляров моей компании. Цель состоит в том, чтобы увидеть, как быстро разные экземпляры AWS EC2 выполняют различные модели машинного обучения или
Data Science
Сравнение между регрессионной моделью
00
Вопрос или проблема У меня есть одна папка, в которой содержится много файлов CSV, размеры которых составляют 24×25. Каждый файл CSV представляет собой данные за один день. Я выполняю следующую задачу: Случай 1: Рассмотрим следующий наивный классификатор
Data Science
МЛ-подход для получения списка наблюдений с похожими признаками (дискретные + непрерывные)
00
Вопрос или проблема У меня есть набор данных с 19 тысячами наблюдений. Каждое из них имеет примерно 448 признаков: – Текстовое описание, переведенное в векторы размером 300 – 16 категориальных переменных, представленных числовым образом –
Data Science
Почему метод .fit() преобразует входные данные X в np.array?
00
Вопрос или проблема Почему метод (пользовательский) .fit() преобразует pd.DataFrame X в numpy.ndarray? import pandas as pd import numpy as np from sklearn.pipeline import make_pipeline from sklearn.compose import TransformedTargetRegressor, make_column_transformer