scikit-learn
Data Science
Вопрос или проблема Я пытаюсь сделать предсказания с помощью простой модели. model=LogisticRegression() model.fit(X_train,y_train) После подгонки я пытаюсь сделать предсказания. Пример значения X_test и код ниже. X_train[41626] array([-0.
Data Science
Вопрос или проблема Я использую keras flow from directory для сегментации изображений. Ниже приведен мой код import os import tensorflow as tf from tensorflow.keras.preprocessing.image import ImageDataGenerator from tensorflow import keras from sklearn.
Data Science
Вопрос или проблема Я работаю с набором данных категориальных данных, который выглядит так: content_1 content_2 content_4 content_5 content_6 0 NaN 0.0 0.0 0.0 NaN 1 NaN 0.0 0.0 0.0 NaN 2 NaN NaN NaN NaN NaN 3 0.0 NaN 0.0 NaN 0.
Data Science
Вопрос или проблема Я хочу разделить свой временной ряд данных на обучающую и тестовую выборки. Данные имеют сезонный характер и очень шумные. Когда я случайным образом разделяю, тестовые и обучающие образцы не сходятся в своих распределениях.
Data Science
Вопрос или проблема Согласно книге Geron, для многоклассовой классификации SGDClassifier в scikit-learn использует схему один против остальных. Но как мне узнать, какая схема используется, если эта информация не представлена в справочном файле.
Data Science
Вопрос или проблема Как я могу выполнить концептуальную кластеризацию в sklearn? Мой случай использования заключается в том, что у меня есть статьи из Википедии на английском языке, над которыми я занимаюсь несупервизионным обучением (tfidf -> усеченное
Data Science
Вопрос или проблема Я создал гистограмму, а также QQ-график остатков моей регрессионной модели: Среднее: 0.35 Стандартное отклонение: 18.14 Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены? И что еще я могу вывести из этих графиков?
Data Science
Вопрос или проблема Я работаю с набором данных, который содержит 30 столбцов (29 числовых и 1 ненумеративный категориальный). Я применил метод one-hot кодирования для категориальной переменной и в итоге получил 35 столбцов. Чтобы улучшить эффективность
Data Science
Вопрос или проблема Я унаследовал решение, которое работает на Databricks Runtime 7.3 и использует scikit-learn 0.21. Databricks Runtime необходимо обновить, и поэтому существующая версия scikit-learn несовместима с версией Python в более новых Databricks Runtime.
Data Science
Вопрос или проблема Как разделить на обучающую и тестовую выборки с помощью train_test_split значений с плавающей запятой? Я использовал LabelEncoder, но у меня около 300К строк, и когда я использовал cross_val, я увидел ValueError: наименьший класс в
Data Science
Вопрос или проблема У меня есть следующий фрейм фактической ценности, [[0.1,0.2,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.1], [0.1,0.3,0.3,0.4,0.5], [0.1,0.2,0.2,0.4,0.4], ] И я построил свою модель, которая предсказала значение следующим образом: [[0.
Вопросы и ответы
Вопрос или проблема Мне нужна помощь в конвертации PNG RGBA в правильный формат для распознавания цифр в Scikit learn. Вот мой код: image = Image.open(image_path) print (image.size) print (image.mode) print (image.format) image = image.
Data Science
Вопрос или проблема Я пытаюсь вычислить интервалы предсказаний для классификатора, который я обучил в scikit-learn. Даже после установки нового параметра random_state в моем конвейере, это, похоже, не изменяет результаты при повторной подгонке на данных.
Data Science
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Вопрос или проблема Как правильно определить метки или имена целевых классов для classification_report? У меня есть отчет, который выглядит так: print(metrics.classification_report(twenty_test.target[:n_samples], predicted, target_names=twenty_test.
Data Science
Вопрос или проблема Я хотел использовать CNN в качестве извлекателя признаков для моих изображений, а затем передать эти признаки некоторым классификаторам машинного обучения, таким как SVM, дерево решений и KNN. Однако, когда я пытался использовать SVM
Data Science
Вопрос или проблема Я вычисляю PCA по некоторым данным, используя 10 компонент и используя 3 из 10 следующим образом: transformer = PCA(n_components=10) trained=transformer.fit(train) one=numpy.matmul(train,numpy.transpose(trained.
Data Science
Вопрос или проблема В случайном лесу Scikit-learn вы можете установить bootstrap=True, и каждое дерево выберет подмножество образцов для обучения. Есть ли способ увидеть, какие образцы используются в каждом дереве? Я ознакомился с документацией о деревьях-оценках
Data Science
Вопрос или проблема Я был бы очень признателен, если бы вы могли сообщить мне, как использовать SMOTENC. Я написал: num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values) cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].
Data Science
Вопрос или проблема Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают.