Data Science
Ядро завершается или процесс зависает при выполнении предсказания LR на датафрейме с использованием apply.
00
Вопрос или проблема Я пытаюсь сделать предсказания с помощью простой модели. model=LogisticRegression() model.fit(X_train,y_train) После подгонки я пытаюсь сделать предсказания. Пример значения X_test и код ниже. X_train[41626] array([-0.
Data Science
Не удалось сгенерировать матрицу неточностей
00
Вопрос или проблема Я использую keras flow from directory для сегментации изображений. Ниже приведен мой код import os import tensorflow as tf from tensorflow.keras.preprocessing.image import ImageDataGenerator from tensorflow import keras from sklearn.
Data Science
Как справиться с отсутствующими данными для наивного байесовского классификатора Бернулли?
00
Вопрос или проблема Я работаю с набором данных категориальных данных, который выглядит так: content_1 content_2 content_4 content_5 content_6 0 NaN 0.0 0.0 0.0 NaN 1 NaN 0.0 0.0 0.0 NaN 2 NaN NaN NaN NaN NaN 3 0.0 NaN 0.0 NaN 0.
Data Science
Обоснованно ли проводить разделение на обучающую и тестовую выборки на основе информации/энтропии?
00
Вопрос или проблема Я хочу разделить свой временной ряд данных на обучающую и тестовую выборки. Данные имеют сезонный характер и очень шумные. Когда я случайным образом разделяю, тестовые и обучающие образцы не сходятся в своих распределениях.
Data Science
В многоклассовой классификации в SGDClassifier как мне узнать, использует ли он по умолчанию метод один против остальных или один против одного?
00
Вопрос или проблема Согласно книге Geron, для многоклассовой классификации SGDClassifier в scikit-learn использует схему один против остальных. Но как мне узнать, какая схема используется, если эта информация не представлена в справочном файле.
Data Science
Концептуальная кластеризация с использованием sklearn?
00
Вопрос или проблема Как я могу выполнить концептуальную кластеризацию в sklearn? Мой случай использования заключается в том, что у меня есть статьи из Википедии на английском языке, над которыми я занимаюсь несупервизионным обучением (tfidf -> усеченное
Data Science
Распределение остатков регрессии: Это нормальное распределение?
00
Вопрос или проблема Я создал гистограмму, а также QQ-график остатков моей регрессионной модели: Среднее: 0.35 Стандартное отклонение: 18.14 Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены? И что еще я могу вывести из этих графиков?
Data Science
Как выполнить отбор признаков в наборе данных с категориальными и числовыми признаками?
00
Вопрос или проблема Я работаю с набором данных, который содержит 30 столбцов (29 числовых и 1 ненумеративный категориальный). Я применил метод one-hot кодирования для категориальной переменной и в итоге получил 35 столбцов. Чтобы улучшить эффективность
Data Science
обновление scikit-learn – как исправить разрывное изменение?
00
Вопрос или проблема Я унаследовал решение, которое работает на Databricks Runtime 7.3 и использует scikit-learn 0.21. Databricks Runtime необходимо обновить, и поэтому существующая версия scikit-learn несовместима с версией Python в более новых Databricks Runtime.
Data Science
разделение на обучающую и тестовую выборки с помощью train_test_split для вещественных значений?
00
Вопрос или проблема Как разделить на обучающую и тестовую выборки с помощью train_test_split значений с плавающей запятой? Я использовал LabelEncoder, но у меня около 300К строк, и когда я использовал cross_val, я увидел ValueError: наименьший класс в
Data Science
вычислить метрики sklearn из двумерного массива
00
Вопрос или проблема У меня есть следующий фрейм фактической ценности, [[0.1,0.2,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.5], [0.1,0.1,0.3,0.4,0.1], [0.1,0.3,0.3,0.4,0.5], [0.1,0.2,0.2,0.4,0.4], ] И я построил свою модель, которая предсказала значение следующим образом: [[0.
Вопросы и ответы
Преобразование PNG в формат цифр Scikit learn
00
Вопрос или проблема Мне нужна помощь в конвертации PNG RGBA в правильный формат для распознавания цифр в Scikit learn. Вот мой код: image = Image.open(image_path) print (image.size) print (image.mode) print (image.format) image = image.
Data Science
Оценщик Scikit-learn не изменяет предсказания при изменении переменной random_state.
00
Вопрос или проблема Я пытаюсь вычислить интервалы предсказаний для классификатора, который я обучил в scikit-learn. Даже после установки нового параметра random_state в моем конвейере, это, похоже, не изменяет результаты при повторной подгонке на данных.
Data Science
Как объединить NLP и числовые данные для задачи линейной регрессии
00
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Отчет по метрикам SKLEARN: “Количество классов, 28, не соответствует размеру target_names, 35. Попробуйте указать параметр labels.”
00
Вопрос или проблема Как правильно определить метки или имена целевых классов для classification_report? У меня есть отчет, который выглядит так: print(metrics.classification_report(twenty_test.target[:n_samples], predicted, target_names=twenty_test.
Data Science
Добавление классификатора машинного обучения в конце слоя CNN
00
Вопрос или проблема Я хотел использовать CNN в качестве извлекателя признаков для моих изображений, а затем передать эти признаки некоторым классификаторам машинного обучения, таким как SVM, дерево решений и KNN. Однако, когда я пытался использовать SVM
Data Science
Выход функции преобразования PCA из sklearn в Python не совпадает.
00
Вопрос или проблема Я вычисляю PCA по некоторым данным, используя 10 компонент и используя 3 из 10 следующим образом: transformer = PCA(n_components=10) trained=transformer.fit(train) one=numpy.matmul(train,numpy.transpose(trained.
Data Science
Список образцов, на которых обучается каждое дерево в случайном лесу в Scikit-Learn
00
Вопрос или проблема В случайном лесу Scikit-learn вы можете установить bootstrap=True, и каждое дерево выберет подмножество образцов для обучения. Есть ли способ увидеть, какие образцы используются в каждом дереве? Я ознакомился с документацией о деревьях-оценках
Data Science
Как использовать SMOTENC внутри конвейера?
00
Вопрос или проблема Я был бы очень признателен, если бы вы могли сообщить мне, как использовать SMOTENC. Я написал: num_indices1 = list(X.iloc[:,np.r_[0:94,95,97,100:123]].columns.values) cat_indices1 = list(X.iloc[:,np.r_[94,96,98,99,123:160]].
Data Science
Разделитель в деревьях решений в реализации sklearn
00
Вопрос или проблема Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают.