scikit-learn - ответы на вопросы

Data Science

00

Вопрос или проблема Я выполняю работу, основанную на анализе различных библиотек Python для машинного обучения. Я выбрал для анализа Scikit-Learn, Keras, Tensorflow и Pytorch, так как они наиболее известны. Идея заключалась в обучении различных моделей

Data Science

лучший алгоритм или модель для кластеризации областей на карте?

00

Вопрос или проблема У меня есть база данных, которая содержит информацию, такую как широта, долгота, а также другую информацию, например, достопримечательности, рестораны и торговые центры, сельская местность это или пригород, …

Data Science

Алгоритм/библиотека выбора признаков для CRF

00

Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.

Data Science

Классификация с использованием текстов в качестве признаков

00

Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)

Data Science

Почему использовать fit, если уже есть fit_transform?

00

Вопрос или проблема Это последующий вопрос к: Какая разница между fit и fit_transform в моделях scikit-learn? Я хочу узнать, зачем вообще использовать fit, когда у нас есть fit_transform, который намного быстрее, чем использование fit и transform отдельно?

Data Science

Что такое C в логистической регрессии sklearn?

00

Вопрос или проблема В sklearn.linear_model.LogisticRegression есть параметр C согласно документации Cfloat, по умолчанию = 1.0 Обратная величина к силе регуляризации; должно быть положительное число с плавающей точкой. Как и в машинах опорных векторов

Data Science

Как нормализовать данные с комплексными значениями?

00

Вопрос или проблема Я беру абсолютные значения всех элементов, вычисляю среднее, вычитаю его из исходных значений. Мне кажется, что это неверно и может изменить векторы. Я также делю на стандартное отклонение, но я довольно уверен в этом, зная, что это

Data Science

Общие практики построения инкрементальной обучающей модели, которая никогда не забывает?

00

Вопрос или проблема Я новичок в области науки о данных и ценю ваш мудрый совет! Мне нужно построить модель с инкрементальным обучением, и я понимаю, что в это вкладывается много усилий, но я хотел бы выделить самое фундаментальное, абстрактное требование

Data Science

Возникает ошибка ‘ValueError: setting an array element with a sequence.’ при попытке обработать данные смешанного типа.

00

Вопрос или проблема Я уже видел это, это и это вопрос, но ни одно из предложений не помогло решить мою проблему (поэтому я отменил их). У меня есть следующий код: nlp = spacy.load('en_core_web_sm') parser = English() class CleanTextTransformer(TransformerMixin)

Data Science

Построение матрицы ошибок для задачи мульти-классификации.

00

Вопрос или проблема Я использую Google Colab для решения задачи мульти-классификации. Я пытаюсь построить матрицу ошибок для этой задачи, я пробовал сделать это, используя: from sklearn.metrics import multilabel_confusion_matrix, ConfusionMatrixDisplay import matplotlib.

Data Science

Использование KNN-импутации из sklearn на большом наборе данных

00

Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это

Data Science

Как настраивать параметры пакет за пакетом?

00

Вопрос или проблема Как указано в заголовке, я пытаюсь кластеризовать огромный набор данных и делаю это с помощью sklearn.Birch, чтобы обучаться постепенно. Если бы это был небольшой набор данных, я мог бы просто использовать gridsearchcv.

Data Science

Векторизатор текста, который захватывает смещение признаков в тексте.

00

Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение

Data Science

Кривые обучения – весь набор данных или только обучающий набор данных?

00

Вопрос или проблема Может ли кто-нибудь объяснить, следует ли строить кривые обучения, используя весь набор данных (все X и все y) или только учебный набор данных (X_train и y_train)? Предположим, это регрессионная задача: что вы отображаете, так это

Data Science

Как sklearn SVM находит начальную гиперплоскость перед оптимизацией?

00

Вопрос или проблема Цель оптимизации SVM — максимизировать расстояние между положительными и отрицательными гиперплоскостями. Но перед оптимизацией как sklearn сначала находит положительные и отрицательные опорные вектора, а значит, и гиперплоскости зазора?

Data Science

Является ли обычным, что стандартный скейлер Scikit learn вызывает необратимость?

00

Вопрос или проблема Например, я пытаюсь выполнить линейную регрессию на следующем наборе данных Примеры данных: $X = [[1, 20], [3, 40], [5, 60]]$ (каждая строка — это пример, всего три примера, каждый с признаком размерности $2$, организованы в массив

Data Science

OCR с группированным текстом на основе сплошных прямоугольников

00

Вопрос или проблема Я могу читать текст с изображения, используя OCR. Однако это работает построчно. Я хочу теперь группировать текст на основе сплошных линий, окружающих текст. Например, предположим, у меня есть следующие прямоугольные баннеры.

Data Science

Как исправить значение индекса, которое я использую для X_test и y_test?

00

Вопрос или проблема Я пишу код для SVR. Поэтому я сгенерировал свой код в соответствии с требованиями. Но я застрял на написании кода для индекса цикла for для X_test и y_test. Мне нужно написать код так, чтобы он ассоциировался со строкой в наборах данных

Data Science

Алгоритм машинного обучения для прогнозирования числа случаев во время пандемии

00

Вопрос или проблема Я делаю свои первые шаги в ИИ и машинном обучении, поэтому столкнулся со следующей проблемой. Я пытаюсь предсказать результат по количеству дней с начала пандемии COVID-19 против подтвержденных случаев, используя библиотеку scikit-learn.

Data Science

Могу ли я напрямую применять методы настройки гиперпараметров и выбрать лучшую модель?

00

Вопрос или проблема Я заметил в некоторых источниках, что автор сначала обучает модель (например, модель из scikit-learn) с параметрами по умолчанию, и модель естественным образом дает результат. Затем они пытаются оптимизировать гиперпараметры, даже