scikit-learn
Data Science
Вопрос или проблема Я выполняю работу, основанную на анализе различных библиотек Python для машинного обучения. Я выбрал для анализа Scikit-Learn, Keras, Tensorflow и Pytorch, так как они наиболее известны. Идея заключалась в обучении различных моделей
Data Science
Вопрос или проблема У меня есть база данных, которая содержит информацию, такую как широта, долгота, а также другую информацию, например, достопримечательности, рестораны и торговые центры, сельская местность это или пригород, …
Data Science
Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.
Data Science
Вопрос или проблема Я хочу создать модель классификации для сопоставления клиентов и продуктов. У меня есть описание каждого продукта и каждого клиента, а также метка: клиент *i* купил/не купил продукт *j*. Каждый пример/строка — это пара (клиент, продукт)
Data Science
Вопрос или проблема Это последующий вопрос к: Какая разница между fit и fit_transform в моделях scikit-learn? Я хочу узнать, зачем вообще использовать fit, когда у нас есть fit_transform, который намного быстрее, чем использование fit и transform отдельно?
Data Science
Вопрос или проблема В sklearn.linear_model.LogisticRegression есть параметр C согласно документации Cfloat, по умолчанию = 1.0 Обратная величина к силе регуляризации; должно быть положительное число с плавающей точкой. Как и в машинах опорных векторов
Data Science
Вопрос или проблема Я беру абсолютные значения всех элементов, вычисляю среднее, вычитаю его из исходных значений. Мне кажется, что это неверно и может изменить векторы. Я также делю на стандартное отклонение, но я довольно уверен в этом, зная, что это
Data Science
Вопрос или проблема Я новичок в области науки о данных и ценю ваш мудрый совет! Мне нужно построить модель с инкрементальным обучением, и я понимаю, что в это вкладывается много усилий, но я хотел бы выделить самое фундаментальное, абстрактное требование
Data Science
Вопрос или проблема Я уже видел это, это и это вопрос, но ни одно из предложений не помогло решить мою проблему (поэтому я отменил их). У меня есть следующий код: nlp = spacy.load('en_core_web_sm') parser = English() class CleanTextTransformer(TransformerMixin)
Data Science
Вопрос или проблема Я использую Google Colab для решения задачи мульти-классификации. Я пытаюсь построить матрицу ошибок для этой задачи, я пробовал сделать это, используя: from sklearn.metrics import multilabel_confusion_matrix, ConfusionMatrixDisplay import matplotlib.
Data Science
Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это
Data Science
Вопрос или проблема Как указано в заголовке, я пытаюсь кластеризовать огромный набор данных и делаю это с помощью sklearn.Birch, чтобы обучаться постепенно. Если бы это был небольшой набор данных, я мог бы просто использовать gridsearchcv.
Data Science
Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение
Data Science
Вопрос или проблема Может ли кто-нибудь объяснить, следует ли строить кривые обучения, используя весь набор данных (все X и все y) или только учебный набор данных (X_train и y_train)? Предположим, это регрессионная задача: что вы отображаете, так это
Data Science
Вопрос или проблема Цель оптимизации SVM — максимизировать расстояние между положительными и отрицательными гиперплоскостями. Но перед оптимизацией как sklearn сначала находит положительные и отрицательные опорные вектора, а значит, и гиперплоскости зазора?
Data Science
Вопрос или проблема Например, я пытаюсь выполнить линейную регрессию на следующем наборе данных Примеры данных: $X = [[1, 20], [3, 40], [5, 60]]$ (каждая строка — это пример, всего три примера, каждый с признаком размерности $2$, организованы в массив
Data Science
Вопрос или проблема Я могу читать текст с изображения, используя OCR. Однако это работает построчно. Я хочу теперь группировать текст на основе сплошных линий, окружающих текст. Например, предположим, у меня есть следующие прямоугольные баннеры.
Data Science
Вопрос или проблема Я пишу код для SVR. Поэтому я сгенерировал свой код в соответствии с требованиями. Но я застрял на написании кода для индекса цикла for для X_test и y_test. Мне нужно написать код так, чтобы он ассоциировался со строкой в наборах данных
Data Science
Вопрос или проблема Я делаю свои первые шаги в ИИ и машинном обучении, поэтому столкнулся со следующей проблемой. Я пытаюсь предсказать результат по количеству дней с начала пандемии COVID-19 против подтвержденных случаев, используя библиотеку scikit-learn.
Data Science
Вопрос или проблема Я заметил в некоторых источниках, что автор сначала обучает модель (например, модель из scikit-learn) с параметрами по умолчанию, и модель естественным образом дает результат. Затем они пытаются оптимизировать гиперпараметры, даже