decision-trees
Data Science
Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “
Data Science
Вопрос или проблема В следующем наборе данных, если мы хотим включить только две переменные, STORE и PctDiscMM, в модель классификационного дерева, какое возможное количество первых разбиений? library(islr) data(OJ) length(unique(OJ$PctDiscMM)) length(unique(OJ$
Data Science
Вопрос или проблема Я застрял на том, как я могу получить самые зависимые переменные, основываясь на среднем У меня есть этот параметр, и когда я пытаюсь: df.groupby('left').mean() Это дает следующий вывод: И один из моих друзей сказал, что из этого графика
Data Science
Вопрос или проблема Признаки и целевая переменная в моем наборе данных сильно искажены. Мог ли кто-то объяснить, почему преобразование признаков и целевой переменной (я использую преобразование Йео-Джонсона) значительно улучшает производительность моей
Data Science
Вопрос или проблема Я довольно нов в области Data Science и изучаю вещи на практике на работе. Я аналитик по мошенничеству, и моя работа заключается в том, чтобы предсказать, является ли заявление мошенническим или нет, исходя из данных.
Data Science
Вопрос или проблема У меня есть набор данных с закупками организации, в которой я работаю. Цель состоит в том, чтобы найти наиболее важные характеристики, которые объясняют, почему некоторые процессы закупок успешны, а другие –
Data Science
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Data Science
Вопрос или проблема Трассировка (самый последний вызов последним): Файл "/usr/local/lib/python3.8/dist-packages/flask/app.py", строка 2073, в wsgi_app ответ = self.full_dispatch_request() Файл "/usr/local/lib/python3.8/dist-packages/flask/app.
Data Science
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Вопрос или проблема Я хочу создать модель для поддержки принятия решений, чтобы предложить или не предложить клиентам страхование кредита. Потому что иногда клиенты, запрашивающие кредит и страхование кредита, имеют меньшую вероятность получить одобрение
Data Science
Вопрос или проблема Существует ли способ обучения decisionTreeClassifier в SKLearn на разреженных кортежах? Данные, которые у меня есть, основаны примерно на 100 характеристиках, но только несколько из них используются для принятия решения.
Data Science
Вопрос или проблема Существует ли способ в фите decisionTreeClassifier в SKLearn для разреженных кортежей? Данные, которые я имею, основаны на примерно 100 признаках, но лишь некоторые из них используются для принятия решения.
Data Science
Вопрос или проблема В настоящее время я читаю эту статью о изоляционных лесах. В разделе о функции счета они упоминают следующее. Для справки, $h(x)$ определяется как длина пути точки данных, проходящей через iTree, а $n$ — это размер выборки, используемый для роста iTree.
Data Science
Вопрос или проблема Я хотел бы лучше понять, как разные модели (в частности, нейронные сети и случайные леса, но и любые другие) учитывают взаимодействие между признаками в табличных данных? Например, может ли модель в ходе обучения понять, что “
Data Science
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Вопрос или проблема df <- tibble(x1=factor(c("S1", "S1", "S2", "S2")), y=factor(c(1, 1, 0, 1))) md <- rpart(formula=y~., data=df, method="class", control=rpart.control(minsplit=2, cp=0)) nrow(md$frame) #выводит 1 Рассмотрим разделение левая дочерняя
Data Science
Вопрос или проблема Я ищу деревья решений, созданные экспертами в своей области на основе их опыта. Насколько я знаю, медицинские работники располагают эмпирическим деревом решений для диагностики, я хотел бы узнать, существует ли в других областях, таких
Data Science
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя
Data Science
Вопрос или проблема Я использую пакет isofor для обычного Isolation Forest, но наткнулся на статью о Расширенном Isolation Forest и мне нужен ваш совет, какой пакет имеет эту функцию, реализованную в R/Python. Есть пакет на Github под названием “