Data Science
Как LGBM делает предсказание?
00
Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “
Data Science
Как вычислить возможное количество разбиений в дереве решений?
00
Вопрос или проблема В следующем наборе данных, если мы хотим включить только две переменные, STORE и PctDiscMM, в модель классификационного дерева, какое возможное количество первых разбиений? library(islr) data(OJ) length(unique(OJ$PctDiscMM)) length(unique(OJ$
Data Science
Как найти зависимые переменные в наборе данных?
00
Вопрос или проблема Я застрял на том, как я могу получить самые зависимые переменные, основываясь на среднем У меня есть этот параметр, и когда я пытаюсь: df.groupby('left').mean() Это дает следующий вывод: И один из моих друзей сказал, что из этого графика
Data Science
Почему трансформация моих признаков может улучшить производительность простой решающей дерева?
00
Вопрос или проблема Признаки и целевая переменная в моем наборе данных сильно искажены. Мог ли кто-то объяснить, почему преобразование признаков и целевой переменной (я использую преобразование Йео-Джонсона) значительно улучшает производительность моей
Data Science
Как создать классификационные деревья решений на наборе данных, содержащем как числовые, так и категориальные переменные?
00
Вопрос или проблема Я довольно нов в области Data Science и изучаю вещи на практике на работе. Я аналитик по мошенничеству, и моя работа заключается в том, чтобы предсказать, является ли заявление мошенническим или нет, исходя из данных.
Data Science
Как декодировать закодированные метки в классификаторе деревьев решений
00
Вопрос или проблема У меня есть набор данных с закупками организации, в которой я работаю. Цель состоит в том, чтобы найти наиболее важные характеристики, которые объясняют, почему некоторые процессы закупок успешны, а другие –
Data Science
Как избежать ошибки памяти при вызове метода Pandas pd.read_csv в сочетании с использованием GridSearchCV для модели DecisionTreeRegressor?
00
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Data Science
Я сталкиваюсь с ошибкой: объект DecisionTreeRegressor не имеет атрибута n_features.
00
Вопрос или проблема Трассировка (самый последний вызов последним): Файл "/usr/local/lib/python3.8/dist-packages/flask/app.py", строка 2073, в wsgi_app ответ = self.full_dispatch_request() Файл "/usr/local/lib/python3.8/dist-packages/flask/app.
Data Science
Почему мои модели имеют довольно высокую точность с небольшим обучающим набором данных?
00
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Объедините одну метку с одной информацией для задачи классификации или многометочной классификации.
00
Вопрос или проблема Я хочу создать модель для поддержки принятия решений, чтобы предложить или не предложить клиентам страхование кредита. Потому что иногда клиенты, запрашивающие кредит и страхование кредита, имеют меньшую вероятность получить одобрение
Data Science
SKLearn decisionTreeClassifier не обрабатывает разряженные правила в качестве входных данных.
00
Вопрос или проблема Существует ли способ обучения decisionTreeClassifier в SKLearn на разреженных кортежах? Данные, которые у меня есть, основаны примерно на 100 характеристиках, но только несколько из них используются для принятия решения.
Data Science
SKLearn decisionTreeClassifier не обрабатывает разреженные или категориальные данные.
00
Вопрос или проблема Существует ли способ в фите decisionTreeClassifier в SKLearn для разреженных кортежей? Данные, которые я имею, основаны на примерно 100 признаках, но лишь некоторые из них используются для принятия решения.
Data Science
Теория функции оценки изолированного леса
00
Вопрос или проблема В настоящее время я читаю эту статью о изоляционных лесах. В разделе о функции счета они упоминают следующее. Для справки, $h(x)$ определяется как длина пути точки данных, проходящей через iTree, а $n$ — это размер выборки, используемый для роста iTree.
Data Science
Какие модели неявно учитывают взаимодействие между признаками?
00
Вопрос или проблема Я хотел бы лучше понять, как разные модели (в частности, нейронные сети и случайные леса, но и любые другие) учитывают взаимодействие между признаками в табличных данных? Например, может ли модель в ходе обучения понять, что “
Data Science
Rapidminer и веса деревьев решений
00
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Как мы можем сократить нашу анкету, чтобы задавать только самые информативные вопросы в каждом пункте?
00
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Почему rpart не делит эти данные, даже когда есть прирост в Джини?
00
Вопрос или проблема df <- tibble(x1=factor(c("S1", "S1", "S2", "S2")), y=factor(c(1, 1, 0, 1))) md <- rpart(formula=y~., data=df, method="class", control=rpart.control(minsplit=2, cp=0)) nrow(md$frame) #выводит 1 Рассмотрим разделение левая дочерняя
Data Science
Дерево решений из опыта эксперта
00
Вопрос или проблема Я ищу деревья решений, созданные экспертами в своей области на основе их опыта. Насколько я знаю, медицинские работники располагают эмпирическим деревом решений для диагностики, я хотел бы узнать, существует ли в других областях, таких
Data Science
Как решить, кого продвигать? Кластеризация или дерево решений?
00
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя
Data Science
Есть ли реализация алгоритма Расширенного изолированного леса в R/Python?
00
Вопрос или проблема Я использую пакет isofor для обычного Isolation Forest, но наткнулся на статью о Расширенном Isolation Forest и мне нужен ваш совет, какой пакет имеет эту функцию, реализованную в R/Python. Есть пакет на Github под названием “