decision-trees
Data Science
Вопрос или проблема У меня есть набор данных с закупками организации, в которой я работаю. Цель состоит в том, чтобы найти наиболее важные характеристики, которые объясняют, почему некоторые процессы закупок успешны, а другие –
Data Science
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Data Science
Вопрос или проблема Трассировка (самый последний вызов последним): Файл "/usr/local/lib/python3.8/dist-packages/flask/app.py", строка 2073, в wsgi_app ответ = self.full_dispatch_request() Файл "/usr/local/lib/python3.8/dist-packages/flask/app.
Data Science
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Вопрос или проблема Я хочу создать модель для поддержки принятия решений, чтобы предложить или не предложить клиентам страхование кредита. Потому что иногда клиенты, запрашивающие кредит и страхование кредита, имеют меньшую вероятность получить одобрение
Data Science
Вопрос или проблема Существует ли способ обучения decisionTreeClassifier в SKLearn на разреженных кортежах? Данные, которые у меня есть, основаны примерно на 100 характеристиках, но только несколько из них используются для принятия решения.
Data Science
Вопрос или проблема Существует ли способ в фите decisionTreeClassifier в SKLearn для разреженных кортежей? Данные, которые я имею, основаны на примерно 100 признаках, но лишь некоторые из них используются для принятия решения.
Data Science
Вопрос или проблема В настоящее время я читаю эту статью о изоляционных лесах. В разделе о функции счета они упоминают следующее. Для справки, $h(x)$ определяется как длина пути точки данных, проходящей через iTree, а $n$ — это размер выборки, используемый для роста iTree.
Data Science
Вопрос или проблема Я хотел бы лучше понять, как разные модели (в частности, нейронные сети и случайные леса, но и любые другие) учитывают взаимодействие между признаками в табличных данных? Например, может ли модель в ходе обучения понять, что “
Data Science
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Вопрос или проблема df <- tibble(x1=factor(c("S1", "S1", "S2", "S2")), y=factor(c(1, 1, 0, 1))) md <- rpart(formula=y~., data=df, method="class", control=rpart.control(minsplit=2, cp=0)) nrow(md$frame) #выводит 1 Рассмотрим разделение левая дочерняя
Data Science
Вопрос или проблема Я ищу деревья решений, созданные экспертами в своей области на основе их опыта. Насколько я знаю, медицинские работники располагают эмпирическим деревом решений для диагностики, я хотел бы узнать, существует ли в других областях, таких
Data Science
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя
Data Science
Вопрос или проблема Я использую пакет isofor для обычного Isolation Forest, но наткнулся на статью о Расширенном Isolation Forest и мне нужен ваш совет, какой пакет имеет эту функцию, реализованную в R/Python. Есть пакет на Github под названием “
Data Science
Вопрос или проблема У меня есть набор данных с 16 признаками и 32 метками классов, который демонстрирует следующее поведение: Классификация нейронной сетью: высокая точность на обучающих данных 100%, но низкая точность на тестовом наборе 3% (почти как
Data Science
Вопрос или проблема Я пытаюсь построить регрессионное дерево с 70 атрибутами, где бизнес-команда хочет зафиксировать первые два уровня, а именно страна и тип продукта. Для достижения этой цели у меня есть два предложения: Построить отдельное дерево для
Data Science
Вопрос или проблема У меня есть список коротких строк, каждая из которых определяет город. Орфографические ошибки очень распространены. Пример ниже показывает некоторые из этих коротких строк и правильный город, которому они должны соответствовать.
Data Science
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Data Science
Вопрос или проблема Предположим, что у нас есть n наблюдений и p предикторов, и у нас ситуация n>>p. Все предикторы бинарные. Каково максимальное количество листовых узлов, которое мы можем иметь в дереве? И каково максимальное количество внутренних узлов?