Data Science
Как декодировать закодированные метки в классификаторе деревьев решений
00
Вопрос или проблема У меня есть набор данных с закупками организации, в которой я работаю. Цель состоит в том, чтобы найти наиболее важные характеристики, которые объясняют, почему некоторые процессы закупок успешны, а другие –
Data Science
Как избежать ошибки памяти при вызове метода Pandas pd.read_csv в сочетании с использованием GridSearchCV для модели DecisionTreeRegressor?
00
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Data Science
Я сталкиваюсь с ошибкой: объект DecisionTreeRegressor не имеет атрибута n_features.
00
Вопрос или проблема Трассировка (самый последний вызов последним): Файл "/usr/local/lib/python3.8/dist-packages/flask/app.py", строка 2073, в wsgi_app ответ = self.full_dispatch_request() Файл "/usr/local/lib/python3.8/dist-packages/flask/app.
Data Science
Почему мои модели имеют довольно высокую точность с небольшим обучающим набором данных?
00
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Объедините одну метку с одной информацией для задачи классификации или многометочной классификации.
00
Вопрос или проблема Я хочу создать модель для поддержки принятия решений, чтобы предложить или не предложить клиентам страхование кредита. Потому что иногда клиенты, запрашивающие кредит и страхование кредита, имеют меньшую вероятность получить одобрение
Data Science
SKLearn decisionTreeClassifier не обрабатывает разряженные правила в качестве входных данных.
00
Вопрос или проблема Существует ли способ обучения decisionTreeClassifier в SKLearn на разреженных кортежах? Данные, которые у меня есть, основаны примерно на 100 характеристиках, но только несколько из них используются для принятия решения.
Data Science
SKLearn decisionTreeClassifier не обрабатывает разреженные или категориальные данные.
00
Вопрос или проблема Существует ли способ в фите decisionTreeClassifier в SKLearn для разреженных кортежей? Данные, которые я имею, основаны на примерно 100 признаках, но лишь некоторые из них используются для принятия решения.
Data Science
Теория функции оценки изолированного леса
00
Вопрос или проблема В настоящее время я читаю эту статью о изоляционных лесах. В разделе о функции счета они упоминают следующее. Для справки, $h(x)$ определяется как длина пути точки данных, проходящей через iTree, а $n$ — это размер выборки, используемый для роста iTree.
Data Science
Какие модели неявно учитывают взаимодействие между признаками?
00
Вопрос или проблема Я хотел бы лучше понять, как разные модели (в частности, нейронные сети и случайные леса, но и любые другие) учитывают взаимодействие между признаками в табличных данных? Например, может ли модель в ходе обучения понять, что “
Data Science
Rapidminer и веса деревьев решений
00
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Как мы можем сократить нашу анкету, чтобы задавать только самые информативные вопросы в каждом пункте?
00
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Почему rpart не делит эти данные, даже когда есть прирост в Джини?
00
Вопрос или проблема df <- tibble(x1=factor(c("S1", "S1", "S2", "S2")), y=factor(c(1, 1, 0, 1))) md <- rpart(formula=y~., data=df, method="class", control=rpart.control(minsplit=2, cp=0)) nrow(md$frame) #выводит 1 Рассмотрим разделение левая дочерняя
Data Science
Дерево решений из опыта эксперта
00
Вопрос или проблема Я ищу деревья решений, созданные экспертами в своей области на основе их опыта. Насколько я знаю, медицинские работники располагают эмпирическим деревом решений для диагностики, я хотел бы узнать, существует ли в других областях, таких
Data Science
Как решить, кого продвигать? Кластеризация или дерево решений?
00
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя
Data Science
Есть ли реализация алгоритма Расширенного изолированного леса в R/Python?
00
Вопрос или проблема Я использую пакет isofor для обычного Isolation Forest, но наткнулся на статью о Расширенном Isolation Forest и мне нужен ваш совет, какой пакет имеет эту функцию, реализованную в R/Python. Есть пакет на Github под названием “
Data Science
Низкая точность на тестовом наборе
00
Вопрос или проблема У меня есть набор данных с 16 признаками и 32 метками классов, который демонстрирует следующее поведение: Классификация нейронной сетью: высокая точность на обучающих данных 100%, но низкая точность на тестовом наборе 3% (почти как
Data Science
Исправить первые два уровня дерева решений?
00
Вопрос или проблема Я пытаюсь построить регрессионное дерево с 70 атрибутами, где бизнес-команда хочет зафиксировать первые два уровня, а именно страна и тип продукта. Для достижения этой цели у меня есть два предложения: Построить отдельное дерево для
Data Science
Классификация коротких строк текста с дополнительным контекстом
00
Вопрос или проблема У меня есть список коротких строк, каждая из которых определяет город. Орфографические ошибки очень распространены. Пример ниже показывает некоторые из этих коротких строк и правильный город, которому они должны соответствовать.
Data Science
После использования модели дерева решений на обучающем наборе данных был сгенерирован только один узел.
00
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Data Science
Какое максимальное количество листовых узлов в дереве решений для классификации?
00
Вопрос или проблема Предположим, что у нас есть n наблюдений и p предикторов, и у нас ситуация n>>p. Все предикторы бинарные. Каково максимальное количество листовых узлов, которое мы можем иметь в дереве? И каково максимальное количество внутренних узлов?