decision-trees
Data Science
Вопрос или проблема Когда я читал руководство пользователя scikit-learn о деревьях решений, они упомянули, что CART (деревья классификации и регрессии) очень похож на C4.5, но отличается тем, что поддерживает числовые целевые переменные (регрессию) и
Data Science
Вопрос или проблема Я занимаюсь проектом по генерации текста — задача заключается в том, чтобы представить статистические данные в читаемом виде. Я решил подойти к этому на основе шаблонов: для каждого типа данных есть шаблон того, как должно быть сформировано
Data Science
Вопрос или проблема Извините за длинную историю, но это длинная история. 🙂 Я использую библиотеку h2o для Python, чтобы построить дерево решений и извлечь из него правила решений. Я использую некоторые данные для обучения, где метки получают значения TRUE и FALSE.
Data Science
Вопрос или проблема У меня есть вопрос относительно техники/технологии, которую можно применить для этой задачи: Предположим, у меня есть правило-базированное дерево или дерево решений, которое предсказывает переменную Y на основе переменных A, B, C.
Data Science
Вопрос или проблема У меня есть задача предсказать бинарную переменную purchase, их датасет сильно несбалансирован (10:100), и модели, которые я пробовал до сих пор (в основном ансамблевые), не справляются. Кроме того, я также пытался применить SMOTE
Data Science
Вопрос или проблема Я настраиваю гиперпараметры дерева решений для набора данных из 550 образцов. Так как я относительно новичок в настройке гиперпараметров (я учусь и реализую это), я запутался, какие значения установить для гиперпараметров, таких как
Data Science
Вопрос или проблема В статье “Справедливые Леса: Регуляризированное Породение Деревьев для Минимизации Модели Отклонения” написано, что Мы предлагаем простой подход регуляризации для построения алгоритма индукции справедливого решения дерева.
Data Science
Вопрос или проблема Предположим, у меня есть пространство экземпляров с 4 признаками, и я знаю, что дерево решений с 8 узлами может представлять целевую функцию, которую я хочу изучить. Я хочу установить верхнюю границу на размер выборки, необходимой
Data Science
Вопрос или проблема Предположим, что есть 2000 фильмов, и компания хочет рекомендовать некоторые фильмы (например, максимум 5 фильмов) каждому посетителю. Цель состоит в том, чтобы научиться предсказывать, какой фильм будет выбран, если предложен определенный набор фильмов.
Data Science
Вопрос или проблема Я пытаюсь построить алгоритм дерева решений, но, кажется, неправильно истолковал, как работает прирост информации. Допустим, у нас есть сбалансированная задача классификации. Тогда начальная энтропия должна равняться 1.
Data Science
Вопрос или проблема В дереве решений показатель Джини[1] является метрикой для оценки того, насколько узел содержит различные классы. Он измеряет вероятность ошибочного определения класса, выбирая его случайным образом, используя распределение из этого
Data Science
Вопрос или проблема В классификаторе на основе дерева решений большинство алгоритмов используют Прибыль информации в качестве критерия разбиения. Мы выбираем признак с максимальной прибылью информации для разбиения. Я думаю, что использование точности
Data Science
Вопрос или проблема Использует ли обычный случайный лес H2O CART, C4.5, 5.0 или что-то другое? Я не могу найти эту информацию. Документация sklearn говорит, что они используют модифицированную версию CART, и я предполагаю, что H2O также использует что-то подобное CART.
Data Science
Вопрос или проблема Я обучил свою модель с помощью RandomForestRegressor(), но теперь мои данные для обучения обновляются постоянно. Так что мне нужно обучить свою модель на всем наборе данных для обучения, то есть на старых и новых данных, или я могу
Data Science
Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?
Data Science
Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “
Data Science
Вопрос или проблема В следующем наборе данных, если мы хотим включить только две переменные, STORE и PctDiscMM, в модель классификационного дерева, какое возможное количество первых разбиений? library(islr) data(OJ) length(unique(OJ$PctDiscMM)) length(unique(OJ$
Data Science
Вопрос или проблема Я застрял на том, как я могу получить самые зависимые переменные, основываясь на среднем У меня есть этот параметр, и когда я пытаюсь: df.groupby('left').mean() Это дает следующий вывод: И один из моих друзей сказал, что из этого графика
Data Science
Вопрос или проблема Признаки и целевая переменная в моем наборе данных сильно искажены. Мог ли кто-то объяснить, почему преобразование признаков и целевой переменной (я использую преобразование Йео-Джонсона) значительно улучшает производительность моей
Data Science
Вопрос или проблема Я довольно нов в области Data Science и изучаю вещи на практике на работе. Я аналитик по мошенничеству, и моя работа заключается в том, чтобы предсказать, является ли заявление мошенническим или нет, исходя из данных.