Data Science
Деревья решений – C4.5 против CART – наборы правил
00
Вопрос или проблема Когда я читал руководство пользователя scikit-learn о деревьях решений, они упомянули, что CART (деревья классификации и регрессии) очень похож на C4.5, но отличается тем, что поддерживает числовые целевые переменные (регрессию) и
Data Science
Выбор правильного алгоритма для генерации текстов на основе шаблонов
00
Вопрос или проблема Я занимаюсь проектом по генерации текста — задача заключается в том, чтобы представить статистические данные в читаемом виде. Я решил подойти к этому на основе шаблонов: для каждого типа данных есть шаблон того, как должно быть сформировано
Data Science
Как извлечь разделение выборки (значения) листьев дерева решений (конечных узлов), используя библиотеку h2o
00
Вопрос или проблема Извините за длинную историю, но это длинная история. 🙂 Я использую библиотеку h2o для Python, чтобы построить дерево решений и извлечь из него правила решений. Я использую некоторые данные для обучения, где метки получают значения TRUE и FALSE.
Data Science
Оптимизация дерева решений
00
Вопрос или проблема У меня есть вопрос относительно техники/технологии, которую можно применить для этой задачи: Предположим, у меня есть правило-базированное дерево или дерево решений, которое предсказывает переменную Y на основе переменных A, B, C.
Data Science
Уделите больше внимания признакам, основываясь на графике распределения.
00
Вопрос или проблема У меня есть задача предсказать бинарную переменную purchase, их датасет сильно несбалансирован (10:100), и модели, которые я пробовал до сих пор (в основном ансамблевые), не справляются. Кроме того, я также пытался применить SMOTE
Data Science
Если min_sample_leaf больше, чем min_sample_split в дереве решений, будет ли это проблемой?
00
Вопрос или проблема Я настраиваю гиперпараметры дерева решений для набора данных из 550 образцов. Так как я относительно новичок в настройке гиперпараметров (я учусь и реализую это), я запутался, какие значения установить для гиперпараметров, таких как
Data Science
Обозначение $splits(label)$ в методе случайного леса
00
Вопрос или проблема В статье “Справедливые Леса: Регуляризированное Породение Деревьев для Минимизации Модели Отклонения” написано, что Мы предлагаем простой подход регуляризации для построения алгоритма индукции справедливого решения дерева.
Data Science
Верхняя граница размера выборки для деревьев решений
00
Вопрос или проблема Предположим, у меня есть пространство экземпляров с 4 признаками, и я знаю, что дерево решений с 8 узлами может представлять целевую функцию, которую я хочу изучить. Я хочу установить верхнюю границу на размер выборки, необходимой
Data Science
Как смоделировать систему рекомендателей с учителем с изменяющимися данными
00
Вопрос или проблема Предположим, что есть 2000 фильмов, и компания хочет рекомендовать некоторые фильмы (например, максимум 5 фильмов) каждому посетителю. Цель состоит в том, чтобы научиться предсказывать, какой фильм будет выбран, если предложен определенный набор фильмов.
Data Science
Индукция деревьев принятия решений с использованием информационного прироста и энтропии
00
Вопрос или проблема Я пытаюсь построить алгоритм дерева решений, но, кажется, неправильно истолковал, как работает прирост информации. Допустим, у нас есть сбалансированная задача классификации. Тогда начальная энтропия должна равняться 1.
Data Science
Импурия Джини в дереве решений (причины для использования)
00
Вопрос или проблема В дереве решений показатель Джини[1] является метрикой для оценки того, насколько узел содержит различные классы. Он измеряет вероятность ошибочного определения класса, выбирая его случайным образом, используя распределение из этого
Data Science
Почему мы используем информационный прирост вместо точности в качестве критерия разделения в решающем дереве?
00
Вопрос или проблема В классификаторе на основе дерева решений большинство алгоритмов используют Прибыль информации в качестве критерия разбиения. Мы выбираем признак с максимальной прибылью информации для разбиения. Я думаю, что использование точности
Data Science
Какой алгоритм дерева решений использует H2O?
00
Вопрос или проблема Использует ли обычный случайный лес H2O CART, C4.5, 5.0 или что-то другое? Я не могу найти эту информацию. Документация sklearn говорит, что они используют модифицированную версию CART, и я предполагаю, что H2O также использует что-то подобное CART.
Data Science
Перетренировка модели
00
Вопрос или проблема Я обучил свою модель с помощью RandomForestRegressor(), но теперь мои данные для обучения обновляются постоянно. Так что мне нужно обучить свою модель на всем наборе данных для обучения, то есть на старых и новых данных, или я могу
Data Science
отдельное дерево решений для категориальных значений признаков
00
Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?
Data Science
Как LGBM делает предсказание?
00
Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “
Data Science
Как вычислить возможное количество разбиений в дереве решений?
00
Вопрос или проблема В следующем наборе данных, если мы хотим включить только две переменные, STORE и PctDiscMM, в модель классификационного дерева, какое возможное количество первых разбиений? library(islr) data(OJ) length(unique(OJ$PctDiscMM)) length(unique(OJ$
Data Science
Как найти зависимые переменные в наборе данных?
00
Вопрос или проблема Я застрял на том, как я могу получить самые зависимые переменные, основываясь на среднем У меня есть этот параметр, и когда я пытаюсь: df.groupby('left').mean() Это дает следующий вывод: И один из моих друзей сказал, что из этого графика
Data Science
Почему трансформация моих признаков может улучшить производительность простой решающей дерева?
00
Вопрос или проблема Признаки и целевая переменная в моем наборе данных сильно искажены. Мог ли кто-то объяснить, почему преобразование признаков и целевой переменной (я использую преобразование Йео-Джонсона) значительно улучшает производительность моей
Data Science
Как создать классификационные деревья решений на наборе данных, содержащем как числовые, так и категориальные переменные?
00
Вопрос или проблема Я довольно нов в области Data Science и изучаю вещи на практике на работе. Я аналитик по мошенничеству, и моя работа заключается в том, чтобы предсказать, является ли заявление мошенническим или нет, исходя из данных.