random-forest
Data Science
Вопрос или проблема Я создал гистограмму, а также QQ-график остатков моей регрессионной модели: Среднее: 0.35 Стандартное отклонение: 18.14 Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены? И что еще я могу вывести из этих графиков?
Data Science
Вопрос или проблема Мой набор данных содержит около 29 признаков с 3 метками классов в качестве результата. Среди этих 29 признаков около 24 признаков являются категориальными, я не могу преобразовать каждую категорию в числа, так как в некоторых признаках их более 30.
Data Science
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Вопросы и ответы
Вопрос или проблема Я пытаюсь рассчитать значения SHAP для моих данных в модели RandomForest. Проблема в том, что мои данные – это временной ряд, и мне нужно получить среднее значение для всех значений SHAP в этих интервалах и нормализовать их.
Data Science
Вопрос или проблема В случайном лесу Scikit-learn вы можете установить bootstrap=True, и каждое дерево выберет подмножество образцов для обучения. Есть ли способ увидеть, какие образцы используются в каждом дереве? Я ознакомился с документацией о деревьях-оценках
Data Science
Вопрос или проблема У меня есть данные о машине, которая включает в себя различные компоненты. Все детали взаимодействуют, данные отслеживаются для этих частей, учитывается потребление энергии и множество других измерений, связанных с их характеристиками.
Data Science
Вопрос или проблема Прямой вопрос: Какие альтернативные методы существуют для прогнозирования категориальных данных? Детали: Я регулярно обрабатываю данные, которые на 100% категориальные. Почти всегда это номинальные данные (хотя иногда могут включаться
Data Science
Вопрос или проблема Я создал биологический набор данных, который состоит из микробных данных с 15 географически близких местоположений, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных. Для этого я пытаюсь предсказать присутствие
Data Science
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Вопрос или проблема Перед тем как описать свою проблему, я объясню свою выборку данных. Я создал биологическую базу данных, состоящую из микробных данных с 15 географически близких мест, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных.
Вопросы и ответы
Вопрос или проблема В пакете ranger для R нечистота узла измеряется с помощью индекса Джини для деревьев классификации. Я ожидаю, что индекс Джини будет находиться в диапазоне от 0 до 1, так как $$ Gini = 1-\sum_{i=1}^C p_i^2$$, где $p_i$ — это доля образцов
Вопросы и ответы
Вопрос или проблема Я работаю над анализом кредитных рисков. Я хочу предсказать риск каждой компании, развивающей долг с вымышленной компанией. Я получил важность признаков от модели, но я хочу узнать, возможно ли определить, какие индикаторы влияют на
Data Science
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Вопрос или проблема Насколько я видел, мнения по этому вопросу сильно различаются. Наилучшей практикой было бы использовать кросс-валидацию (особенно если сравнивать случайные леса с другими алгоритмами на одном и том же наборе данных).
Data Science
Вопрос или проблема Модель случайного леса выводит следующие значения важности. Как мне их интерпретировать для выбора признаков? Если это среднее снижение точности, означает ли это, что удаление этих признаков из модели должно увеличить точность?
Вопросы и ответы
Вопрос или проблема Случайный лес — это модель ИИ. В этом коде я пытаюсь использовать его для классификации химических веществ. Однако при настройке случайного леса я заметил странную переменную ys_fit. Я пытался поискать в интернете, но не нашел результатов.
Data Science
Вопрос или проблема У меня есть классификатор случайного леса, который предсказывает класс 0 примерно в два раза чаще, чем класс 1. Он также предсказывает класс 0 с более высокой вероятностью, чем класс 1. Это не несбалансированный набор данных.
Data Science
Вопрос или проблема Метрика важности в случайных лесах – это способ определения значимости предикторной переменной в модели. Она делает это, случайным образом перемешивая значения одной предикторной переменной за раз и наблюдая, как это влияет на
Data Science
Вопрос или проблема Я работаю над локализацией в помещении на основе магнитометра. У меня есть 9 отдельных наборов временных рядов с показаниями датчиков, взятыми с координат 00, 01, 02, 10, 11 и так далее до 22. В основном я использую свою собственную
Data Science
Вопрос или проблема Я использую случайные леса, и в моих данных существует много ситуаций, когда $X_1$ является плохим предиктором, $X_2$ является плохим предиктором, но совместное распределение может быть хорошим предиктором.