random-forest
Data Science
Вопрос или проблема Я построил модель классификации с использованием случайного леса на Python, которая работает очень хорошо. Однако для реализации я хочу построить её с нуля на SQL. Есть ли у модели классификации случайного леса коэффициенты?
Data Science
Вопрос или проблема Кто-нибудь знает, есть ли модель смешанных эффектов случайного леса для Python на Windows? Пакет merf https://anaconda.org/search?q=merf+ кажется, доступен только в среде Linux? Спасибо! Я пытался установить “
Data Science
Вопрос или проблема Я использую 3 признака (x1, x2, x3) для регрессии. Некоторые из моих признаков являются непрерывными, а некоторые – категориальными. Моя зависимая переменная – это количество бронирований. И я могу предсказать количество бронирований.
Data Science
Вопрос или проблема У меня есть регрессионный случайный лес, который нацелен на непрерывную переменную (сумма продаж). Есть ли какая-либо конфигурация для классификатора, которая позволяет установить максимум и минимум для целевой переменной?
Data Science
Вопрос или проблема Могут ли лаговые признаки быть применены к тестовым данным без меток? Я об этом задумывался. Я пытался построить модель случайного леса, используя набор данных: обучающие данные (с меткой Y) и тестовые данные (без метки Y).
Data Science
Вопрос или проблема Кратко: Вы можете предсказать что-то, но как объяснить предсказание? Редактирование: Я создал веб-сайт, который пытается ответить на этот вопрос с помощью внедрения / визуальной кластеризации данных в соответствии с путями, которые
Data Science
Вопрос или проблема Я создал гистограмму, а также QQ-график остатков моей регрессионной модели: Среднее: 0.35 Стандартное отклонение: 18.14 Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены? И что еще я могу вывести из этих графиков?
Data Science
Вопрос или проблема Мой набор данных содержит около 29 признаков с 3 метками классов в качестве результата. Среди этих 29 признаков около 24 признаков являются категориальными, я не могу преобразовать каждую категорию в числа, так как в некоторых признаках их более 30.
Data Science
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Вопросы и ответы
Вопрос или проблема Я пытаюсь рассчитать значения SHAP для моих данных в модели RandomForest. Проблема в том, что мои данные – это временной ряд, и мне нужно получить среднее значение для всех значений SHAP в этих интервалах и нормализовать их.
Data Science
Вопрос или проблема В случайном лесу Scikit-learn вы можете установить bootstrap=True, и каждое дерево выберет подмножество образцов для обучения. Есть ли способ увидеть, какие образцы используются в каждом дереве? Я ознакомился с документацией о деревьях-оценках
Data Science
Вопрос или проблема У меня есть данные о машине, которая включает в себя различные компоненты. Все детали взаимодействуют, данные отслеживаются для этих частей, учитывается потребление энергии и множество других измерений, связанных с их характеристиками.
Data Science
Вопрос или проблема Прямой вопрос: Какие альтернативные методы существуют для прогнозирования категориальных данных? Детали: Я регулярно обрабатываю данные, которые на 100% категориальные. Почти всегда это номинальные данные (хотя иногда могут включаться
Data Science
Вопрос или проблема Я создал биологический набор данных, который состоит из микробных данных с 15 географически близких местоположений, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных. Для этого я пытаюсь предсказать присутствие
Data Science
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Вопрос или проблема Перед тем как описать свою проблему, я объясню свою выборку данных. Я создал биологическую базу данных, состоящую из микробных данных с 15 географически близких мест, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных.
Вопросы и ответы
Вопрос или проблема В пакете ranger для R нечистота узла измеряется с помощью индекса Джини для деревьев классификации. Я ожидаю, что индекс Джини будет находиться в диапазоне от 0 до 1, так как $$ Gini = 1-\sum_{i=1}^C p_i^2$$, где $p_i$ — это доля образцов
Вопросы и ответы
Вопрос или проблема Я работаю над анализом кредитных рисков. Я хочу предсказать риск каждой компании, развивающей долг с вымышленной компанией. Я получил важность признаков от модели, но я хочу узнать, возможно ли определить, какие индикаторы влияют на
Data Science
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Вопрос или проблема Насколько я видел, мнения по этому вопросу сильно различаются. Наилучшей практикой было бы использовать кросс-валидацию (особенно если сравнивать случайные леса с другими алгоритмами на одном и том же наборе данных).