Data Science
Классификация методом случайного леса с нуля
00
Вопрос или проблема Я построил модель классификации с использованием случайного леса на Python, которая работает очень хорошо. Однако для реализации я хочу построить её с нуля на SQL. Есть ли у модели классификации случайного леса коэффициенты?
Data Science
Смешанная модель случайного леса с эффектами для Python Windows
00
Вопрос или проблема Кто-нибудь знает, есть ли модель смешанных эффектов случайного леса для Python на Windows? Пакет merf https://anaconda.org/search?q=merf+ кажется, доступен только в среде Linux? Спасибо! Я пытался установить “
Data Science
Вычислите функцию ранга из регрессионных признаков.
00
Вопрос или проблема Я использую 3 признака (x1, x2, x3) для регрессии. Некоторые из моих признаков являются непрерывными, а некоторые – категориальными. Моя зависимая переменная – это количество бронирований. И я могу предсказать количество бронирований.
Data Science
Случайный лес Цель/предсказание максимум минимум
00
Вопрос или проблема У меня есть регрессионный случайный лес, который нацелен на непрерывную переменную (сумма продаж). Есть ли какая-либо конфигурация для классификатора, которая позволяет установить максимум и минимум для целевой переменной?
Data Science
Можно ли применять лаг-функции к тестовым данным без меток?
00
Вопрос или проблема Могут ли лаговые признаки быть применены к тестовым данным без меток? Я об этом задумывался. Я пытался построить модель случайного леса, используя набор данных: обучающие данные (с меткой Y) и тестовые данные (без метки Y).
Data Science
Иллюстрация уменьшения размерности, выполненного моделью классификации или регрессии.
00
Вопрос или проблема Кратко: Вы можете предсказать что-то, но как объяснить предсказание? Редактирование: Я создал веб-сайт, который пытается ответить на этот вопрос с помощью внедрения / визуальной кластеризации данных в соответствии с путями, которые
Data Science
Распределение остатков регрессии: Это нормальное распределение?
00
Вопрос или проблема Я создал гистограмму, а также QQ-график остатков моей регрессионной модели: Среднее: 0.35 Стандартное отклонение: 18.14 Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены? И что еще я могу вывести из этих графиков?
Data Science
Как делать предсказания по данным, закодированным метками, если конечный пользователь будет вводить категориальные данные?
00
Вопрос или проблема Мой набор данных содержит около 29 признаков с 3 метками классов в качестве результата. Среди этих 29 признаков около 24 признаков являются категориальными, я не могу преобразовать каждую категорию в числа, так как в некоторых признаках их более 30.
Data Science
После использования модели дерева решений на обучающем наборе данных был сгенерирован только один узел.
00
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Вопросы и ответы
Имена колонок в SHAP и Среднее в numpy
00
Вопрос или проблема Я пытаюсь рассчитать значения SHAP для моих данных в модели RandomForest. Проблема в том, что мои данные – это временной ряд, и мне нужно получить среднее значение для всех значений SHAP в этих интервалах и нормализовать их.
Data Science
Список образцов, на которых обучается каждое дерево в случайном лесу в Scikit-Learn
00
Вопрос или проблема В случайном лесу Scikit-learn вы можете установить bootstrap=True, и каждое дерево выберет подмножество образцов для обучения. Есть ли способ увидеть, какие образцы используются в каждом дереве? Я ознакомился с документацией о деревьях-оценках
Data Science
Работа с несколькими экземплярами конкретной целевой функции в большом наборе данных.
00
Вопрос или проблема У меня есть данные о машине, которая включает в себя различные компоненты. Все детали взаимодействуют, данные отслеживаются для этих частей, учитывается потребление энергии и множество других измерений, связанных с их характеристиками.
Data Science
Альтернативы для категориального предсказания
00
Вопрос или проблема Прямой вопрос: Какие альтернативные методы существуют для прогнозирования категориальных данных? Детали: Я регулярно обрабатываю данные, которые на 100% категориальные. Почти всегда это номинальные данные (хотя иногда могут включаться
Data Science
Какую модель выбрать для прогнозирования присутствия-отсутствия в будущих временных точках?
00
Вопрос или проблема Я создал биологический набор данных, который состоит из микробных данных с 15 географически близких местоположений, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных. Для этого я пытаюсь предсказать присутствие
Data Science
У меня 100% точность на тестовом наборе, неужели что-то не так?
00
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Проблема классификации с временными запаздываниями – какую модель выбрать для предсказания присутствия-отсутствия в будущих временных точках
00
Вопрос или проблема Перед тем как описать свою проблему, я объясню свою выборку данных. Я создал биологическую базу данных, состоящую из микробных данных с 15 географически близких мест, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных.
Вопросы и ответы
Почему статистика разбивки в пакете ranger для R больше 1?
00
Вопрос или проблема В пакете ranger для R нечистота узла измеряется с помощью индекса Джини для деревьев классификации. Я ожидаю, что индекс Джини будет находиться в диапазоне от 0 до 1, так как $$ Gini = 1-\sum_{i=1}^C p_i^2$$, где $p_i$ — это доля образцов
Вопросы и ответы
Можно ли получить важность признаков для каждой предсказанной строки?
00
Вопрос или проблема Я работаю над анализом кредитных рисков. Я хочу предсказать риск каждой компании, развивающей долг с вымышленной компанией. Я получил важность признаков от модели, но я хочу узнать, возможно ли определить, какие индикаторы влияют на
Data Science
Автоматизированный выбор признаков – Лучшие практики для предотвращения утечки данных?
00
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Требуется ли кросс-валидация при моделировании с помощью случайных лесов?
00
Вопрос или проблема Насколько я видел, мнения по этому вопросу сильно различаются. Наилучшей практикой было бы использовать кросс-валидацию (особенно если сравнивать случайные леса с другими алгоритмами на одном и том же наборе данных).