Data Science
Распределение остатков регрессии: Это нормальное распределение?
00
Вопрос или проблема Я создал гистограмму, а также QQ-график остатков моей регрессионной модели: Среднее: 0.35 Стандартное отклонение: 18.14 Судя по этим графикам, можно ли сказать, что мои остатки нормально распределены? И что еще я могу вывести из этих графиков?
Data Science
Как делать предсказания по данным, закодированным метками, если конечный пользователь будет вводить категориальные данные?
00
Вопрос или проблема Мой набор данных содержит около 29 признаков с 3 метками классов в качестве результата. Среди этих 29 признаков около 24 признаков являются категориальными, я не могу преобразовать каждую категорию в числа, так как в некоторых признаках их более 30.
Data Science
После использования модели дерева решений на обучающем наборе данных был сгенерирован только один узел.
00
Вопрос или проблема Я пытаюсь построить модель дерева решений для прогнозирования исходной переменной (названной: Результаты) на основе предиктора. Действительно, я применил однократное кодирование к некоторым переменным с “
Вопросы и ответы
Имена колонок в SHAP и Среднее в numpy
00
Вопрос или проблема Я пытаюсь рассчитать значения SHAP для моих данных в модели RandomForest. Проблема в том, что мои данные – это временной ряд, и мне нужно получить среднее значение для всех значений SHAP в этих интервалах и нормализовать их.
Data Science
Список образцов, на которых обучается каждое дерево в случайном лесу в Scikit-Learn
00
Вопрос или проблема В случайном лесу Scikit-learn вы можете установить bootstrap=True, и каждое дерево выберет подмножество образцов для обучения. Есть ли способ увидеть, какие образцы используются в каждом дереве? Я ознакомился с документацией о деревьях-оценках
Data Science
Работа с несколькими экземплярами конкретной целевой функции в большом наборе данных.
00
Вопрос или проблема У меня есть данные о машине, которая включает в себя различные компоненты. Все детали взаимодействуют, данные отслеживаются для этих частей, учитывается потребление энергии и множество других измерений, связанных с их характеристиками.
Data Science
Альтернативы для категориального предсказания
00
Вопрос или проблема Прямой вопрос: Какие альтернативные методы существуют для прогнозирования категориальных данных? Детали: Я регулярно обрабатываю данные, которые на 100% категориальные. Почти всегда это номинальные данные (хотя иногда могут включаться
Data Science
Какую модель выбрать для прогнозирования присутствия-отсутствия в будущих временных точках?
00
Вопрос или проблема Я создал биологический набор данных, который состоит из микробных данных с 15 географически близких местоположений, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных. Для этого я пытаюсь предсказать присутствие
Data Science
У меня 100% точность на тестовом наборе, неужели что-то не так?
00
Вопрос или проблема Я получил 100% точности на своем тестовом наборе, используя алгоритм дерева решений, но только 85% точности с использованием случайного леса. Есть ли что-то не так с моей моделью или дерево решений наиболее подходит для предоставленного набора данных?
Data Science
Проблема классификации с временными запаздываниями – какую модель выбрать для предсказания присутствия-отсутствия в будущих временных точках
00
Вопрос или проблема Перед тем как описать свою проблему, я объясню свою выборку данных. Я создал биологическую базу данных, состоящую из микробных данных с 15 географически близких мест, и для каждого из них у меня есть 100 временных точек, всего 1500 точек данных.
Вопросы и ответы
Почему статистика разбивки в пакете ranger для R больше 1?
00
Вопрос или проблема В пакете ranger для R нечистота узла измеряется с помощью индекса Джини для деревьев классификации. Я ожидаю, что индекс Джини будет находиться в диапазоне от 0 до 1, так как $$ Gini = 1-\sum_{i=1}^C p_i^2$$, где $p_i$ — это доля образцов
Вопросы и ответы
Можно ли получить важность признаков для каждой предсказанной строки?
00
Вопрос или проблема Я работаю над анализом кредитных рисков. Я хочу предсказать риск каждой компании, развивающей долг с вымышленной компанией. Я получил важность признаков от модели, но я хочу узнать, возможно ли определить, какие индикаторы влияют на
Data Science
Автоматизированный выбор признаков – Лучшие практики для предотвращения утечки данных?
00
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Требуется ли кросс-валидация при моделировании с помощью случайных лесов?
00
Вопрос или проблема Насколько я видел, мнения по этому вопросу сильно различаются. Наилучшей практикой было бы использовать кросс-валидацию (особенно если сравнивать случайные леса с другими алгоритмами на одном и том же наборе данных).
Data Science
Как интерпретировать важность модели случайного леса, среднее уменьшение точности и среднее уменьшение Джини?
00
Вопрос или проблема Модель случайного леса выводит следующие значения важности. Как мне их интерпретировать для выбора признаков? Если это среднее снижение точности, означает ли это, что удаление этих признаков из модели должно увеличить точность?
Вопросы и ответы
Что означает ys_fit для sklearn.ensemble.RandomForestClassifier()?
00
Вопрос или проблема Случайный лес — это модель ИИ. В этом коде я пытаюсь использовать его для классификации химических веществ. Однако при настройке случайного леса я заметил странную переменную ys_fit. Я пытался поискать в интернете, но не нашел результатов.
Data Science
Почему мой классификатор случайного леса предсказывает один класс чаще остальных?
00
Вопрос или проблема У меня есть классификатор случайного леса, который предсказывает класс 0 примерно в два раза чаще, чем класс 1. Он также предсказывает класс 0 с более высокой вероятностью, чем класс 1. Это не несбалансированный набор данных.
Data Science
Расчет метрики важности в случайном лесе: Почему бы нам не удалить переменную, вместо того чтобы перетасовывать её значения?
00
Вопрос или проблема Метрика важности в случайных лесах – это способ определения значимости предикторной переменной в модели. Она делает это, случайным образом перемешивая значения одной предикторной переменной за раз и наблюдая, как это влияет на
Data Science
Как создать классификатор на основе данных с сенсоров?
00
Вопрос или проблема Я работаю над локализацией в помещении на основе магнитометра. У меня есть 9 отдельных наборов временных рядов с показаниями датчиков, взятыми с координат 00, 01, 02, 10, 11 и так далее до 22. В основном я использую свою собственную
Data Science
Насколько важен поиск с предвосхищением в деревьях решений?
00
Вопрос или проблема Я использую случайные леса, и в моих данных существует много ситуаций, когда $X_1$ является плохим предиктором, $X_2$ является плохим предиктором, но совместное распределение может быть хорошим предиктором.