random-forest
Data Science
Вопрос или проблема Я работаю с матрицей, которая имеет 500 строк и 5000 столбцов. Я думаю о том, чтобы обучить модель случайного леса, однако я сомневаюсь, достаточно ли данных для обучения такой модели. Можете ли вы поделиться своим мнением?
Data Science
Вопрос или проблема Есть ли способ увидеть ошибку вне выборки в Orange? Виджет Тест и Оценка только сообщает среднеквадратичную ошибку, корень среднеквадратичной ошибки, среднюю абсолютную ошибку, коэффициент детерминации и среднеквадратичное отклонение.
Data Science
Вопрос или проблема У меня есть задача предсказания с многими классами но 300 классов несбалансированы должен ли я сбалансировать все 300 классов, чтобы получить лучший результат? существует ли более простой способ решить эту задачу?
Data Science
Вопрос или проблема Я обучил свою модель с помощью RandomForestRegressor(), но теперь мои данные для обучения обновляются постоянно. Так что мне нужно обучить свою модель на всем наборе данных для обучения, то есть на старых и новых данных, или я могу
Data Science
Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?
Data Science
Вопрос или проблема Я работаю с очень несбалансированным набором данных, я использовал SMOTEENN (SMOTE+ENN) для балансировки, следующий тест был проведён с использованием Random Forest Classifier : Мои результаты на обучающей и тестовой выборках до использования
Data Science
Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “
Data Science
Вопрос или проблема Для проекта я пытаюсь предсказать утечки в сети. Сеть состоит из узлов, соединённых ссылками. У меня есть несколько “сценариев”, в каждом из которых утечка присутствует на другом узле (также возможно, что утечки нет).
Data Science
Вопрос или проблема Заголовок в значительной степени охватывает мой вопрос, но чтобы подробнее его объяснить: учитывая данные (предположим, для простоты, что это достаточно хорошее представление подлежащего распределения) для задачи бинарной классификации
Data Science
Вопрос или проблема Я работал над проектом по обнаружению фишинга в качестве учебного упражнения. После очистки данных, создания новых признаков, масштабирования не бинарных и обучения модели случайного леса, я достиг F1-метрики 0.
Data Science
Вопрос или проблема Я предсказываю исход болезни, используя биологические данные (метаболиты плюс ковариаты: возраст, пол и ИМТ). Исход является бинарной переменной и умеренно несбалансирован (~12% положительных случаев). У меня относительно большое число
Data Science
Вопрос или проблема 🎗 Название Проекта Space Vet: Ветеринарные услуги и уход за виртуальными питомцами с использованием ИИ 🔗 Область Интересов (AOI), Домен, Фокус Исследования (RF), Кейсовое Исследование (CS) AOI: Аналитика Данных/Текстов (Искусственный
Data Science
Вопрос или проблема У меня есть несколько сотен категорий, каждая из которых имеет конкретный набор атрибутов с различными значениями (историческими). Проблема, которую мне нужно решить, заключается в том, чтобы выбрать лучший набор категорий из меньшей
Data Science
Вопрос или проблема У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи
Data Science
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Вопрос или проблема Я работаю с несбалансированным набором данных для предсказания инсультов, где положительный класс (возникновение инсульта) значительно недопредставлен. Сначала я использовал логистическую регрессию, но из-за несбалансированности классов
Data Science
Вопрос или проблема У меня есть N временных векторных признаков, полученных путём записи различных параметров с течением времени. Это приводит к матрице схожести размера N*N, которая содержит значения корреляции один к одному для каждого признака.
Data Science
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Вопрос или проблема В настоящее время я читаю эту статью о изоляционных лесах. В разделе о функции счета они упоминают следующее. Для справки, $h(x)$ определяется как длина пути точки данных, проходящей через iTree, а $n$ — это размер выборки, используемый для роста iTree.