Data Science
Подача матриц размеров 500 x 5000 в модели машинного обучения, достаточно ли этого объема данных?
00
Вопрос или проблема Я работаю с матрицей, которая имеет 500 строк и 5000 столбцов. Я думаю о том, чтобы обучить модель случайного леса, однако я сомневаюсь, достаточно ли данных для обучения такой модели. Можете ли вы поделиться своим мнением?
Data Science
Ошибка вне выборки в Orange
00
Вопрос или проблема Есть ли способ увидеть ошибку вне выборки в Orange? Виджет Тест и Оценка только сообщает среднеквадратичную ошибку, корень среднеквадратичной ошибки, среднюю абсолютную ошибку, коэффициент детерминации и среднеквадратичное отклонение.
Data Science
несбалансированный целевой набор данных (многоклассовый)
00
Вопрос или проблема У меня есть задача предсказания с многими классами но 300 классов несбалансированы должен ли я сбалансировать все 300 классов, чтобы получить лучший результат? существует ли более простой способ решить эту задачу?
Data Science
Перетренировка модели
00
Вопрос или проблема Я обучил свою модель с помощью RandomForestRegressor(), но теперь мои данные для обучения обновляются постоянно. Так что мне нужно обучить свою модель на всем наборе данных для обучения, то есть на старых и новых данных, или я могу
Data Science
отдельное дерево решений для категориальных значений признаков
00
Вопрос или проблема Если использовать разные деревья решений, каждое из которых основано на определённом значении признака (например, отдельные модели для мужчин и женщин), или одно дерево решений, должны ли они давать одинаковый результат?
Data Science
Train score намного ниже, чем Test score, это нормально?
00
Вопрос или проблема Я работаю с очень несбалансированным набором данных, я использовал SMOTEENN (SMOTE+ENN) для балансировки, следующий тест был проведён с использованием Random Forest Classifier : Мои результаты на обучающей и тестовой выборках до использования
Data Science
Как LGBM делает предсказание?
00
Вопрос или проблема В данный момент мы пытаемся разобраться, как LGBM создает свои деревья и как после этого делаются предсказания. На мой нынешний взгляд, это работает следующим образом: Последовательно создаются несколько “
Data Science
Алгоритм бинарной классификации, где входные переменные являются массивами.
00
Вопрос или проблема Для проекта я пытаюсь предсказать утечки в сети. Сеть состоит из узлов, соединённых ссылками. У меня есть несколько “сценариев”, в каждом из которых утечка присутствует на другом узле (также возможно, что утечки нет).
Data Science
Насколько близка или далека информация о важности признаков из модели машинного обучения от каузальных диаграмм?
00
Вопрос или проблема Заголовок в значительной степени охватывает мой вопрос, но чтобы подробнее его объяснить: учитывая данные (предположим, для простоты, что это достаточно хорошее представление подлежащего распределения) для задачи бинарной классификации
Data Science
Очень высокий F1 балл после использования Random Forest на этом наборе данных — это признак переобучения? Как решить эту проблему?
00
Вопрос или проблема Я работал над проектом по обнаружению фишинга в качестве учебного упражнения. После очистки данных, создания новых признаков, масштабирования не бинарных и обучения модели случайного леса, я достиг F1-метрики 0.
Data Science
Случайный лес всегда прогнозирует класс большинства
01
Вопрос или проблема Я предсказываю исход болезни, используя биологические данные (метаболиты плюс ковариаты: возраст, пол и ИМТ). Исход является бинарной переменной и умеренно несбалансирован (~12% положительных случаев). У меня относительно большое число
Data Science
Пожалуйста, прокомментируйте моё предложение для выпускной работы (нужны предложения!!!)
00
Вопрос или проблема 🎗 Название Проекта Space Vet: Ветеринарные услуги и уход за виртуальными питомцами с использованием ИИ 🔗 Область Интересов (AOI), Домен, Фокус Исследования (RF), Кейсовое Исследование (CS) AOI: Аналитика Данных/Текстов (Искусственный
Data Science
Как создать модель для выбора набора категорий с набором атрибутов?
00
Вопрос или проблема У меня есть несколько сотен категорий, каждая из которых имеет конкретный набор атрибутов с различными значениями (историческими). Проблема, которую мне нужно решить, заключается в том, чтобы выбрать лучший набор категорий из меньшей
Data Science
Как применить модель к обучающим данным для выявления неправильно размеченных наблюдений?
00
Вопрос или проблема У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи
Data Science
Кто написал формулу важности Джини/оценки важности признаков в sklearn?
00
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Почему мои модели имеют довольно высокую точность с небольшим обучающим набором данных?
00
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Несбалансированный класс в моем наборе данных
00
Вопрос или проблема Я работаю с несбалансированным набором данных для предсказания инсультов, где положительный класс (возникновение инсульта) значительно недопредставлен. Сначала я использовал логистическую регрессию, но из-за несбалансированности классов
Data Science
Примите любое предложение по созданию тренировочных данных из корреляционной матрицы, чтобы найти исключение и определить разницу в вариации.
00
Вопрос или проблема У меня есть N временных векторных признаков, полученных путём записи различных параметров с течением времени. Это приводит к матрице схожести размера N*N, которая содержит значения корреляции один к одному для каждого признака.
Data Science
Недостающие данные продолжают появляться.
00
Вопрос или проблема Я работаю над проектом и использую алгоритм машинного обучения Random Forest. Прежде чем использовать модель, я должен был очистить свои данные, и я уже удалил пропущенные значения, но когда я пытаюсь использовать свою модель, она
Data Science
Теория функции оценки изолированного леса
00
Вопрос или проблема В настоящее время я читаю эту статью о изоляционных лесах. В разделе о функции счета они упоминают следующее. Для справки, $h(x)$ определяется как длина пути точки данных, проходящей через iTree, а $n$ — это размер выборки, используемый для роста iTree.