class-imbalance
Data Science
Вопрос или проблема Учитывая, что у меня есть модель глубокого обучения (передача от бывшего коллеги). По какой-то причине наборы для обучения и валидации отсутствовали. В моей ситуации я хочу классифицировать свои данные на 100 категорий.
Data Science
Вопрос или проблема Суть: Обучение модели с использованием недо/пересемплирования в процессе обучения приведет к неправильному распределению и негативно скажется на точности? Предположим, вы хотите обучить классификатор для различения класса A и класса B.
Data Science
Вопрос или проблема У меня есть сомнение, которое мы обсуждаем с моими коллегами уже несколько недель, и я хотел бы узнать ваше мнение. У меня есть модель для диагностики заболевания, и я хочу знать, справедлива ли она. Я обучаю модель на одной когорте
Data Science
Вопрос или проблема Заголовок. У меня есть набор данных, который сильно несбалансирован, скажем, выходная переменная, которую я хочу предсказать, ограничена диапазоном от 0 до 1, но почти все точки данных находятся в диапазоне от 0,7 до 0,9, тогда как
Data Science
Вопрос или проблема Я сразу перейду к делу. У меня есть довольно большой набор данных (100K наблюдений) с непрерывными и категориальными предикторами, которые меняются со временем. Категориальные предикторы, на самом деле, обычно не меняются, однако непрерывные меняются каждый день.
Data Science
Вопрос или проблема Обеспечение сбалансированных классов в пакетах во время обучения моделей keras возможно с использованием метода fit_generator. Я использовал imblearn.keras.BalancedBatchGenerator для этого, и это работает хорошо!
Data Science
Вопрос или проблема Я работал с набором данных ультразвуковых изображений рака груди, содержащим 432 доброкачественных случаев, 210 злокачественных случаев и 133 нормальных случаев. Сначала я использовал предобученную модель ResNet-50, которая дала следующие
Data Science
Вопрос или проблема У меня есть данные о просмотре видео (длительность сессии, количество видео и т.д.), а также информация о том, нажал ли пользователь кнопку “нравится”. Мы можем использовать кнопку “нравится”
Data Science
Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция
Data Science
Вопрос или проблема Я работаю над задачей бинарной классификации, в которой в датасете содержится около 5% положительных классов. Я разделил датасет на 70% для обучения и 30% для тестирования. Я использовал тестовые данные только один раз для оценки производительности модели.
Data Science
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Вопрос или проблема Я работаю с несбалансированным набором данных для предсказания инсультов, где положительный класс (возникновение инсульта) значительно недопредставлен. Сначала я использовал логистическую регрессию, но из-за несбалансированности классов
Data Science
Вопрос или проблема Цель — это вероятность между N классами, я не хочу, чтобы она предсказывала класс с наивысшей вероятностью, а ‘фактическую’ вероятность для каждого класса. Например: | | Класс 1 | Класс 2 | Класс 3 | ------------------------------------ | 1 | 0.
Data Science
Вопрос или проблема У меня есть набор данных, созданный для решения задачи классификации. Из-за дисбаланса Y я решил перейти к задаче обнаружения аномалий. Должен ли я использовать Y, который у меня есть внутри модели обнаружения аномалий, в качестве признаков?
Data Science
Вопрос или проблема Я работаю над задачей извлечения и классификации отношений. Данные представлены в виде текстовых файлов. Данные несбалансированные. Я хочу использовать функцию потерь focal для решения проблемы несбалансированности классов в данных.
Data Science
Вопрос или проблема У меня есть неориентированный взвешенный граф, где веса ребер представляют собой вероятности. Большинство весов ребер равны 1 (они встречаются в 7 раз чаще, чем вторая по величине группа весов). Я использую этот граф для обучения векторного
Data Science
Вопрос или проблема Как разделить на обучающую и тестовую выборки с помощью train_test_split значений с плавающей запятой? Я использовал LabelEncoder, но у меня около 300К строк, и когда я использовал cross_val, я увидел ValueError: наименьший класс в
Data Science
Вопрос или проблема Предположим, я предсказываю цены на продажу домов (непрерывные значения) и у меня есть несколько независимых переменных (числовых и категориальных). Является ли обычной практикой балансировка набора данных, когда категориальные независимые
Data Science
Вопрос или проблема Я пытаюсь решить задачу классификации с множественными классами, где наблюдается дисбаланс. Для этого я использую SMOTE для оверсемплинга и OSS для недосемплинга. Но у меня есть сомнение, поскольку я работаю с многоклассовой задачей
Data Science
Вопрос или проблема В последнее время я занимаюсь задачей бинарной классификации с несбалансированными данными, где данные упорядочены во времени. Я хотел бы проверить свою модель, используя тренировочные и валидационные разделы с одинаковым соотношением