semi-supervised-learning - ответы на вопросы

Data Science

Как мне построить бинарный классификатор для тысяч положительных данных и миллионов размеченных данных?

Вопрос или проблема Пока что я наткнулся на много советов и статей о PU-обучении и унарной классификации. Короче говоря: есть ли у кого-нибудь предложения по конкретным алгоритмам или реализациям для размеченных данных только одного класса и разметки

Data Science

Какой тип обучения необходим для обнаружения аномалий? Обучение с учителем, полуобучение или обучение без учителя?

Вопрос или проблема Недавно я занимаюсь обнаружением аномалий, одним из методов является использование модели АЕ для изучения паттерна нормальных образцов. Определите его как аномальный образец, если он не соответствует паттерну нормальных образцов.

Data Science

Полунадзорное обнаружение аномалий

Вопрос или проблема В настоящее время я исследую методы обнаружения аномалий для своей работы, и, в основном, я изучил метод локального фактора аномалий и изоляционные леса, оба метода являются неконтролируемыми. Дело в том, что может возникнуть ситуация

Data Science

Каковы преимущества комбинирования полун supervised и управляемых методов обучения?

Вопрос или проблема Я больше изучал полупод监督ное обучение, в частности, распространение меток и размножение меток. Читая учебники и некоторые статьи, я заметил, что часто результаты распространения меток затем используются для построения контролируемой модели.

Data Science

Решения для маркировки обучающих данных для задач бинарной классификации

Вопрос или проблема У меня есть огромный набор данных, для которого я пытаюсь использовать метод 80-20 (метод отложенной выборки) для обучения и тестирования моей модели. Однако набор данных, который мне был предоставлен, содержит 6 миллионов строк.

Data Science

Лучше иметь одну модель с большим количеством категорий или две модели с меньшим количеством для многоцелеой классификации?

Вопрос или проблема Для классификации текста на три категории вопрос, жалоба и дополнение, где каждый экземпляр может иметь несколько меток (вопрос и жалоба, вопрос и дополнения): лучше иметь одну модель для всех трех категорий?