Классификация с множеством классов

Вопрос или проблема

Я пытаюсь создать модель, которая будет классифицировать текст примерно на 500 разных классов. Я думаю, что мне нужно настроить архитектуру Pooling Classifier, которая сейчас выглядит следующим образом:

(1): PoolingLinearClassifier(
(layers): Sequential(
   (0): BatchNorm1d(1200, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   (1): Dropout(p=0.2, inplace=False)
   (2): Linear(in_features=1200, out_features=50, bias=True)
   (3): ReLU(inplace=True)
   (4): BatchNorm1d(50, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   (5): Dropout(p=0.1, inplace=False)
   (6): Linear(in_features=50, out_features=498, bias=True)
)

Я думаю, что мне нужно изменить (2): Linear слой, чтобы у меня было больше out_features, так как в последнем (6) Linear слое я предсказываю больше out_features, чем у меня есть in_features. Что вы думаете?

С наилучшими пожеланиями

Попробуйте пуллинг между слоями, это уменьшит размер, чтобы он стал компактным. Посмотрите здесь

Вы создали узкое место, уменьшив размерности, а затем увеличив их позже. Узкие места являются нормой в нейронных сетях, мы использовали их в наших CNN, работая с изображениями и аудио. Однако использование их в линейных классификаторах не совсем то, что я могу сказать, что видел раньше.

Ваши данные по своей природе шумные, текст notoriously трудно обрабатывать (из-за того, что смысл в тексте строится на нескольких предложениях и фразах, которые могут быть изменены одним словом три предложения спустя), поэтому создание узкого места – это последнее, что я бы посоветовал вам сделать… особенно при использовании всего одного скрытого слоя – сделайте первый скрытый слой намного шире, чем первый (скажем, 4096 и больше), а затем начинайте постепенно сокращать его вдвое, пока не дойдете до последнего слоя. Вы занимаетесь классификацией, поэтому выходной слой должен иметь функцию активации SoftMax, а не линейную. Дропаут может быть немного больше, установите его около 0.33 и до 0.5 (ваши дропауты 0.2 и 0.1 предназначены для CNN и RNN).

Я надеюсь, что ваши данные составляют более 500 тыс. объектов, даже этого может оказаться недостаточно для поставленной задачи, учитывая, что вы работаете с текстом, представленным в виде массива из 1200 элементов с 500 разными классами.

Ответ или решение

Для решения задачи классификации текста на 500 классов действительно стоит внимательно рассмотреть архитектуру вашего классификатора и вносить необходимые изменения для повышения производительности модели.

Изменение структуры сети: Вы правильно заметили, что последним слоем (6) у вас должен быть более широкий выходной слой. Вместо того чтобы ограничиваться 50 нейронами на втором слое, стоит увеличить количество нейронов в первом скрытом слое до 4096 или даже больше. Это даст модели больше возможностей для извлечения сложных представлений текстовых данных. Вы можете попробовать архитектуру, где первый слой будет с значительно большим количеством нейронов, например:
- Linear(in_features=1200, out_features=4096, bias=True)
Далее, вы можете уменьшать количество нейронов в следующих слоях, например:
- Linear(in_features=4096, out_features=2048, bias=True)
- Linear(in_features=2048, out_features=1024, bias=True)
- Linear(in_features=1024, out_features=500, bias=True)
Слой активации Softmax: Для многоклассовой классификации важно использовать функцию активации Softmax на выходном слое, так как она нормализует выходные значения и позволяет интерпретировать их как вероятности принадлежности к различным классам. Поэтому замена последнего линейного слоя Linear(in_features=1024, out_features=500, bias=True) на такой вариант, который будет возвращать вероятности классов, будет уместна.
Регуляризация и механизм Dropout: Скорее всего, вам стоит увеличить значение Dropout до 0.3-0.5, поскольку в задачах с высокоразмерными данными, такими как текст, регуляризация играет важную роль. Более высокий уровень Dropout поможет уменьшить переобучение.
Батч-норма: Использование Batch Normalization также уместно, но помните, что его применение необходимо на этапе обучения для улучшения сходимости. Убедитесь, что значения eps и momentum установлены корректно, чтобы избежать влияния на обучение.
Объем обучающих данных: Убедитесь, что у вас достаточно данных для обучения. Как минимум, у вас должно быть более 500,000 объектов для тренировки модели с 500 классами, чтобы модель могла эффективно извлекать связи и признаки.
П pooling-слоя: Использование pooling-слоев также может помочь уменьшить размерность представления между слоями, что позволит избежать создания узких мест и улучшить обобщающую способность модели.

Пример окончательной архитектуры:

PoolingLinearClassifier(
  (layers): Sequential(
    (0): BatchNorm1d(1200)
    (1): Dropout(p=0.5)
    (2): Linear(in_features=1200, out_features=4096, bias=True)
    (3): ReLU(inplace=True)
    (4): BatchNorm1d(4096)
    (5): Dropout(p=0.5)
    (6): Linear(in_features=4096, out_features=2048, bias=True)
    (7): ReLU(inplace=True)
    (8): BatchNorm1d(2048)
    (9): Dropout(p=0.3)
    (10): Linear(in_features=2048, out_features=500, bias=True)
    (11): Softmax(dim=1) 
  )
)

Следуя этим рекомендациям, вы сможете значительно улучшить производительность вашей модели для задачи классификации текста. Удачи в вашем проекте!