Реализация обучения в PyTorch

Question 1

Я хочу выполнить следующую задачу в PyTorch –

У меня есть набор данных COCO, где каждый образец данных используется для обучения YOLO v3. После обработки моделью образец должен быть удалён, если он удовлетворяет определённому условию. Таким образом, образец данных больше не используется для обучения в последующих эпохах.

Теперь у меня есть два вопроса по реализации –

1) Как обрабатывать каждый образец индивидуально? Должен ли я устанавливать размер упаковки = 1? Или есть какое-то преимущество в отключении автоматической упаковки? Если да, то как мне это сделать.

2) Как именно удалить образец из набора данных для дальнейших эпох? Есть ли способ пропустить этот образец в DataLoader?

Question 2

1) Как обрабатывать каждый образец индивидуально? Должен ли я устанавливать размер упаковки = 1? Или есть какое-то преимущество в отключении автоматической упаковки? Если да, то как мне это сделать.

Если вы установите размер упаковки на 1, то вы фактически отключаете упаковку. Образцы будут обрабатываться один за другим, и градиенты будут вычисляться для отдельных образцов. Это не обязательно проблема – просто имейте в виду, что вы потеряете преимущества мини-упаковки.

Если вы используете DataLoader от PyTorch, просто установите batch_size и batch_sampler в None. Согласно документации, это отключит автоматическую упаковку.

2) Как именно удалить образец из набора данных для дальнейших эпох? Есть ли способ пропустить этот образец в DataLoader?

Вы можете реализовать пользовательский набор данных PyTorch. Внутри отслеживайте, какие образцы были удалены. Если вы используете набор данных на основе итераторов, то следующий шаг довольно прост. Просто пропустите удалённые образцы в __iter__().

С набором данных на основе отображений будет немного сложнее. Ваша функция len() должна возвращать len(dataset) - # удалённых образцов. И вам придётся найти какую-то схему индексации, которая предотвратит доступ к удалённым образцам. Одна наивная идея – просто переиндексировать после каждого удаления. Очевидная проблема заключается в том, что случайный образец сервера данных не будет знать об этом, так что один и тот же образец может обрабатываться несколько раз в одной эпохе. Другая идея – индексировать ваши образцы по какому-то уникальному ключу, а не по целым числам.

Question 3

2) Я бы попробовал использовать это:

https://pytorch.org/docs/stable/data.html#torch.utils.data.SubsetRandomSampler

Это выборщик, который ограничивает сервер данных определённым индексом. Оберните его с помощью batchsampler. Также измените набор данных, чтобы он выдавал (изображение, цель, индекс) вместо обычного (изображение, цель).

1) collate_fcn() в сервере данных делает это…упаковка будет передана collate_fcn для предварительной обработки. Мне было трудно понять это в начале.

https://discuss.pytorch.org/t/how-to-create-a-dataloader-with-variable-size-input/8278

Можете рассказать, сработает ли это? Или каково ваше окончательное решение? Удачи!

Реализация обучения в PyTorch

Вопрос или проблема

Ответ или решение

Реализация обучения в PyTorch с использованием набора данных COCO и YOLO v3

1. Обработка каждого образца индивидуально

2. Удаление образцов из набора данных для дальнейших эпох

Заключение