Вопрос или проблема
Я использую код обнаружения объектов SSD Mobilenet V2 от Tensorflow и пока разочарован полученными результатами. Я надеюсь, что кто-то может взглянуть на то, что я сделал, и предложить, как я могу улучшить результаты:
Набор данных
Я обучаюсь на двух классах (из OIV5), содержащих 2352 экземпляра “Лимона” и 2009 экземпляров “Сыра”. Я читал в нескольких местах, что “современные” результаты можно достичь с несколькими тысячами экземпляров.
Параметры обучения / валидации
Далее я перечислю мой файл конфигурации, который в основном совпадает с предустановленным. Единственные изменения: а) изменено количество классов (num_classes) и б) удвоена шкала l2_normalizer, потому что во время обучения алгоритм переобучался, и потеря на валидации начала увеличиваться после всего лишь ~25,000 итераций.
model {
ssd {
num_classes: 2
box_coder {
faster_rcnn_box_coder {
y_scale: 10.0
x_scale: 10.0
height_scale: 5.0
width_scale: 5.0
}
}
matcher {
argmax_matcher {
matched_threshold: 0.5
unmatched_threshold: 0.5
ignore_thresholds: false
negatives_lower_than_unmatched: true
force_match_for_each_row: true
}
}
similarity_calculator {
iou_similarity {
}
}
anchor_generator {
ssd_anchor_generator {
num_layers: 6
min_scale: 0.05
max_scale: 0.95
aspect_ratios: 1.0
aspect_ratios: 2.0
aspect_ratios: 0.5
aspect_ratios: 3.0
aspect_ratios: 0.3333
}
}
image_resizer {
fixed_shape_resizer {
height: 300
width: 300
}
}
box_predictor {
convolutional_box_predictor {
min_depth: 0
max_depth: 0
num_layers_before_predictor: 0
use_dropout: false
dropout_keep_probability: 0.8
kernel_size: 1
box_code_size: 4
apply_sigmoid_to_scores: false
conv_hyperparams {
activation: RELU_6,
regularizer {
l2_regularizer {
weight: 0.00007
}
}
initializer {
truncated_normal_initializer {
stddev: 0.03
mean: 0.0
}
}
batch_norm {
train: true,
scale: true,
center: true,
decay: 0.9997,
epsilon: 0.001,
}
}
}
}
feature_extractor {
type: 'ssd_mobilenet_v2'
min_depth: 16
depth_multiplier: 1.0
conv_hyperparams {
activation: RELU_6,
regularizer {
l2_regularizer {
weight: 0.00007
}
}
initializer {
truncated_normal_initializer {
stddev: 0.03
mean: 0.0
}
}
batch_norm {
train: true,
scale: true,
center: true,
decay: 0.9997,
epsilon: 0.001,
}
}
}
loss {
classification_loss {
weighted_sigmoid {
}
}
localization_loss {
weighted_smooth_l1 {
}
}
hard_example_miner {
num_hard_examples: 3000
iou_threshold: 0.99
loss_type: CLASSIFICATION
max_negatives_per_positive: 3
min_negatives_per_image: 3
}
classification_weight: 1.0
localization_weight: 1.0
}
normalize_loss_by_num_matches: true
post_processing {
batch_non_max_suppression {
score_threshold: 1e-8
iou_threshold: 0.6
max_detections_per_class: 100
max_total_detections: 100
}
score_converter: SIGMOID
}
}
}
train_config: {
batch_size: 24
optimizer {
rms_prop_optimizer: {
learning_rate: {
exponential_decay_learning_rate {
initial_learning_rate: 0.004
decay_steps: 800720
decay_factor: 0.95
}
}
momentum_optimizer_value: 0.9
decay: 0.9
epsilon: 1.0
}
}
num_steps: 200000
data_augmentation_options {
random_horizontal_flip {
}
}
data_augmentation_options {
ssd_random_crop {
}
}
}
train_input_reader: {
tf_record_input_reader {
input_path: "gs://<MY_DIR>/data/train.record-?????-of-00010"
}
label_map_path: "gs://<MY_DIR>/data/label_map.pbtxt"
}
eval_config: {
num_examples: 870
}
eval_input_reader: {
tf_record_input_reader {
input_path: "gs://<MY_DIR>/data/val.record-?????-of-00010"
}
label_map_path: "gs://<MY_DIR>/data/label_map.pbtxt"
shuffle: true
num_readers: 1
}
Настройка кластера
Я не изменял файл конфигурации облака, но решил включить его для полноты картины.
trainingInput:
runtimeVersion: "1.12"
scaleTier: CUSTOM
masterType: standard_gpu
workerCount: 5
workerType: standard_gpu
parameterServerCount: 3
parameterServerType: standard
Проблема / Вопрос
С этой настройкой я достигаю mAP, который обычно не превышает 25%. Лучший результат — это [email protected], который кратковременно достигает 30%, прежде чем снова упасть на 25k итераций.
Как я уже упоминал, потеря на валидации уменьшается с 12 до 7 (произвольно), но затем снова увеличивается примерно на 25k итераций.
Хотя я не очень хорошо знаком с тем, какие результаты я должен ожидать, эти цифры кажутся неправильными. Я даже не уверен, следует ли мне улучшать мой набор данных или настроить параметры обучения. Я приму любой ответ, который поможет мне встать на правильный путь. Пожалуйста, дайте мне знать, если я забыл включить какую-либо важную информацию.
Попробуйте изменить техники увеличения данных, ssd_random_crop
может быть причиной проблемы, я полагаю.
Попробуйте использовать следующие техники:
data_augmentation_options {
random_horizontal_flip {
}
}
data_augmentation_options {
random_rotation90 {
}
}
data_augmentation_options {
random_rgb_to_gray {
}
}
data_augmentation_options {
random_distort_color {
}
}
.
Ответ или решение
Настройка SSD MobileNet для повышения производительности
Если вы разрабатываете системы на базе SSD MobileNet V2 с использованием TensorFlow и ваше удовлетворение текущими результатами оставляет желать лучшего, не отчаивайтесь. Давайте рассмотрим различные стратегии, которые помогут оптимизировать вашу модель для достижения более высоких показателей.
Понимание вашей проблемы
Итак, у вас есть датасет из двух классов: "Lemon" и "Cheese", каждая группа содержит 2352 и 2009 экземпляров соответственно. Это вполне адекватное количество данных для современных моделей. Однако основная жалоба заключается в низкой точности mAP, не превышающей 25-30%, а также в увеличении валидационной потери после 25 000 итераций.
Задачи для повышения качества
-
Обработка и увеличение данных: Начнем с критики текущих техник аугментации. Стандартное использование
ssd_random_crop
может быть неэффективным, если есть риск потерять важные части изображений. Предлагается попробовать следующие методы аугментации:random_horizontal_flip
: сохранит ориентацию объектов и увеличит разнообразие.random_rotation90
: позволит модели обучиться распознаванию объектов в различных положениях.random_rgb_to_gray
иrandom_distort_color
: усилят устойчивость модели к цветовым вариациям.
-
Гиперпараметры и регуляризация:
- L2-регуляризация: Если ваша модель страдает от переобучения, попробуйте увеличить вес регуляризации, чтобы снизить риск перенастройки.
- Dropout: Добавление dropout слоев с более высоким
dropout_keep_probability
может помочь при борьбе с переобучением. - Условия обучения: Рассмотрите снижение начальной скорости обучения или использование более агрессивного плана её снижения, чтобы обеспечить постепенное обучение модели.
-
Технологические условия: Ваше окружение в облаке довольно стандартное, но при необходимости можете сократить количество рабочих узлов и серверов параметров для фокусировки ресурсов на процессе обучения центрального узла.
Межшаговые действия и результаты
- Мониторинг процесса обучения: Постоянно следите за графиками потерь и точностей. Используйте TensorBoard для визуализации прогресса и выявления проблем на ранних этапах.
- Повторная настройка модели: Если изменения в аугментации и гиперпараметрах не привели к улучшению, можно попробовать адаптировать саму модель SSD или использовать другой базовый архитектурный подход.
Заключение
Работа с глубоким обучением требует терпения и последовательного подхода к тестированию различных гипотез. Начните с улучшения качества данных, затем настройте гиперпараметры и, по возможности, протестируйте различные архитектурные подходы. Со временем ваша модель начнет давать более стабильные и высокие результаты.