Почему нам нужны свертки по объему в сверточных нейронных сетях для распознавания изображений?

Question 1

В сверточных нейронных сетях мы делаем свертки трех каналов (красный, зеленый, синий) с фильтром размером $k\times k\times 3$, как на картинке:

Каждый фильтр состоит из настраиваемых весов и может научиться обнаруживать примитивные признаки, такие как края. Фильтр может быть разным для каждого канала: один для R, другой для G, еще один для B.

Мой вопрос: Почему нам нужны отдельные фильтры для каждого канала?

Если есть край, он появится на каждом канале в одном и том же месте. Единственный случай, когда это не так, это если у нас есть линии, которые чисто красные, зеленые или синие, что возможно только в синтетических изображениях, но не в реальных изображениях.

Для реальных изображений эти три фильтра будут содержать ту же информацию, что означает, что у нас втрое больше весов, и нам нужно больше данных для обучения сети.

Является ли эта конструкция избыточной или я что-то упускаю?

Не является ли более практичным обнаружение признаков на черно-белом изображении, где нам нужна только двумерная свертка? Я имею в виду, что на этапе предварительной обработки изображение может быть разделено на черно-белую часть и какую-то другую конструкцию, содержащую только информацию о цвете. Затем каждая часть обрабатывается другой сетью. Будет ли это более эффективно? Существуют ли уже такие сети?

Question 2

Я не уверен, что информация в цветах так избыточна для реальных изображений, как вы утверждаете. Я мог бы представить сценарий, где цвета вокруг края имеют значение, например, обучение сети для различения бурых медведей от белых медведей. В отношении краев и форм они очень похожи, однако цвет отличается. Так что, возможно, края появляются на всех каналах, но с разным контрастом, таким образом передавая информацию о цвете в классификатор.

Если вы посмотрите на этот блог, где автор визуализировал некоторые из изученных признаков, кажется, что некоторые признаки довольно схожи по форме, но не по цвету.

Возможно, есть обходной путь, как вы описали, где вы разделяете формы и цвета, но я думаю, что это потребует много предварительных знаний, и, возможно, легче просто позволить сети разобраться в этом во время обучения. Это становится еще более актуальным, если речь идет о многоспектральных изображениях, как те, что поступают с EO-спутников, например. Там у вас определенно будут признаки, проявляющиеся только на определенных каналах, но не на других.

Question 3

на медицинских изображениях часто цвета очень яркие и на каналах выглядят очень по-разному, взгляните на эти данные конкурсов https://www.kaggle.com/c/human-protein-atlas-image-classification https://www.kaggle.com/c/data-science-bowl-2018, изображения на разных каналах отличаются иногда очень сильно, поэтому если у вас фотография медведя, автомобиля или любое “нормальное” изображение, в большинстве случаев вы, вероятно, сможете обойтись черно-белым изображением или анализом только одного канала, так что имея свертки по объему будут производить лучшие модели

Question 4

Количество нейронов и архитектура модели являются гиперпараметрами. Нет причин, почему бы не протестировать архитектуры для черно-белых изображений наряду с моделями для 3-х каналов.

В зависимости от набора данных и задачи модель может реально показывать лучшие результаты, сжимая обучающие данные до черно-белых изображений. Например, небольшой набор данных может переобучаться с цветными изображениями быстрее, чем с черно-белыми.

Почему нам нужны свертки по объему в сверточных нейронных сетях для распознавания изображений?

Вопрос или проблема

Ответ или решение

Почему раздельные свёртки для каждого канала важны?

Возможность альтернативных подходов

Заключение