Основные архитектуры нейросетей для обработки изображений: сверточные сети и трансформеры

Долгое время доминирующей парадигмой в компьютерном зрении были сверточные нейронные сети (Convolutional Neural Networks, CNN). Их архитектура, вдохновленная биологическими процессами зрительной коры, основана на использовании сверточных слоев. Эти слои применяют наборы learnable-фильтров (ядро свертки), которые скользят по всему входному изображению, вычисляя скалярные произведения. Ключевая идея заключается в индуктивном смещении трансляционной инвариантности и локальности. Сеть предполагает, что важные паттерны (например, края, текстуры) могут появляться в любой области изображения, и для их распознавания достаточно локального контекста, а не глобальных связей между всеми пикселями сразу. Такая архитектура эффективно выстраивает иерархию признаков: от простых границ на начальных слоях до сложных объектов и сцен на глубоких.

Стандартный стек CNN включает чередование сверточных слоев, слоев пулинга (объединения) и полносвязных классификационных головок. Пулинг (чаще всего max-pooling) постепенно уменьшает пространственную размерность карт признаков, увеличивая receptive field — область исходного изображения, влияющую на один нейрон последующего слоя. Это позволяет сети комбинировать локальную информацию в более абстрактные и глобальные представления, одновременно обеспечивая вычислительную эффективность и некоторую инвариантность к малым трансформациям. Архитектуры вроде VGG, ResNet и EfficientNet стали эталонными, достигнув выдающихся результатов в классификации, детекции и сегментации.

Однако в последние годы на арену вышел мощный конкурент — архитектура трансформер, изначально разработанная для задач обработки естественного языка. Ее сердцем является механизм самовнимания (self-attention), который вычисляет взвешенные связи между всеми элементами последовательности. При применении к изображениям картинка разбивается на небольшие патчи (например, 16×16 пикселей), которые линейно проецируются в эмбеддинги и подаются на вход трансформеру как последовательность токенов. Модель, такая как Vision Transformer (ViT), не использует свертки на начальном этапе; вместо этого она с самого начала учится глобальным взаимодействиям между всеми патчами. Механизм внимания позволяет каждому патчу «видеть» и учитывать информацию от любого другого патча в изображении, независимо от расстояния. Это дает модели принципиально иной индуктивный смещение — глобальную контекстуализацию.

Трансформеры продемонстрировали, что для достижения высочайшей точности свертки не являются строго необходимыми при наличии достаточно больших объемов данных для обучения. Они особенно эффективны в задачах, где понимание глобального контекста и сложных долгосрочных зависимостей между удаленными частями сцены критически важно. Однако «чистые» ViT часто требуют значительных вычислительных ресурсов из-за квадратичной сложности внимания относительно числа патчей, и им может не хватать некоторых индуктивных смещений, полезных для изображений, таких как локальная пространственная когерентность.

Этот факт привел к появлению гибридных моделей, которые стремятся объединить лучшие черты обеих архитектур. Например, в архитектуре CoAtNet сверточные слои используются на ранних стадиях для эффективного извлечения низкоуровневых локальных признаков, а затем подключаются слои трансформера для глобального моделирования высокоуровневого контекста. Другой подход — использование сверток внутри самих блоков трансформера или создание иерархических трансформеров с поэтапным уменьшением разрешения, что делает их более похожими на традиционные пирамиды признаков CNN. Такие гибриды часто показывают лучшую эффективность и требуют меньше данных для предобучения, наследуя от CNN свойство локализованной обработки.

Таким образом, современный ландшафт архитектур для обработки изображений (видео из нескольких фото) представляет собой не просто выбор между двумя подходами, а динамичный синтез их принципов. Сверточные сети остаются чрезвычайно эффективным и проверенным инструментом, особенно когда критичны вычислительные ресурсы или объем данных ограничен. Трансформеры открыли путь к новому уровню понимания контекста, устанавливая новые рекорды на сложных бенчмарках. Будущее, вероятно, лежит в дальнейшем сближении этих парадигм, где индуктивные смещения сверток для пространственной иерархии будут органично сочетаться с мощью глобального внимания, порождая следующее поколение универсальных и эффективных моделей компьютерного зрения.