Большие модели компьютерного зрения (Large Vision Models, LVM) могут показаться привлекательными, но модели, специфичные для конкретной области, помогут вам в большей степени, пишет на портале The New Stack Хизер Кутюр, консультант и основатель Pixel Scientia Labs.

Может показаться, что ИИ находится на пике своего расцвета, но некоторые области применения только начинаются. Большие языковые модели (LLM) привлекли наше внимание чуть больше года назад, но эта технология создавалась в течение многих лет. Теперь уроки, которые мы извлекли из LLM, просачиваются в другие области, обеспечивая им хорошие возможности для собственного развития.

Компьютерное зрение — одна из таких областей. Подобно тому, как базовые модели, такие как GPT, заложили основу для создания чат-ботов и других языковых приложений, базовые модели, основанные на изображениях, позволяют совершить революцию в передовом анализе изображений, от персонализированной медицины до точного сельского хозяйства и промышленной автоматизации.

Если ранние модели LLM имели менее миллиарда параметров, то современные GPT, Bard и LLama имеют более триллиона параметров. Самые крупные модели компьютерного зрения, такие как DINO и Segment Anything, имеют около 1 млрд. параметров. Они еще не так велики, как LLM, но движутся в этом направлении.

Обучение такой большой модели требует огромного количества обучающих данных. Например, модель DINOv2 была обучена на 142 млн. изображений. Благодаря достижениям самоподдерживающегося обучения обучающие данные даже не нужно маркировать. Огромные объемы немаркированных данных — это все, что нужно для изучения шаблонов.

Для приложений общего назначения большие обучающие наборы и большие модели открывают путь к новым возможностям. Их можно легко адаптировать для задач классификации, обнаружения или сегментации на различных типах изображений.

Во многих отношениях больше — значит лучше.

Проблема с большими моделями

Проблема возникает, когда вы берете массивную модель общего назначения и применяете ее к данным, которые выглядят иначе. К изображениям, содержащим иные паттерны. Вместо лиц, зданий и уличных знаков, возможно, это дороги и деревья, увиденные с дрона или спутника. Или это могут быть клетки и железы, увиденные в микроскоп. Или детали на производственной линии.

Чтобы применить существующую базовую модель к одному из этих примеров, необходимо точно настроить ее под конкретную задачу, возможно, отличить опухоли от доброкачественных тканей. Учитывая несколько тысяч примеров каждого класса, можно скорректировать веса большой базовой модели — это значительно меньший объем данных, чем потребовалось бы для обучения этой задаче с нуля. Этот процесс адаптации модели называется тонкой настройкой.

Когда вы настраиваете модель зрения общего назначения на родственных изображениях, она быстро сходится к хорошей модели для вашей последующей задачи. Но вероятность того, что на других изображениях ваша модель будет перестраиваться, весьма высока. Это означает, что она будет хорошо работать на обучающем наборе, но при этом допускать ошибки на неведомых для нее изображениях.

Это происходит потому, что большая фундаментальная модель ищет на изображениях множество различных паттернов. И некоторые из них могут оказаться связанными с поставленной задачей на небольшом обучающем наборе. Но эти же паттерны позволяют делать правильные предсказания на неизвестных данных. Это просто ложные корреляции.

Такое гораздо более вероятно при использовании большой модели, обученной на разрозненных изображениях.

Малые модели зрения в помощь

Как решить эту проблему? Вам нужно построить модель, которая изучает закономерности в ваших уникальных изображениях. Закономерности, которые важны для последующих задач на изображениях той же модальности.

Скорее всего, у вас нет огромного количества изображений, поэтому вы не сможете построить большую модель зрения. Но вы можете построить отличную модель зрения небольшого или среднего размера.

Эта базовая модель, специфичная для конкретной области, подойдет для различных последующих задач с вашими изображениями при небольшой доработке. Для других типов изображений она будет не очень полезна — но вам это и не нужно.

Размер имеет значение. Но больше — не обязательно лучше. Для нишевых приложений адаптируйте модель к имеющимся у вас данным. Более компактная и целенаправленная модель поможет вам намного больше, чем большая и громоздкая, которая ищет не те закономерности.