Мультимодальность в контексте больших языковых моделей (LLM) — это способность модели обрабатывать, интерпретировать и генерировать информацию из разных типов данных, или модальностей. Основные модальности:
Текст — самый привычный формат для LLM.
Изображения — фото, графика, диаграммы.
Аудио — речь, музыка, звуки.
Видео — последовательность изображений + звук и проч.
Мультимодальная модель может комбинировать данные из нескольких источников. Например, анализировать изображение и подписанный к нему текст, или распознавать команду в аудио и реагировать визуально.
Примеры применений:
Визуальный вопрос-ответ (VQA): пользователь показывает фото и спрашивает, что на нем.
Генерация изображений по описанию: текст → картинка (например, DALL·E).
Анализ медицинских снимков + историй болезни: изображение + текст → диагноз.
Видеоаналитика: описание происходящего в видеопотоке.
Аудио-текст интерфейсы: голосовое общение с ИИ.
Вот несколько LLM или мультимодальных моделей, которые можно использовать через API:
Модальности: текст, изображения.
API: OpenAI API
Особенности:
Можно отправить изображение как часть запроса.
Модель анализирует содержимое изображения: текст, графику, объекты и их взаимодействие.
Подходит для OCR, VQA, анализа интерфейсов и др.
Модальности: текст, изображения, код, звук (в новых версиях).
Особенности:
Поддержка мультимодальности встроена по умолчанию в Gemini 1.5.
Можно отправлять изображения, аудиофайлы, видео (в ограниченной форме).
Имеет длинный контекст (до 1M токенов) — полезно для видео- и аудиоанализа.
Модальности: текст, изображения (Claude 3 Opus).
API: Anthropic API
Особенности:
Поддержка изображений с возможностью описания, анализа диаграмм и инфографики.
Особое внимание на безопасности и интерпретируемости ответов.
Модальности: текст, изображения (ограничено).
API: доступ через X/Twitter API (ограниченный доступ).
Особенности:
Интеграция с соцсетями.
Подходит для анализа медиаконтента из ленты.
Модальности: все, что возможно — текст, изображение, аудио.
API: Inference Endpoints или Spaces.
Примеры моделей:
CLIP: сопоставляет изображения и текст.
BLIP / BLIP-2: VQA, описание изображений.
Flamingo (от DeepMind): мультимодальный few-shot learner.
ImageBind (Meta): связывает несколько модальностей без прямой аннотации.
Мультимодальные LLM обычно используют общие представления (shared embeddings) для разных модальностей. Это позволяет:
Преобразовывать изображения в векторное представление, сопоставимое с текстом.
Использовать трансформеры для всех модальностей.
Фьюзить (объединять) данные с помощью кросс-аттеншенов.
© Лена Капаца. Все права защищены.