Мультимодальность в контексте больших языковых моделей (LLM) — это способность модели обрабатывать, интерпретировать и генерировать информацию из разных типов данных, или модальностей. Основные модальности:
-
Текст — самый привычный формат для LLM.
-
Изображения — фото, графика, диаграммы.
-
Аудио — речь, музыка, звуки.
-
Видео — последовательность изображений + звук и проч.
-
Визуальный вопрос-ответ (VQA): пользователь показывает фото и спрашивает, что на нем.
-
Генерация изображений по описанию: текст → картинка (например, DALL·E).
-
Анализ медицинских снимков + историй болезни: изображение + текст → диагноз.
-
Видеоаналитика: описание происходящего в видеопотоке.
-
Аудио-текст интерфейсы: голосовое общение с ИИ.
-
Модальности: текст, изображения.
-
API: OpenAI API
-
Особенности:
-
Можно отправить изображение как часть запроса.
-
Модель анализирует содержимое изображения: текст, графику, объекты и их взаимодействие.
-
Подходит для OCR, VQA, анализа интерфейсов и др.
-
-
Модальности: текст, изображения, код, звук (в новых версиях).
-
Особенности:
-
Поддержка мультимодальности встроена по умолчанию в Gemini 1.5.
-
Можно отправлять изображения, аудиофайлы, видео (в ограниченной форме).
-
Имеет длинный контекст (до 1M токенов) — полезно для видео- и аудиоанализа.
-
-
Модальности: текст, изображения (Claude 3 Opus).
-
API: Anthropic API
-
Особенности:
-
Поддержка изображений с возможностью описания, анализа диаграмм и инфографики.
-
Особое внимание на безопасности и интерпретируемости ответов.
-
-
Модальности: текст, изображения (ограничено).
-
API: доступ через X/Twitter API (ограниченный доступ).
-
Особенности:
-
Интеграция с соцсетями.
-
Подходит для анализа медиаконтента из ленты.
-
-
Модальности: все, что возможно — текст, изображение, аудио.
-
API: Inference Endpoints или Spaces.
-
Примеры моделей:
-
CLIP: сопоставляет изображения и текст.
-
BLIP / BLIP-2: VQA, описание изображений.
-
Flamingo (от DeepMind): мультимодальный few-shot learner.
-
ImageBind (Meta): связывает несколько модальностей без прямой аннотации.
-
-
Преобразовывать изображения в векторное представление, сопоставимое с текстом.
-
Использовать трансформеры для всех модальностей.
-
Фьюзить (объединять) данные с помощью кросс-аттеншенов.
Мультимодальная модель может комбинировать данные из нескольких источников. Например, анализировать изображение и подписанный к нему текст, или распознавать команду в аудио и реагировать визуально.
Примеры применений:
Примеры мультимодальных моделей с API-доступом
Вот несколько LLM или мультимодальных моделей, которые можно использовать через API:
1. OpenAI GPT-4 (мультимодальная версия)
2. Gemini от Google (ранее Bard)
3. Claude 3 (Anthropic)
4. Grok от xAI (Elon Musk)
5. Hugging Face Transformers + Multimodal models
Мультимодальные LLM обычно используют общие представления (shared embeddings) для разных модальностей. Это позволяет: