Понятный ML - Статьи по машинному обучению
Назад к статьям

Мультимодальность (Multimodality)

Елена Капаца
10 мин

Способность модели обрабатывать, интерпретировать и генерировать информацию из разных типов данных

Машинное обучение

Мультимодальность в контексте больших языковых моделей (LLM) — это способность модели обрабатывать, интерпретировать и генерировать информацию из разных типов данных, или модальностей. Основные модальности:

    • Текст — самый привычный формат для LLM.

    • Изображения — фото, графика, диаграммы.

    • Аудио — речь, музыка, звуки.

    • Видео — последовательность изображений + звук и проч.

    Мультимодальная модель может комбинировать данные из нескольких источников. Например, анализировать изображение и подписанный к нему текст, или распознавать команду в аудио и реагировать визуально.

    Примеры применений:

    • Визуальный вопрос-ответ (VQA): пользователь показывает фото и спрашивает, что на нем.

    • Генерация изображений по описанию: текст → картинка (например, DALL·E).

    • Анализ медицинских снимков + историй болезни: изображение + текст → диагноз.

    • Видеоаналитика: описание происходящего в видеопотоке.

    • Аудио-текст интерфейсы: голосовое общение с ИИ.


    Примеры мультимодальных моделей с API-доступом

    Вот несколько LLM или мультимодальных моделей, которые можно использовать через API:

    1. OpenAI GPT-4 (мультимодальная версия)

    • Модальности: текст, изображения.

    • API: OpenAI API

    • Особенности:

      • Можно отправить изображение как часть запроса.

      • Модель анализирует содержимое изображения: текст, графику, объекты и их взаимодействие.

      • Подходит для OCR, VQA, анализа интерфейсов и др.

    2. Gemini от Google (ранее Bard)

    • Модальности: текст, изображения, код, звук (в новых версиях).

    • API: Google AI Studio / Gemini API

    • Особенности:

      • Поддержка мультимодальности встроена по умолчанию в Gemini 1.5.

      • Можно отправлять изображения, аудиофайлы, видео (в ограниченной форме).

      • Имеет длинный контекст (до 1M токенов) — полезно для видео- и аудиоанализа.

    3. Claude 3 (Anthropic)

    • Модальности: текст, изображения (Claude 3 Opus).

    • API: Anthropic API

    • Особенности:

      • Поддержка изображений с возможностью описания, анализа диаграмм и инфографики.

      • Особое внимание на безопасности и интерпретируемости ответов.

    4. Grok от xAI (Elon Musk)

    • Модальности: текст, изображения (ограничено).

    • API: доступ через X/Twitter API (ограниченный доступ).

    • Особенности:

      • Интеграция с соцсетями.

      • Подходит для анализа медиаконтента из ленты.

    5. Hugging Face Transformers + Multimodal models

    • Модальности: все, что возможно — текст, изображение, аудио.

    • API: Inference Endpoints или Spaces.

    • Примеры моделей:

      • CLIP: сопоставляет изображения и текст.

      • BLIP / BLIP-2: VQA, описание изображений.

      • Flamingo (от DeepMind): мультимодальный few-shot learner.

      • ImageBind (Meta): связывает несколько модальностей без прямой аннотации.

    Мультимодальные LLM обычно используют общие представления (shared embeddings) для разных модальностей. Это позволяет:

    • Преобразовывать изображения в векторное представление, сопоставимое с текстом.

    • Использовать трансформеры для всех модальностей.

    • Фьюзить (объединять) данные с помощью кросс-аттеншенов.