Трансформеры (Transformers)

Трансформеры (Transformers) by Лена Капаца Feb. 8, 2023 Продвинуто

Трансформер (англ. Transformers – преобразователь) — это разновидность Нейронных сетей (Neural Network), которая использует концепцию Внимания (Attention) и эффективнее предшественников обрабатывает массивы данных с множеством Признаков (Feature). Популярными представителями класса Трансформер являются:

Еще говорят, что такие нейросети полагаются на собственное Внимание (Attention) – новый термин в контексте Машинного обучения (ML). Что же такое внимание в контексте Обработки естественного языка (NLP)? Оно позволяет сосредоточиться на элементах входных данных, пока мы предсказываем следующее слово. Например, если наша модель сочиняет эссе и использует слово «румяна», высока вероятность, что за ним последует слова «красные».

Проще говоря, внимание помогает нам создавать подобные связи в пределах одного предложения. Посмотрите на следующий пример:

«Я наливал воду из бутылки в чашку, пока она не наполнилась».
это => чашка
«Я наливал воду из бутылки в чашку, пока она не опустела».
это => бутылка

Изменив слово «наполнилась» на «опустела», значение слова «она» изменилось. Если мы переводим такое предложение, нам нужно знать, к чему относится слово «оно».

По сравнению с последовательными моделями, например, Рекуррентной нейросетью (RNN), трансформеры обеспечивают лучшие результаты при более эффективном использовании доступной вычислительной мощности. Архитектура Transformer также позволяет модели использовать преимущества мощных процедур параллельной обработки, доступных в графических процессорах, которые все чаще используются для приложений обучения НЛП.

До появления трансформеров приходилось обучать нейронные сети с помощью больших дорогостоящих размеченных Датасетов (Dataset). Находя закономерности между элементами математически, трансформеры устраняют эту необходимость, делая доступными для Машинного обучения триллионы изображений и петабайты текстовых данных в сети.

Кроме того, математика, которую используют трансформеры, поддается параллельной обработке, поэтому эти модели могут работать быстро.

Автор оригинальной статьи: Ria Kulshrestha

Подари чашку кофе дата-сайентисту ↑