Токен (Token) - Лена Капаца
Токен (Token) by Лена Капаца March 5, 2022 Основы

Лексема – набор слов, их частей или символов как основной компонент Токенизации (Tokenization), то есть преобразования значимой части данных. Значимый набор слов, например, четверостишие, разбирается на слова и символы, не имеющие смысла в виде токена, но позволяющие ссылаться на этот текст для решения некоторых задач Машинного обучения (ML), например, Анализа эмоциональной окраски (Sentiment Analysis).

Пример. Ниже приведен фрагмент книги Чарльза Диккенса «Повесть о двух городах»:

It was the best of times,
It was the worst of times,
It was the age of wisdom,
It was the age of foolishness,

В этом небольшом примере давайте рассматривать каждую строку как отдельный «документ», а все четверостишие – как Корпус (Corpus) документов.

Теперь мы можем составить токен, и состоит он из 11 слов:

© Лена Капаца. Все права защищены.