Look-Alike моделирование — один из самых популярных методов увеличения размеров рекламных сегментов для увеличения охвата рекламодателей. Facebook внедрил моделирование Look Alike на своей платформе в 2013 году, и несколько поставщиков рекламных технологий предлагают версию моделирования Look Alike в своих продуктах. Однако, как мы покажем в этом посте, модели Look Alike на практике часто приводят к хрупким и неточным сегментам. Множество других подходов к машинному обучению (ML), включая классификацию и повышение уровня, почти всегда обеспечивают более высокую производительность по сравнению с моделями Look Alike. Из-за этих ограничений мы считаем, что Look Alike следует использовать с осторожностью, только когда другие методы недоступны.
Что такое похожие сегменты?
Как следует из названия, цель модели Look Alike — найти аудиторию, которая «выглядит» похожей на известный набор пользователей. Создание базового сегмента Look Alike обычно включает в себя указание двух частей информации:
Исходный набор: на каком наборе пользователей должна основываться аудитория Look Alike?
Размер сегмента: Насколько большой должна быть аудитория? Большая аудитория означает более широкий охват, но меньше общего сходства с исходным набором.
Например, рекламодатель может использовать набор из 1000 известных домовладельцев (начальный набор) для создания аудитории из 50 000 похожих друг на друга (размер сегмента), похожих на этих домовладельцев.
Ограничения похожих моделей
Моделирование Look Alike приобрело популярность благодаря своей простоте и доступности, но имеет существенные ограничения, которые часто снижают эффективность рекламы.
С технической точки зрения моделирование Look Alike обычно выполняется с помощью метода полууправляемого машинного обучения, известного как обучение PU. Это означает, что модели Look Alike изучаются с использованием информации о пользователях в начальном наборе (т. е. положительном наборе) без учета пользователей, которые не принадлежат к начальному набору (отрицательные метки).
Это помогает упростить использование моделей Look Alike — все, что нужно, — это исходный набор положительных меток для построения сегмента. Но это также означает, что модели Look Alike склонны к предвзятости, если вы не внимательно относитесь к тому, как вы определяете свой сегмент. В частности, модель Look Alike будет искать любую черту, общую для пользователей в начальном наборе, даже если эта черта не уникальна для этого набора.
Для наглядности рассмотрим пример. Допустим, коммерческий банк только что запустил новый продукт для бизнес-кредитов и хотел бы разместить рекламу на нашем сайте для сегмента из 10 000 владельцев малого бизнеса (SBO). Вот данные, которыми мы располагаем:
На сайте 1 млн активных пользователей
Из этого миллиона пользователей 100 тысяч зарегистрировали профиль и указали свою должность при регистрации.
Из этих 100 000 пользователей 2 000 указали, что они являются владельцами малого бизнеса (SBO).
Наша цель — использовать начальный набор из этих 2 000 SBO для создания модели Look Alike, которая (а) анализирует поведенческие модели начального набора на месте и (б) находит 8 000 других похожих пользователей. Но вот проблема: владение малым бизнесом — не единственная черта, которую разделяют пользователи начального набора; они также все зарегистрированные пользователи. Поскольку зарегистрированные пользователи могут вести себя совсем иначе, чем незарегистрированные, наша модель может учесть это несоответствие и предсказать аудиторию Look Alike, полностью состоящую из зарегистрированных пользователей, независимо от того, являются ли они владельцами малого бизнеса.
Этот тип ошибки распространен в практических сценариях, связанных с моделированием Look Alike — модель найдет характеристику, которая является общей для начального набора, но не имеет отношения к цели, которую мы хотели бы достичь. Показатели машинного обучения могут показывать высокую эффективность обучения, но кампания будет работать плохо в реальном мире.
Другие подходы на основе ML могут помочь обойти эти ограничения моделирования Look Alike, что приведет к лучшим результатам кампании. Среди этих подходов — классификация, прогнозирование конверсии и повышение, которые мы рассмотрим в оставшейся части этой статьи.
Альтернатива № 1: Классификация
Классификация — это распространенный тип машинного обучения, который стремится разделить две группы данных: положительный набор и отрицательный набор. Применительно к рекламному контексту классификация похожа на Look Alike в том смысле, что ее цель состоит в том, чтобы предсказать, какие пользователи похожи на начальный сегмент. Но, изучая информацию о том, кто входит и не входит в этот сегмент, классификация обычно приводит к лучшим результатам.
Вернемся к нашему вышеприведенному примеру с рекламой банка для SBO. Моделирование Look Alike было недостаточным, потому что наш начальный набор содержал скрытую черту в виде зарегистрированных пользователей. Эта черта оказалась доминирующим фактором с точки зрения того, что объединяет поведение исходного набора, поэтому гораздо более слабый сигнал, связанный с владением малым бизнесом, был проигнорирован.
Скажем, вместо этого мы используем модель классификации -
Положительный набор: зарегистрированные пользователи с должностью, равной «владельцам малого бизнеса».
Отрицательный набор: зарегистрированные пользователи с должностью, не равной «владельцам малого бизнеса».
Включая информацию о других зарегистрированных пользователях, которые, как мы знаем, не являются SBO, мы заставляем модель различать пользователей на основе
© Лена Капаца. Все права защищены.