Метод силуэта (Silhouette Method) - Лена Капаца
Метод силуэта (Silhouette Method) by Лена Капаца Sept. 12, 2021

Метод силуэтов – способ изучения разделительного расстояния между результирующими кластерами Наблюдений (Observation), часто используемый вместе с Методом K-средних (K-Means). График силуэта отображает меру того, насколько близко каждая точка в одном кластере находится к точкам в соседних кластерах, и, таким образом, обеспечивает способ визуальной оценки количества кластеров. Эта мера имеет диапазон [-1, 1]:

Силуэт – одна из цветных фигур на субграфике справа

Коэффициенты силуэта (так называются эти значения) около +1 указывают на то, что образец находится далеко от соседних кластеров. Значение, близкое к нулю указывает, что выборка находится на границе принятия решения между двумя соседними кластерами или очень близко к ней, а отрицательные значения указывают на то, что эти выборки могли быть назначены неправильному кластеру.

В этом примере анализ силуэта используется для выбора оптимального значения для числа кластеров (n_clusters). Графики ниже показывают, что значения n_clusters 3, 5 и 6 – плохой выбор для данных данных из-за наличия кластеров с оценками силуэта ниже среднего, а также из-за значительных колебаний в размере участков силуэта. Анализ силуэта более неоднозначен при выборе между 2 и 4:

3 кластера
4 кластера
5 кластеров
6 кластеров

Также по толщине силуэта можно визуализировать размер кластера. График силуэта для кластера 0, когда n_clusters равно 2, больше по размеру из-за группирования 3 субкластеров в один большой кластер. Однако, когда n_clusters равно 4, все графики имеют более или менее одинаковую толщину и, следовательно, имеют аналогичные размеры, что также можно проверить на помеченном графике разброса справа.

Автор оригинальной статьи: scikit-learn.org

© Лена Капаца. Все права защищены.