Коэффициент Джини (Gini Score) - Лена Капаца
Коэффициент Джини (Gini Score) by Лена Капаца April 6, 2023 Продвинуто

Коэффициент Джини (индекс Джини) – 1. (в статистике) показатель, характеризующий неравенство доходов населения. 2. (в машинном обучении) метрика, характеризующая эффективность некоторых моделей, таких как Дерево решений (Decision Tree).

40% населения обладает ~15% дохода, 80% – 60% дохода.

Пример расчета Джини

Давайте разберемся с расчетом Джини на простом примере. У нас есть в общей сложности 10 точек данных двух классов – красного и синего:

При создании дерева решений нам нужно разделить эти наблюдения на две ветви. Рассмотрим следующее разделение на 5 красных и 5 синих. Предположим, мы делаем бинарное разделение по X = 200:

Видно, что разделение выполнено правильно: у нас осталось две ветви по 5 красных (левая) и 5 синих (правая).

Но каков будет результат, если дерево произведет расщепление по X=250? У нас осталось две ветви, левая ветвь состоит из 5 красных и 1 синей, а правая ветвь состоит из 4 синих:

Это называется несовершенным разделением. При обучении дерева решений мы используем индекс Джини как меру его эффективности.

Чтобы рассчитать этот показатель:

Теперь рассчитаем индекс Джини по формуле:

$$G = \sum_{i=1}^C p_{i} × (1 - p_{i}), где$$
$$G\space–\space{индекс}\space{Джини},$$
$$C\space{–}\space{общее}\space{количество}\space{классов},$$
$$p_{i}\space–\space{вероятность}\space{выбора}\space{точки}\space{данных}\space{c}\space{классом}\space{i}$$

В приведенном выше примере мы имеем два класса (C = 2) и 50% вероятность у точки принадлежать любому из двух классов (p1  = p2 = 0,5). Следовательно, индекс Джини можно рассчитать как:

$$G = p_{1} × (1 - p_{1})) + p_{2} × (1 - p_{2}) = 0.5 × (1 - 0.5) + 0.5 × (1 - 0.5) = 0.5$$

Теперь давайте рассчитаем Примесь Джини (Gini Impurity). При идеальном разделении левая ветвь имеет только красные цвета, и, следовательно, ее примесь Джини:

$$G = 1 × (1 - 1) + 0 × (1 - 0) = 0$$

Правая ветвь также имеет только синие точки, и, следовательно, ее примесь Джини также равна нулю:

$$G = 1 × (1 - 1) + 0 × (1 - 0) = 0$$

Как левая, так и правая ветви нашего идеального сплита имеют вероятность попадания чужеродной точки, равную нулю. Примесь Джини, равная 0, является наилучшим возможным вариантом.

Автор оригинальной статьи: MK Gurucharan

Подари чашку кофе дата-сайентисту ↑

© Лена Капаца. Все права защищены.