Среднее значение (μ – "мю", x̅ ) – мера центральной тенденции, служащая для описания множества значений одним-единственным числом. Меру можно охарактеризовать несколькими метриками: Cреднее (Mean), Медиана (Median), Мода (Mode). В Науке о данных (Data Science) широкое применение получили следующие его разновидности: арифметическое, геометрическое и гармоническое средние значения.
Среднее арифметическое (μ для совокупности, x̄ для выборки; англ. Arithmetic Mean) – показатель описательной статистики, сумма элементов Датасета (Dataset), разделенная на их количество. Рассчитывается с помощью формулы:
$$μ = \frac{Σ_{i=1}^n a_i}{n}, где$$
$$μ\space{–}\space{среднее,}$$
$$Σ_{i=1}^n a_i\space{–}\space{сумма}\space{всех}\space{элементов}\space{выборки},$$
$$n\space{–}\space{количество}\space{наблюдений}$$
По умолчанию рассматривают именно с среднее арифметическое, остальные разновидности среднего рассматривают реже:
В данной статье рассматриваются простые средние значения без Весовой функции (Weight Function).
Пример. Для небольшого списка [1, 6, 3, 2] средним арифметическим будет:
$$μ = \frac{1 + 6 + 3 + 2}{4} = \frac{12}{4} = 3$$
Понятие используется в Науке о данных множеством способов:
Рассчитать среднее автоматически позволит библиотека statistics. Установим библиотеку и импортируем ее для начала:
!pip install statistics
import statistics
Инициализируем список:
# Выборка: высота плодовых деревьев
lst = [5, 16, 1, 12, 20, 5, 17, 2, 11, 3, 16, 15, 6, 9]
x = statistics.mean(lst)
print('Арифметическое среднее: %.3f' % x)
Арифметическое среднее: 9.857
Среднее геометрическое (Geometric Mean) – корень N-й степени из произведения всех значений:
$$x̅_{geom} = \sqrt[n]{x_1 × x_1 ×... × x_n},\space{где}$$
$$x̅_{geom}\space{–}\spaceсреднее\space{геометрическое,}$$
$$x_n\space{–}\space{n-й}\space{элемент}\space{выборки}$$
Если Выборка (Sample) содержит два значения, мы извлекаем квадратный корень из перемноженных элементов. Для трех значений используется кубический корень и так далее.
Пример. Как построить квадрат той же площади, что и прямоугольник 2 x 18? Вычислим среднее геометрическое:
$$x̅_{geom} = \sqrt[2]{2 × 18} = 6$$
Наш квадрат будет иметь ту же площадь (36), и ребра, равные 6.
В Машинном обучении (ML) Критерий G-Mean (Geometric Mean) – это Среднее геометрическое, определяющее качество классификации большинства и меньшинства. Низкий G-Mean-критерий является признаком плохой работы Модели (Model) в Бинарной классификации (Binary Classification) для положительных случаев.
Среднее геометрическое можно вычислить с помощью функции SciPy gmean()
:
from scipy.stats import gmean
# Инициализируем список данных
data = [1, 2, 3, 40, 50, 60, 0.7, 0.88, 0.9, 1000]
# Применим функцию
y = gmean(data)
print('Среднее геометрическое: %.3f' % y)
Среднее геометрическое: 7.246
Среднее гармоническое (Harmonic Mean) – количество значений, поделенное на сумму обратных величин:
$$x̅_{harmonic} = \frac{N}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_n}},\space{где}$$
$$x̅_{harmonic}\space{–}\space{среднее}\space{гармоническое,}$$
$$x_n\space{–}\space{n-й}\space{элемент}\space{выборки}$$
В Машинном обучении Критерий F1 ( F1 Score), показатель оценки эффективности модели, – это Среднее гармоническое Точности измерений (Accuracy) и Отзыва (Recall).
Среднее гармоническое значение можно вычислить с помощью функции SciPy hmean()
.
from scipy.stats import hmean
# Инициализируем список
data = [0.11, 0.22, 0.33, 0.44, 0.55, 0.66, 0.77, 0.88, 0.99]
z = hmean(data)
print('Среднее гармоническое: %.3f' % z)
Среднее гармоническое: 0.350
Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.
Фото: @peterluo0113
© Лена Капаца. Все права защищены.