Кросс-энтропийная функция потерь (Cross-Entropy Loss)

Кросс-энтропийная функция потерь (Cross-Entropy Loss) для оценки качества классификаторов

Кросс-энтропийная функция потерь (Cross-Entropy Loss) является одной из наиболее широко используемых функций потерь для обучения и оценки качества моделей классификации, таких как логистическая регрессия и нейронные сети. Она измеряет производительность модели на основе того, насколько расходятся предсказанные ею вероятности от истинных меток классов.

Определение кросс-энтропийной потери

Для задачи бинарной классификации кросс-энтропийная потеря определяется как:

L = -(y * log(p) + (1 - y) * log(1 - p))

Где:

  • y - истинная метка класса (0 или 1)

  • p - предсказанная моделью вероятность принадлежности к классу 1

  • log - натуральный логарифм

Для задачи многоклассовой классификации с C классами формула кросс-энтропийной потери принимает вид:

L = -sum(y_true * log(y_pred))

Где:

  • y_true - вектор истинных меток классов в кодировке one-hot

  • y_pred - вектор предсказанных моделью вероятностей для каждого класса

Интерпретация значений кросс-энтропии

Значение кросс-энтропийной потери является неотрицательным и стремится к нулю по мере улучшения производительности модели. Чем ближе предсказанные вероятности к истинным меткам классов, тем меньше значение кросс-энтропии.

Например, для бинарной классификации:

  • Если y = 1 и p = 1, то L = 0 (идеальный случай)

  • Если y = 1 и p = 0, то L = +∞ (худший случай)

Применение кросс-энтропийной потери

Кросс-энтропийная функция потерь широко применяется в качестве функции потерь при обучении моделей классификации, таких как логистическая регрессия и нейронные сети. Во время обучения модель стремится минимизировать значение кросс-энтропии на обучающих данных, что позволяет ей лучше обобщать знания и повышать точность классификации.

Кроме того, кросс-энтропия может использоваться для оценки качества обученной модели на тестовых данных. Чем меньше значение кросс-энтропийной потери на тестовом наборе, тем лучше производительность модели.

Пример расчета кросс-энтропийной потери в Python

Рассмотрим пример расчета кросс-энтропийной потери для задачи бинарной классификации:

import numpy as np

# Истинные метки
y_true = [1, 0, 1, 0]

# Предсказанные вероятности
y_pred = [0.8, 0.2, 0.7, 0.4]

# Вычисление кросс-энтропийной потери
cross_entropy_loss = 0
for yt, yp in zip(y_true, y_pred):
    cross_entropy_loss += -(yt * np.log(yp) + (1 - yt) * np.log(1 - yp))

cross_entropy_loss /= len(y_true)
print(f"Кросс-энтропийная потеря: {cross_entropy_loss:.4f}")

Выход:

Кросс-энтропийная потеря: 0.6865

В этом примере мы вычисляем среднюю кросс-энтропийную потерю на четырех примерах, суммируя потери для каждого отдельного примера и деля на общее количество примеров.

Библиотеки машинного обучения, такие как PyTorch и TensorFlow, предоставляют встроенные функции для расчета кросс-энтропийной потери, что упрощает процесс обучения и оценки моделей классификации.

Кросс-энтропийная функция потерь является мощным инструментом для оценки качества классификаторов, особенно в задачах с большим количеством классов. Она позволяет напрямую оптимизировать производительность модели во время обучения и получать информативную оценку ее качества на тестовых данных.

Last updated