YOLO - Лена Капаца

YOLO by Лена Капаца March 10, 2025 Основы

# YOLO: You Only Look Once

### Введение

YOLO (You Only Look Once) — это популярная модель компьютерного зрениия, используемая для обнаружения объектов на изображениях и в видео в реальном времени. Основная идея YOLO заключается в том, что она рассматривает задачу обнаружения объектов как задачу регрессии, предсказывая координаты объектов и классы объектов за один проход через нейронную сеть. Это делает YOLO значительно быстрее, чем другие методы обнаружения объектов, такие как R-CNN и его вариации.

YOLO работает, разделяя изображение на сетку размером $S \times S$ . Каждая ячейка в этой сетке отвечает за предсказание объектов, чьи центры попадают в эту ячейку. Для каждого объекта модель предсказывает:

1. Координаты ограничительной рамки (x, y, ширина, высота).

2. Вероятность класса объекта.

3. Уверенность (confidence score), которая отражает вероятность того, что объект присутствует в рамке.

В результате получается высокая скорость обработки и хорошая точность.

Преимущества YOLO

- Скорость: YOLO способен обрабатывать изображения на скорости до 45 кадров в секунду и выше, в зависимости от конфигурации.

- Точность: Хотя скорость является основным аспектом, YOLO также демонстрирует хорошую точность в различных сценариях.

- Универсальность: Подходит для множества задач обнаружения объектов, включая видеоанализ, распознавание лиц и многое другое.

Для использования YOLO в Python мы можем воспользоваться библиотекой opencv-python, которая поддерживает работу с YOLO. Убедитесь, что у вас установлены необходимые библиотеки:

pip install opencv-python
pip install numpy

Вот пример кода, используя YOLO для обнаружения объектов на изображении:

import cv2
import numpy as np

# Загрузка YOLO
net = cv2.dnn.readNet("yolov3.weights", "yolov3.cfg")
layer_names = net.getLayerNames()
output_layers = [layer_names[i[0] - 1] for i in net.getUnconnectedOutLayers()]

# Загрузка изображений
image = cv2.imread("image.jpg")
height, width, _ = image.shape


# Подготовка изображения для сетевого ввода
blob = cv2.dnn.blobFromImage(image, 0.00392, (416, 416), (0, 0, 0), True, crop=False)
net.setInput(blob)

# Обнаружение объектов
outs = net.forward(output_layers)


# Обработка результатов
class_ids = []
confidences = []
boxes = []


for out in outs:
    for detection in out:
        scores = detection[5:]
        class_id = np.argmax(scores)
        confidence = scores[class_id]
        if confidence > 0.5:  # Порог уверенности
            center_x = int(detection[0] * width)
            center_y = int(detection[1] * height)
            w = int(detection[2] * width)
            h = int(detection[3] * height)

            # Ограничительная рамка
            x = int(center_x - w / 2)
            y = int(center_y - h / 2)
            boxes.append([x, y, w, h])
            confidences.append(float(confidence))
            class_ids.append(class_id)


# Ускорение с помощью Non-Maxima Suppression
indexes = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4)


# Отображение результатов
for i in range(len(boxes)):
    if i in indexes:
        x, y, w, h = boxes[i]
        label = str(classes[class_ids[i]])
        cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2)
        cv2.putText(image, label, (x, y + 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)


# Сохранение или отображение результата
cv2.imshow("Image", image)
cv2.waitKey(0)
cv2.destroyAllWindows()