# YOLO: You Only Look Once
### Введение
YOLO (You Only Look Once) — это популярная модель компьютерного зрениия, используемая для обнаружения объектов на изображениях и в видео в реальном времени. Основная идея YOLO заключается в том, что она рассматривает задачу обнаружения объектов как задачу регрессии, предсказывая координаты объектов и классы объектов за один проход через нейронную сеть. Это делает YOLO значительно быстрее, чем другие методы обнаружения объектов, такие как R-CNN и его вариации.
YOLO работает, разделяя изображение на сетку размером \(S \times S\). Каждая ячейка в этой сетке отвечает за предсказание объектов, чьи центры попадают в эту ячейку. Для каждого объекта модель предсказывает:
1. Координаты ограничительной рамки (x, y, ширина, высота).
2. Вероятность класса объекта.
3. Уверенность (confidence score), которая отражает вероятность того, что объект присутствует в рамке.
В результате получается высокая скорость обработки и хорошая точность.
- Скорость: YOLO способен обрабатывать изображения на скорости до 45 кадров в секунду и выше, в зависимости от конфигурации.
- Точность: Хотя скорость является основным аспектом, YOLO также демонстрирует хорошую точность в различных сценариях.
- Универсальность: Подходит для множества задач обнаружения объектов, включая видеоанализ, распознавание лиц и многое другое.
Для использования YOLO в Python мы можем воспользоваться библиотекой opencv-python, которая поддерживает работу с YOLO. Убедитесь, что у вас установлены необходимые библиотеки:
pip install opencv-python
pip install numpy
Вот пример кода, используя YOLO для обнаружения объектов на изображении:
import cv2
import numpy as np
# Загрузка YOLO
net = cv2.dnn.readNet("yolov3.weights", "yolov3.cfg")
layer_names = net.getLayerNames()
output_layers = [layer_names[i[0] - 1] for i in net.getUnconnectedOutLayers()]
# Загрузка изображений
image = cv2.imread("image.jpg")
height, width, _ = image.shape
# Подготовка изображения для сетевого ввода
blob = cv2.dnn.blobFromImage(image, 0.00392, (416, 416), (0, 0, 0), True, crop=False)
net.setInput(blob)
# Обнаружение объектов
outs = net.forward(output_layers)
# Обработка результатов
class_ids = []
confidences = []
boxes = []
for out in outs:
for detection in out:
scores = detection[5:]
class_id = np.argmax(scores)
confidence = scores[class_id]
if confidence > 0.5: # Порог уверенности
center_x = int(detection[0] * width)
center_y = int(detection[1] * height)
w = int(detection[2] * width)
h = int(detection[3] * height)
# Ограничительная рамка
x = int(center_x - w / 2)
y = int(center_y - h / 2)
boxes.append([x, y, w, h])
confidences.append(float(confidence))
class_ids.append(class_id)
# Ускорение с помощью Non-Maxima Suppression
indexes = cv2.dnn.NMSBoxes(boxes, confidences, 0.5, 0.4)
# Отображение результатов
for i in range(len(boxes)):
if i in indexes:
x, y, w, h = boxes[i]
label = str(classes[class_ids[i]])
cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2)
cv2.putText(image, label, (x, y + 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
# Сохранение или отображение результата
cv2.imshow("Image", image)
cv2.waitKey(0)
cv2.destroyAllWindows()
© Лена Капаца. Все права защищены.