Детекция объектов на изображениях с БПЛА: полное руководство

1. Полный цикл детекции объектов с БПЛА: архитектуры, разметка, обучение YOLO и практические кейсы на Python

Полный цикл детекции объектов с БПЛА: архитектуры, разметка, обучение YOLO и практические кейсы на Python

Беспилотные летательные аппараты (БПЛА) или дроны навсегда изменили то, как мы смотрим на мир. От мониторинга сельскохозяйственных угодий до поиска пропавших людей в густых лесах — дроны предоставляют нам уникальную точку обзора. Однако сами по себе фотографии с воздуха — это просто пиксели. Настоящая магия начинается, когда мы учим компьютер понимать, что именно находится на этих снимках.

В этом материале мы подробно разберем весь цикл детекции объектов (object detection) на изображениях, полученных с БПЛА. Мы пройдем путь от понимания специфики таких данных до написания кода на Python для обучения собственной нейронной сети.

1. Специфика изображений с БПЛА

Прежде чем выбирать алгоритм, необходимо понять, с какими данными мы работаем. Фотографии с дрона кардинально отличаются от снимков, сделанных на камеру смартфона с высоты человеческого роста.

Основные сложности при работе с аэрофотоснимками:

* Малый размер объектов: С высоты 100 метров автомобиль выглядит как скопление из нескольких десятков пикселей. Нейронной сети гораздо сложнее извлечь признаки из такого маленького участка. * Необычный ракурс: Мы привыкли видеть людей и машины сбоку. Дрон снимает их строго сверху (надир) или под острым углом. Силуэт человека сверху — это просто круг (голова) и плечи, что совершенно не похоже на привычный образ. * Высокая плотность объектов: На одном снимке поля может находиться несколько сотен тюков сена или тысячи растений. Искажения и размытие: Дрон находится в постоянном движении, подвержен порывам ветра и вибрациям от винтов, что часто приводит к motion blur* (смазыванию в движении).

!Специфика изображений с БПЛА

Для оценки детализации снимка в аэрофотосъемке используется термин GSD (Ground Sample Distance) — пространственное разрешение. Он показывает, какое реальное расстояние на земле покрывает один пиксель изображения.

> Если GSD равен 5 см/пиксель, это значит, что один пиксель на фотографии соответствует квадрату 5х5 см на земле. Объект размером 50х50 см займет на фото всего 10х10 пикселей.

2. Архитектуры нейронных сетей для детекции

Задача детекции объектов состоит из двух частей: найти, где находится объект (локализация), и понять, что это за объект (классификация). Рассмотрим три самые популярные архитектуры, которые применяются для этих целей.

Faster R-CNN (Двухстадийный детектор)

Это классическая архитектура, которая работает в два этапа. Сначала специальная подсеть (Region Proposal Network) генерирует тысячи гипотез — прямоугольных областей, где возможно находится объект. Затем вторая часть сети проверяет каждую область и классифицирует ее. * Плюсы: Очень высокая точность, отлично справляется с мелкими объектами (что критично для БПЛА). * Минусы: Медленная скорость работы. Не подходит для обработки видео в реальном времени прямо на борту дрона.

SSD (Single Shot MultiBox Detector)

Одностадийный детектор. Он не тратит время на генерацию гипотез, а сразу, за один проход (single shot), предсказывает рамки и классы объектов, используя карты признаков разного разрешения. * Плюсы: Хороший баланс между скоростью и точностью. * Минусы: Хуже распознает очень мелкие объекты по сравнению с Faster R-CNN.

YOLO (You Only Look Once)

Самая популярная на сегодняшний день архитектура для практических задач. YOLO делит изображение на сетку (например, 13х13). Каждая ячейка сетки отвечает за предсказание объектов, центр которых попадает в эту ячейку. * Плюсы: Невероятная скорость. Современные версии (YOLOv8, YOLOv10) способны обрабатывать десятки кадров в секунду, сохраняя при этом высокую точность. * Минусы: Исторически YOLO уступала в точности на мелких объектах, но последние версии практически устранили этот недостаток.

В нашем практическом руководстве мы сфокусируемся на YOLO, так как это индустриальный стандарт для задач, где важна скорость и простота развертывания.

3. Сбор и разметка данных

Нейронная сеть не обладает врожденным интеллектом. Она учится на примерах. Процесс создания этих примеров называется разметкой.

Инструменты для разметки

Для выделения объектов на фото используются специальные программы. Самые популярные из них:

LabelImg: Простая, бесплатная программа, работающая локально. Отличный выбор для старта.

CVAT (Computer Vision Annotation Tool): Мощный инструмент от Intel. Поддерживает командную работу, интерполяцию кадров на видео и полуавтоматическую разметку.

Roboflow: Облачная платформа, которая не только позволяет размечать данные, но и сразу применять аугментации и экспортировать датасеты в нужных форматах.

Как правильно размечать?

Объекты выделяются с помощью bounding box (ограничивающей рамки) — прямоугольника, который описывает границы объекта на изображении.

Правила качественной разметки для БПЛА: * Рамка должна максимально плотно прилегать к краям объекта. Пустое пространство внутри рамки — это «шум» для нейросети. * Если объект частично перекрыт (например, машина под деревом), размечайте видимую часть, но старайтесь мысленно достроить логические границы, если перекрытие незначительное. Размечайте все* объекты целевого класса. Если вы выделите 90 коров в стаде, а 10 пропустите, нейросеть решит, что эти 10 коров — это фон. Это сильно запутает модель.

4. Метрики оценки качества

Как понять, что наша модель работает хорошо? Для этого в машинном обучении используются строгие математические метрики.

IoU (Intersection over Union)

Это базовая метрика, которая показывает, насколько точно предсказанная рамка совпадает с реальной (размеченной человеком).

Формула IoU выглядит так:

Где: * — площадь пересечения предсказанной и реальной рамок. * — общая площадь, которую занимают обе рамки вместе.

Значение IoU варьируется от 0 (рамки вообще не пересекаются) до 1 (рамки идеально совпадают). Обычно предсказание считается успешным, если .

!Интерактивный калькулятор IoU

Precision (Точность) и Recall (Полнота)

Представим, что мы ищем браконьеров в лесу с помощью дрона. На территории реально находится 10 браконьеров.

Precision (Точность) отвечает на вопрос: «Из всех объектов, которые модель назвала браконьерами, сколько действительно ими являются?»

Где: * (True Positive) — истинно положительные срабатывания (модель нашла браконьера, и это действительно он). * (False Positive) — ложноположительные срабатывания (модель сказала, что это браконьер, а это оказался пень).

Если модель выдала 5 сигналов тревоги, и 4 из них — реальные люди, а 1 — пень, то точность составит (или 80%).

Recall (Полнота) отвечает на вопрос: «Из всех реальных браконьеров в лесу, скольких модель смогла найти?»

Где: * (False Negative) — ложноотрицательные срабатывания (браконьер был на фото, но модель его пропустила).

Если в лесу 10 браконьеров, а модель нашла только 4, то полнота составит (или 40%).

mAP (mean Average Precision)

Это главная метрика для оценки детекторов. Она объединяет Precision и Recall, вычисляя площадь под кривой соотношения этих двух величин для разных порогов уверенности модели, а затем усредняет результат по всем классам объектов. Чем ближе mAP к 1 (или 100%), тем лучше работает модель.

5. Техники обучения

Обучение нейросети с нуля требует огромных вычислительных мощностей и миллионов изображений. На практике так никто не делает. Вместо этого используют две ключевые техники.

Трансферное обучение (Transfer Learning)

Трансферное обучение — это метод, при котором мы берем нейросеть, уже обученную на огромном наборе данных (например, датасете COCO, где есть кошки, собаки, машины, люди), и дообучаем ее на наших специфических данных (например, на снимках больных деревьев с дрона).

> Аналогия: Если человек уже умеет кататься на велосипеде (умеет держать баланс, крутить педали, рулить), ему будет гораздо проще научиться ездить на мотоцикле, чем тому, кто никогда не сидел за рулем двухколесного транспорта. Нейросеть, обученная на обычных фото, уже «умеет» видеть границы объектов, текстуры и формы. Нам остается лишь показать ей, как выглядят наши специфические объекты.

Аугментация данных (Data Augmentation)

Собрать много данных с БПЛА сложно и дорого. Аугментация данных — это искусственное увеличение обучающей выборки за счет изменения существующих изображений.

Что мы можем сделать с одним снимком трактора на поле: * Повернуть его на 90, 180, 270 градусов (для дрона, смотрящего вниз, ориентация объекта не имеет значения). * Изменить яркость и контрастность (имитация пасмурной или солнечной погоды). * Добавить цифровой шум (имитация плохой матрицы камеры).

Из одной фотографии мы получаем десятки новых, что помогает модели стать устойчивой к разным условиям съемки.

6. Практика: Обучение YOLOv8 на Python

Перейдем к практике. Мы будем использовать библиотеку ultralytics, которая делает работу с YOLOv8 максимально простой.

Шаг 1: Подготовка окружения

Для начала необходимо установить библиотеку. Откройте терминал или ячейку в Jupyter Notebook и выполните:

Шаг 2: Структура датасета

YOLO требует определенной структуры папок и конфигурационного файла в формате YAML.

Структура папок должна выглядеть так:

Создадим файл data.yaml, который описывает наш датасет:

Шаг 3: Обучение модели

Код для запуска обучения занимает всего несколько строк. Мы используем трансферное обучение, загружая предобученную модель yolov8n.pt (n означает nano — самая легкая и быстрая версия).

Во время обучения модель будет выводить метрики (включая mAP, Precision и Recall). Ваша задача — следить, чтобы метрики на проверочной выборке (val) росли.

Шаг 4: Тестирование (Inference)

После завершения обучения лучшая модель сохранится в папке runs/detect/uav_detection_model/weights/best.pt. Теперь мы можем применить ее к новому изображению с дрона.

7. Распространенные ошибки и их решения

При работе с реальными проектами новички часто сталкиваются с типичными проблемами.

Проблема 1: Дисбаланс классов. Вы собрали датасет для поиска дефектов на ЛЭП. У вас 5000 фотографий целых изоляторов и всего 50 фотографий разбитых. Модель быстро поймет, что если всегда отвечать «целый», она будет права в 99% случаев. Решение: Использовать аугментацию для редкого класса (размножить фото разбитых изоляторов) или собрать больше данных с дефектами.

Проблема 2: Переобучение (Overfitting). Метрики на обучающей выборке показывают точность 99%, а на новых фотографиях модель не находит ничего. Модель просто «зазубрила» обучающие картинки наизусть, вместо того чтобы понять общие признаки объектов. Решение: Увеличить разнообразие данных (снимать в разное время суток, на разной высоте), усилить аугментацию, уменьшить количество эпох обучения.

Проблема 3: Слишком мелкие объекты теряются. При сжатии изображения до стандартных 640x640 пикселей перед подачей в YOLO, мелкие объекты (например, люди с высоты 200 метров) могут сжаться до размера 1x1 пиксель и исчезнуть. Решение: Использовать технику Slicing (нарезка). Большое исходное изображение (например, 4K) программно режется на квадраты 640x640, каждый квадрат прогоняется через нейросеть отдельно, а затем результаты склеиваются обратно.

8. Реальный кейс: Мониторинг в сельском хозяйстве

Рассмотрим, как описанный цикл применяется в реальном бизнесе. Агрохолдингу необходимо подсчитать количество тюков сена на поле площадью 500 гектаров для оценки урожайности и логистики.

Сбор данных: Оператор запускает дрон DJI Mavic 3 Enterprise. Дрон пролетает над полем по заранее заданному маршруту (змейкой) на высоте 80 метров, делая снимки каждые 2 секунды.

Разметка: Инженер отбирает 200 разнообразных снимков (с разным освещением, на краях поля, в центре). В программе CVAT он вручную обводит тюки сена рамками. Получается около 3000 размеченных объектов.

Обучение: Данные экспортируются в формат YOLO. Инженер берет предобученную модель YOLOv8m (medium) и запускает трансферное обучение на 100 эпох с применением аугментации (повороты, изменение яркости).

Оценка: Модель показывает mAP = 0.94. Это отличный результат.

Применение: Пишется Python-скрипт, который берет все 5000 фотографий с нового облета, прогоняет их через обученную модель и суммирует количество найденных объектов, учитывая перекрытия кадров (с помощью координат GPS, зашитых в метаданные фото).

В результате агроном получает точную цифру — 1452 тюка сена, потратив на это несколько часов машинного времени вместо нескольких дней ручного обхода поля.

Детекция объектов с БПЛА — это мощный инструмент, который сегодня доступен каждому благодаря открытым библиотекам и предобученным моделям. Поняв базовые принципы работы с данными и освоив архитектуру YOLO, вы сможете автоматизировать процессы в экологии, безопасности, строительстве и многих других сферах.

```