1. Особенности изображений с БПЛА: ракурсы, масштаб и параметры камеры
На предыдущих этапах обучения вы познакомились с архитектурой сверточных нейронных сетей (CNN) и поняли, как они извлекают признаки из изображений. Однако любая, даже самая совершенная архитектура нейросети, подчиняется правилу: качество результата напрямую зависит от качества входных данных. Изображения, получаемые с беспилотных летательных аппаратов (БПЛА), кардинально отличаются от фотографий из стандартных датасетов вроде COCO или ImageNet.
Специфика дронов диктует свои правила. Камера постоянно находится в движении, угол обзора меняется, а объекты, которые на земле кажутся огромными, с высоты превращаются в горстку пикселей. Чтобы обучить надежную модель обнаружения объектов (Object Detection), необходимо глубоко понимать природу этих данных.
Ракурсы съемки: взгляд с небес
Когда человек фотографирует автомобиль на улице, он делает это с высоты своего роста. Нейросети, обученные на таких данных, ищут фары, решетку радиатора и колеса. Но дрон видит мир иначе. В аэрофотосъемке выделяют два основных ракурса, каждый из которых ставит перед алгоритмами компьютерного зрения свои задачи.
Первый ракурс — надир (Nadir). Это съемка, при которой объектив камеры направлен строго вертикально вниз, под углом 90 градусов к поверхности земли.
Второй ракурс — перспективный или наклонный (Oblique). В этом случае камера отклонена от вертикали, обычно на угол от 30 до 60 градусов.
Выбор ракурса критически влияет на то, какие признаки сможет извлечь сверточная нейросеть.
| Характеристика | Надир (Строго вниз) | Перспективный (Под углом) | |---|---|---| | Форма объектов | Плоская (видны только крыши) | Объемная (видны крыши и фасады) | | Искажения масштаба | Минимальные по всему кадру | Сильные (объекты вдали кажутся меньше) | | Перекрытие объектов | Редко (только деревьями/мостами) | Часто (высокие здания закрывают низкие) | | Применение в CV | Картография, подсчет деревьев, поиск пятен застройки | Поиск людей, распознавание типов автомобилей, патрулирование |
> Для задач обнаружения объектов перспективный ракурс часто предпочтительнее, так как он сохраняет привычные профили объектов. Однако он требует более сложной разметки, так как масштаб объектов меняется в зависимости от их положения в кадре (ближе к горизонту они становятся меньше).
Представьте, что вы обучаете нейросеть искать потерявшихся людей в лесу. При съемке в надир человек, стоящий прямо, будет выглядеть как небольшое пятно (голова и плечи). При перспективной съемке нейросеть сможет зацепиться за силуэт, цвет куртки и длину ног.
Пространственное разрешение и GSD
В мире БПЛА понятие «масштаб» заменяется строгим техническим термином — Ground Sample Distance (GSD). Это пространственное разрешение снимка, которое показывает, какое реальное расстояние на земле покрывает один пиксель изображения.
Если GSD равно 2 см/пиксель, это означает, что один квадратный пиксель на фотографии соответствует квадрату 2×2 сантиметра на поверхности земли.
Значение GSD рассчитывается по следующей формуле:
Где: * — высота полета дрона над объектом (в метрах) * — физическая ширина сенсора камеры (в миллиметрах) * — фокусное расстояние объектива (в миллиметрах) * — ширина получаемого изображения (в пикселях)
Почему GSD — это самый важный параметр при сборе датасета? Нейросети имеют предел чувствительности. Современные архитектуры обнаружения объектов (например, YOLO) с трудом распознают объекты, размер которых меньше 15×15 пикселей.
Допустим, мы ищем на снимках стандартный легковой автомобиль длиной 4 метра (400 см). * При полете на низкой высоте с GSD = 2 см/пиксель, длина автомобиля на фото составит 200 пикселей (). Нейросеть легко распознает марку и цвет. * При полете на большой высоте с GSD = 20 см/пиксель, длина автомобиля составит всего 20 пикселей (). Нейросеть поймет, что это машина, но детали будут утеряны. * При GSD = 50 см/пиксель автомобиль превратится в прямоугольник длиной 8 пикселей. Обнаружение станет невозможным.
!Интерактивный визуализатор GSD
При формировании датасета необходимо следить за тем, чтобы GSD в обучающей выборке совпадало с GSD, которое будет использоваться в реальных условиях (на этапе инференса). Если обучить модель на снимках с дрона, летящего на высоте 30 метров, она покажет катастрофическое падение точности при анализе видео с высоты 150 метров.
Параметры камеры: борьба со скоростью
Дроны перемещаются в пространстве со скоростью от 10 до 30 м/с (36-108 км/ч). При такой динамике стандартные настройки камеры приводят к деградации данных. Главный враг компьютерного зрения на БПЛА — смаз в движении (Motion Blur).
Смаз возникает, когда за время, пока затвор камеры открыт, дрон успевает пролететь значительное расстояние. В результате четкие границы объектов размываются. Как вы помните из устройства сверточных сетей, первые слои CNN реагируют именно на резкие перепады градиентов (границы и углы). Если границы размыты, фильтры не активируются, и объект «исчезает» для нейросети.
Чтобы избежать этого, операторы БПЛА используют короткую выдержку (Shutter Speed) — время, в течение которого свет попадает на матрицу. Для дронов рекомендуется выдержка не длиннее 1/1000 секунды.
Однако короткая выдержка порождает новую проблему: на матрицу попадает мало света. Изображение становится темным. Чтобы это компенсировать, приходится повышать светочувствительность (ISO), что неизбежно приводит к появлению цифрового шума — цветной ряби на фото. Шум также снижает точность нейросетей, заставляя их видеть ложные паттерны.
Еще один специфический артефакт БПЛА — эффект плавающего затвора (Rolling Shutter). Большинство камер дронов используют CMOS-матрицы, которые считывают изображение не целиком в один момент времени, а построчно, сверху вниз.
Если дрон летит быстро или резко поворачивает, то за время считывания кадра от первой до последней строки перспектива успевает измениться. В результате вертикальные объекты (столбы, здания) на фотографии получаются наклоненными или изогнутыми, как желе. Это искажает геометрические признаки объектов, что критично для алгоритмов трекинга и оценки размеров.
Влияние погодных условий и освещения
Сбор данных с БПЛА происходит на открытом воздухе, где освещение невозможно контролировать. Датасет, собранный в идеальных условиях, создаст «тепличную» нейросеть, которая откажется работать в реальном мире.
При разметке данных необходимо учитывать следующие факторы:
> Качественный датасет для БПЛА должен быть сбалансированным. Если вы собираете 10 000 изображений, убедитесь, что в них представлены разные ракурсы, разная высота (разный GSD), утреннее и вечернее освещение, а также пасмурная погода.
Понимание физики полета, оптики и геометрии кадра — это фундамент. Без него разметка данных превращается в слепое обведение пикселей. Учитывая ракурсы, контролируя GSD и компенсируя артефакты движения, вы создаете данные, на которых нейросеть сможет раскрыть весь свой потенциал. На следующем этапе мы перейдем к изучению конкретных алгоритмов обнаружения объектов, которые будут обрабатывать эти подготовленные данные.