Приключения в мире нейросетей: Стань повелителем цифрового интеллекта

1. Знакомство с цифровым помощником: Что такое нейросеть и как она думает

Знакомство с цифровым помощником: Что такое нейросеть и как она думает

Ты наверняка замечал: стоит посмотреть на планшете пару смешных видео про щенков, как на следующий день лента сама предлагает тебе десятки похожих роликов. Или когда ты наводишь камеру смартфона на лицо, она мгновенно пририсовывает тебе собачьи уши и забавный нос, точно угадывая, где находятся твои глаза и рот. А умная колонка в комнате способна услышать свое имя даже сквозь шум работающего телевизора и ответить на вопрос о погоде.

Всё это кажется настоящим волшебством, спрятанным внутри пластикового корпуса. Но внутри нет никаких гномов с картотеками видеороликов и нет крошечных художников с кисточками. Там работает нечто гораздо более интересное — искусственный интеллект, а точнее, его главная деталь, которая называется нейросеть.

Чтобы стать настоящим повелителем цифрового интеллекта, недостаточно просто нажимать на кнопки. Нужно понимать, с кем именно ты имеешь дело. Нейросеть — это не железный робот с мигающими лампочками, которого показывают в кино. Это невидимый цифровой помощник, состоящий из математики, строчек кода и огромного количества данных. Давай назовем нашего воображаемого помощника Нейроником. Он живет внутри компьютеров, телефонов и огромных серверов размером с футбольное поле. У него нет ни рук, ни ног, ни настоящих глаз. Но у него есть кое-что другое — способность учиться и находить ответы на самые сложные загадки.

Как устроен цифровой мозг

Слово «нейросеть» звучит сложно, но разгадка кроется в самом названии. У каждого из нас в голове есть мозг. Он состоит из миллиардов крошечных живых клеточек — нейронов. Эти клеточки похожи на маленьких осьминожек с длинными щупальцами. Они постоянно держатся за руки и передают друг другу электрические сигналы, похожие на короткие вспышки света. Когда ты видишь яблоко, дотрагиваешься до горячей чашки или решаешь задачу по математике, миллионы твоих нейронов вспыхивают и перешептываются друг с другом: «Это красное!», «Это горячее!», «Ответ — пять!».

Ученые, которые создавали компьютеры, однажды подумали: а что, если попробовать скопировать устройство человеческого мозга? Что, если написать такую программу, внутри которой будут свои собственные, цифровые нейроны?

Так и появилась искусственная нейронная сеть. В ней цифровые нейроны — это не живые клетки, а крошечные кусочки программы, математические формулы. Каждый такой цифровой нейрон очень глуп. Он умеет делать только одну вещь: получить сигнал от соседей, сложить числа и передать результат дальше. Один нейрон не может узнать кота на фотографии или перевести текст с английского на русский. Но когда их собирают вместе в огромную сеть, где каждый связан с тысячами других, происходит чудо. Они начинают работать как слаженная команда.

Детективное агентство Нейроника

Чтобы понять, как эти глупые по отдельности клеточки вместе совершают открытия, заглянем внутрь Нейроника в тот момент, когда мы показываем ему фотографию зеленого яблока.

Нейроны внутри сети не свалены в кучу. Они выстроены строгими рядами, которые называются слоями. Это похоже на большое детективное агентство, где каждый отдел занимается только своей частью работы.

Первый ряд нейронов — это входной слой. Их можно назвать «Смотрителями». Они первыми получают картинку. Но они не видят яблоко целиком! Компьютер не понимает, что такое фрукт. Для него любая картинка — это просто огромная таблица из крошечных цветных квадратиков, пикселей. Каждый пиксель имеет свой номер цвета. Например, черный цвет — это , а ярко-зеленый может быть числом . Смотрители просто берут эти числа и кричат следующему ряду: «У меня тут темно!», «А у меня яркое зеленое пятно!».

Сигналы летят во второй ряд — скрытый слой. Здесь сидят «Сыщики линий». Они слушают крики Смотрителей и пытаются найти на картинке границы. Один нейрон в этом ряду специализируется только на вертикальных палочках. Если он получает сигналы, похожие на вертикальную линию, он громко кричит: «Вижу прямую черту!». Другой нейрон ищет только изгибы. Он собирает сигналы и радуется: «Тут есть что-то круглое!».

Дальше сигнал передается в третий ряд — «Сыщикам форм». Они уже не смотрят на отдельные пиксели. Они слушают предыдущий ряд. Если один нейрон кричит «вижу круглый изгиб», а другой кричит «вижу зеленую заливку», а третий передает «вижу маленькую коричневую палочку сверху», Сыщик форм складывает эти улики вместе.

Наконец, все эти догадки долетают до последнего ряда — выходного слоя. Это «Капитаны». У них есть таблички с названиями разных предметов: «Мяч», «Кот», «Машина», «Яблоко». Капитан с табличкой «Яблоко» слышит, что предыдущие ряды нашли зеленый круг и коричневую веточку. Он понимает: улики сходятся! И выдает финальный ответ: «Я уверен на 98%, что это зеленое яблоко!».

!Передача сигнала по слоям нейросети при распознавании яблока

Вся эта цепочка передачи сигналов — от первого пикселя до финального ответа — происходит внутри Нейроника за долю секунды. Миллионы цифровых нейронов успевают перешепнуться, проголосовать и выдать результат быстрее, чем ты успеешь моргнуть.

Робот-Буквоед против Нейроника

Но почему ученым пришлось придумывать нейросети? Разве нельзя было просто написать обычную компьютерную программу, которая будет узнавать яблоки, котов и решать все наши проблемы?

Обычная компьютерная программа работает по строгим правилам. Это как Робот-Буквоед, которому дали кулинарную книгу с точными рецептами. Программист пишет для него алгоритм — пошаговую инструкцию.

> Алгоритм — это точный набор команд, который нужно выполнить по порядку, чтобы получить результат. Например: 1) Взять хлеб. 2) Намазать масло. 3) Положить сыр. Результат: бутерброд.

Если Роботу-Буквоеду дать инструкцию «как узнать кота на фото», программисту придется описать кота математически. Он напишет: «Кот — это объект, у которого есть четыре лапы, пушистый хвост, два острых уха, и он умеет мяукать».

Звучит логично. Но давай посмотрим, что произойдет в реальности. Мы показываем Роботу-Буквоеду фотографию собаки породы хаски. Робот сверяется со списком: четыре лапы есть, пушистый хвост есть, острые уши есть. «Это кот!» — радостно сообщает обычная программа. Ошибка. Тогда программист усложняет правило: «Добавь проверку на мяуканье. И пусть у кота будут усы». Мы показываем Роботу фотографию кота породы сфинкс (у которого нет шерсти и часто нет усов), который мирно спит и не мяукает. Робот смотрит в инструкцию: шерсти нет, усов нет, звуков нет. «Это не кот, это инопланетянин!» — заявляет Буквоед. Снова ошибка.

Описать весь наш сложный мир с помощью жестких правил невозможно. Коты бывают пушистыми и лысыми, они могут свернуться в клубок так, что не видно ни лап, ни хвоста, они могут прятаться в коробке, откуда торчит только одно ухо. Никакой программист в мире не сможет написать миллион правил для каждой позы кота.

И вот здесь на сцену выходит Нейроник. Нейросети не дают жестких правил. Ей не объясняют, что такое лапы или хвост. Вместо этого используют машинное обучение.

Нейронику просто показывают десять тысяч разных фотографий котов. Рыжих, черных, в прыжке, спящих, в коробках. И каждый раз говорят: «Смотри, это кот». А потом показывают десять тысяч фотографий собак, хомяков и машин, говоря: «А это не кот».

Цифровой мозг начинает сам искать закономерности. Его внутренние нейроны-сыщики постоянно меняют настройки своих «слуховых аппаратов». Если нейрон обращал слишком много внимания на цвет фона, и из-за этого Нейроник ошибся, в следующий раз этот нейрон будут слушать меньше. Сеть сама настраивает связи между своими клеточками до тех пор, пока не научится безошибочно отличать кота от всего остального. Она сама понимает, что форма ушей и глаз важнее, чем цвет шерсти, хотя ни один человек ей этого не программировал.

!Сравнение обычного алгоритма и нейросети

В этом и заключается главная суперсила цифрового помощника: он не зубрит правила из учебника, он учится на опыте, прямо как ты. Когда ты был совсем маленьким, родители не читали тебе лекцию о геометрических параметрах собак. Они просто несколько раз показали на улице на пушистого зверя и сказали «ав-ав». Твой мозг сам создал нейронные связи, чтобы узнавать собак. Точно так же учится и искусственный интеллект.

Чихуахуа или черничный маффин?

Если Нейроник такой умный и умеет учиться сам, значит ли это, что он никогда не ошибается? Совсем нет. И его ошибки очень забавны, потому что они показывают нам, как сильно цифровой мозг отличается от человеческого.

Мы, люди, понимаем суть вещей. Мы знаем, что кот — это живое существо, которое дышит, бегает и любит сосиски. Мы понимаем контекст. Нейросеть не знает, что такое «жизнь». Для нее любая картинка — это просто набор пикселей, пятна света и тени. Она ищет только визуальные совпадения.

Из-за этого возникают смешные путаницы. Одна из самых известных проблем для нейросетей-новичков — отличить собаку породы чихуахуа от кекса с черникой (маффина). Подумай сам: у чихуахуа светлая коричневая шерсть и три темных пятнышка на мордочке — два глаза и нос. У черничного маффина — светлое коричневое тесто и три темных пятнышка запеченных ягод.

Когда Нейроник смотрит на маффин, его «Сыщики форм» видят коричневый круг и три черные точки. Они радостно кричат Капитану: «Улики совпали! Глаза и нос на месте! Это чихуахуа!». И нейросеть с уверенностью выдает ответ, что перед нами собака, которую хочется съесть на завтрак.

Точно так же нейросеть может перепутать швабру с собакой породы командор (у которой шерсть похожа на длинные веревки), или свернувшегося рыжего кота с круассаном.

Чтобы Нейроник перестал путать собак с выпечкой, ему нужно показать еще больше примеров. Ему нужно скормить тысячи фотографий маффинов, чтобы его внутренние сыщики научились замечать крошечные отличия: например, что у ягод черники края неровные, а глаза собаки блестят на свету. Чем больше данных (примеров) получает нейросеть, тем умнее и точнее она становится.

Кто здесь главный?

Теперь ты знаешь главный секрет: внутри твоего телефона или компьютера нет никакой магии. Там работает огромная, сложная, но вполне понятная математическая сеть из цифровых нейронов. Она умеет потрясающе быстро находить закономерности, распознавать лица, рекомендовать видео и даже рисовать картины.

Но у Нейроника есть одна важная особенность. Он не умеет хотеть. У него нет собственных желаний, нет настроения, он не может обидеться или обрадоваться. Нейросеть никогда не проснется утром с мыслью: «А не нарисовать ли мне сегодня красивый пейзаж?» или «Пойду-ка я поищу в интернете смешных котов».

Цифровой помощник всегда ждет команды. Он как невероятно мощный и быстрый гоночный автомобиль. Автомобиль может ехать со скоростью света, но без пилота он так и останется стоять в гараже.

Именно поэтому в мире нейросетей самым важным звеном остается человек. Ты — пилот этого гоночного болида. От того, какую задачу ты поставишь Нейронику, какие данные ему дашь и как сформулируешь свой вопрос, зависит весь результат. Искусственный интеллект — это мощный инструмент, как волшебная палочка. Но магия происходит не в самой палочке, а в голове волшебника, который ею взмахивает.

Впереди нас ждет долгое путешествие. Мы заглянем в тренировочный лагерь нейросетей, научимся правильно с ними разговаривать, чтобы они рисовали для нас потрясающие картины и сочиняли захватывающие истории. Мы узнаем, как не дать себя обмануть хитрым цифровым иллюзиям и какие правила нужно соблюдать, чтобы оставаться добрым супергероем в интернете. Твой цифровой помощник уже ждет первой команды.

2. Как учится робот: Секреты тренировки нейросетей на примерах и картинках

Как учится робот: Секреты тренировки нейросетей на примерах и картинках

Вчера курьер доставил странную коробку с надписью «Спарк: ваш новый цифровой ученик». Внутри оказался маленький робот с круглыми светящимися глазами-камерами. Он смотрит на футбольный мяч и радостно сообщает, что это полосатый арбуз. Смотрит на пушистого кота и уверенно заявляет, что перед ним мягкая табуретка. Спарк совершенно ничего не знает об окружающем мире. У него внутри уже есть нейросеть — тот самый невидимый цифровой мозг, состоящий из слоев и нейронов, который умеет передавать сигналы. Но этот мозг пока абсолютно пуст. Чтобы Спарк начал узнавать предметы, его недостаточно просто включить в розетку или поменять батарейки. Его нужно тренировать, причем делать это по особым правилам, иначе он так и будет пытаться съесть футбольный мяч.

Обычную компьютерную программу можно просто запрограммировать: написать строгие правила, шаг за шагом. Но мы помним, что описать кота или мяч жесткими правилами невозможно: коты сворачиваются в клубок, прячутся в коробки и бывают без шерсти. Поэтому мы будем использовать машинное обучение. Мы станем для Спарка учителями и покажем ему мир через примеры.

Сундук с сокровищами: Что такое датасет

Любое обучение начинается с материалов. Когда вы учитесь читать, вам нужна азбука. Когда Спарк учится распознавать мир, ему нужен датасет.

Датасет — это огромный набор данных, специально подготовленный для тренировки нейросети. Это может быть коллекция из тысяч фотографий, миллионов текстов или аудиозаписей. Если мы хотим научить Спарка узнавать сказочных драконов, нам не обойтись одной картинкой зеленого огнедышащего ящера. Если мы покажем ему только одного дракона, Спарк решит, что драконами считаются только зеленые существа, смотрящие влево и стоящие на горе. Покажи ему красного дракона, летящего в небе — и робот скажет, что это странная птица.

Хороший датасет похож на огромный сундук с карточками, где собраны самые разные примеры. В нашем сундуке должны быть:

Красные, зеленые, черные и золотые драконы.

Драконы в полете, спящие драконы, драконы, извергающие пламя.

Драконы, нарисованные красками, и драконы из компьютерных игр.

Драконы вблизи (только морда с чешуей) и драконы издалека (маленькая точка в небе).

Чем разнообразнее примеры в датасете, тем умнее получится нейросеть. Она начнет понимать саму «суть» дракона: наличие крыльев определенной формы, чешуи, мощного хвоста, независимо от того, какого он цвета и где находится.

!Разнообразный датасет драконов

Но просто собрать картинки в кучу недостаточно. Каждую картинку нужно подписать. Этот процесс называется разметкой данных. Люди, которых называют разметчиками, сидят и аккуратно прикрепляют к каждой фотографии невидимый ярлычок: «Это дракон», «Это летучая мышь», «Это просто облако, похожее на дракона». Без этих ярлычков Спарк будет смотреть на картинки, как на красивые обои, не понимая, где правильный ответ. Разметка — это подсказки на обратной стороне карточек, в которые робот будет подглядывать во время учебы.

Прокладываем тропинки в цифровом лесу

Итак, у нас есть сундук с тысячами размеченных карточек. Как именно происходит магия обучения? Как картинка превращается в знания внутри цифрового мозга?

Внутри Спарка миллионы цифровых нейронов соединены друг с другом невидимыми нитями. Сначала эти нити очень тонкие и слабые. Представьте себе густой, нетронутый лес. Нейроны — это поляны, а связи между ними — это направления, по которым можно пойти. Когда Спарк только включается, он не знает, по какой тропинке отправить сигнал.

Мы показываем ему первую картинку дракона. Сигнал от глаз-камер попадает на первый слой нейронов (входной) и начинает случайным образом пробираться через лес к выходу. Поскольку тропинок еще нет, сигнал блуждает наугад и в итоге выходит на поляну с табличкой «Летучая мышь».

Спарк говорит: «Это летучая мышь!». Мы заглядываем в ярлычок нашего датасета и строго говорим: «Ошибка. Это дракон».

В этот момент внутри Спарка происходит самое важное — обновление весов. Вес в нейросети — это не тяжесть в килограммах. Это сила связи между двумя нейронами, ширина нашей тропинки в лесу. Программа внутри робота смотрит, по каким тропинкам бежал сигнал, приведший к ошибке, и делает их еще более узкими, заращивает их колючими кустами. А те тропинки, которые могли бы привести к правильному ответу «Дракон», программа немного расчищает, делает шире.

Мы показываем вторую картинку. Сигнал снова бежит по лесу. На этот раз он с большей вероятностью выберет расчищенные тропинки. Снова ошибка? Снова заращиваем неверные пути и расширяем верные.

!Анимация укрепления связей в нейросети

С каждой новой картинкой, с каждой попыткой и подсказкой учителя, правильные маршруты в цифровом лесу превращаются в широкие, ровные дороги. А неправильные пути окончательно зарастают травой. Когда мы покажем Спарку тысячного дракона, сигнал мгновенно, без запинок, промчится по широкому шоссе прямо к ответу «Дракон». Робот научился!

Эпохи: Почему нельзя выучить всё с первого раза

Если вы когда-нибудь учились кататься на роликах или велосипеде, вы знаете: невозможно стать мастером за один день. Вы падаете, встаете, пробуете снова. Вашему мозгу нужно время и многократные повторения, чтобы мышцы запомнили правильные движения.

Точно так же работает и нейросеть. Если мы покажем Спарку наш сундук с тысячей картинок всего один раз (от первой до последней), он, скорее всего, запомнит лишь малую часть. Тропинки в его цифровом лесу еще не станут достаточно широкими.

Один полный просмотр всех карточек из датасета называется эпохой обучения.

Чтобы Спарк стал настоящим экспертом, ему нужно пройти множество эпох.

На первой эпохе он угадывает правильно только в 10 случаях из 100. Он путает крылья дракона с ушами слона.

На десятой эпохе он уже отличает драконов от слонов, но все еще путает их с летучими мышами. Правильных ответов — 50 из 100.

На пятидесятой эпохе тропинки в его мозге становятся четкими. Он обращает внимание на форму чешуи и хвоста. Правильных ответов — 95 из 100.

Количество эпох настраивают инженеры. Это похоже на расписание тренировок. Если тренироваться слишком мало, робот останется глупым. Но если тренироваться слишком много, может случиться кое-что неожиданное и неприятное.

Ловушка для отличников: Переобучение и зубрежка

Представьте ученика, которому нужно сдать тест по математике. Вместо того чтобы понять, как складывать и вычитать числа, он просто вызубрил наизусть все ответы из учебника: «Если в задаче написано про два яблока и три груши, ответ — пять». Он получает пятерку. Но на следующий день учитель дает похожую задачу про два банана и три апельсина. Ученик впадает в ступор — он не знает ответа, потому что в учебнике не было бананов. Он не понял правило, он просто запомнил конкретные картинки.

В мире нейросетей эта проблема называется переобучением (или зубрежкой). Это злейший враг любого разработчика искусственного интеллекта.

Как это происходит со Спарком? Допустим, мы показываем ему датасет с пингвинами 500 эпох подряд. Нейросеть так сильно хочет угадывать правильно, что начинает искать самые легкие пути. Робот замечает одну хитрость: на всех фотографиях с пингвинами на заднем фоне есть белый снег. А на фотографиях без пингвинов снега нет (там джунгли, пустыни или города).

Вместо того чтобы изучать сложную форму клюва, черно-белые перья и лапки, ленивая нейросеть Спарка прокладывает одну огромную прямую дорогу: «Видишь много белого цвета вокруг — говори ПИНГВИН».

Во время тренировки Спарк показывает невероятный результат — 100% правильных ответов! Инженеры радуются. Но потом они привозят Спарка в зоопарк, где пингвин гуляет по зеленой траве в летнем вольере. Спарк смотрит на пингвина, не видит белого снега и уверенно заявляет: «Это не пингвин. Это, наверное, маленький толстый человек во фраке». А потом Спарк смотрит на сугроб во дворе и радостно кричит: «О, пингвин!».

!Робот путает сугроб и пингвина из-за переобучения

Переобучение означает, что нейросеть выучила не сам объект, а его фон, случайные пятна на фотографии или даже логотип фотографа в углу кадра. Чтобы избежать зубрежки, инженеры используют разные хитрости: они специально портят картинки во время тренировки, переворачивают их вверх ногами, меняют цвета, добавляют шум. Это заставляет нейросеть трудиться и искать настоящие, важные признаки объекта (клюв, форму тела), а не полагаться на цвет фона.

Правило гнилого яблока: Мусор на входе — мусор на выходе

Качество обучения зависит не только от количества эпох, но и от честности самих данных. В мире программистов есть знаменитое правило, которое звучит по-английски как «Garbage in, garbage out» (GIGO). По-русски это означает: «Мусор на входе — мусор на выходе».

Нейросеть не обладает врожденным здравым смыслом. У нее нет интуиции. Она верит только тому, что написано на ярлычках в датасете.

Представьте, что в наш сундук с карточками пробрался шутник. Он взял сотню фотографий обычных зеленых лягушек и приклеил к ним ярлычки «Дракон». А на фотографии настоящих драконов наклеил ярлычки «Летающая ящерица».

Спарк начинает тренировку. Его связи-тропинки послушно перестраиваются под новые правила. Он честно пытается найти общие черты у драконов и лягушек. В итоге его цифровой мозг приходит к выводу, что дракон — это маленькое, скользкое существо, которое квакает в болоте.

Когда обучение закончится, вы покажете Спарку величественного огнедышащего дракона, а он назовет его ящерицей. Вы покажете ему лягушку, и он в ужасе спрячется, крича: «Берегитесь, это дракон, сейчас он спалит нас огнем!».

Робот не виноват. Он сделал ровно то, о чем его просили данные. Если вы кормите нейросеть плохими, ошибочными или злыми примерами, она вырастет глупой или злой. Именно поэтому создание хорошего датасета — это самая дорогая и сложная часть работы над искусственным интеллектом. Инженеры тратят месяцы, проверяя тысячи картинок вручную, чтобы ни одна «лягушка» не пробралась в папку с «драконами».

Главный экзамен: Как проверить честность робота

Итак, мы собрали отличный датасет, проверили все ярлычки, прогнали Спарка через 50 эпох обучения и боролись с его желанием зубрить фон. Как нам теперь убедиться, что он действительно поумнел и готов к реальному миру?

Нельзя проверять знания Спарка на тех же карточках, по которым он учился. Это все равно что дать ученику на контрольной работе те же самые примеры, которые он решал дома с решебником. Он просто выдаст заученные ответы.

Чтобы проверка была честной, ученые используют хитрый трюк еще до начала обучения. Они берут весь свой огромный сундук с данными и делят его на две неравные части:

Тренировочная выборка (примерно 80% всех карточек) — это учебники. Их мы отдаем Спарку. По ним он настраивает свои веса-тропинки, ошибается, исправляется и учится.

Тестовая выборка (оставшиеся 20% карточек) — это секретный сейф. Мы прячем эти картинки под замок и ни в коем случае не показываем их Спарку во время тренировки. Робот даже не подозревает об их существовании.

Наступает день экзамена. Обучение остановлено, веса зафиксированы. Тропинки в лесу больше не меняются. Мы достаем из сейфа тестовую выборку — совершенно новые фотографии драконов, которых Спарк никогда в жизни не видел. Один нарисован карандашом, другой слеплен из пластилина, третий прячется в пещере.

Мы показываем их роботу одну за другой. Сейчас он не получает подсказок. Мы не говорим ему «правильно» или «ошибка». Мы просто записываем его ответы.

Если на тренировочных карточках Спарк угадывал 99% драконов, а на секретных тестовых карточках угадал только 50% — значит, он нас обманул. Произошло переобучение, он просто вызубрил учебник, но не понял суть. Придется стирать ему память, менять настройки, добавлять новые картинки с разными фонами и начинать тренировку заново.

Но если Спарк смотрит на пластилинового дракона из секретного сейфа, на секунду задумывается, анализирует форму крыльев и хвоста, а затем уверенно произносит: «Это дракон!», и так происходит в 95 случаях из 100 — мы можем праздновать победу. Цифровой мозг справился с задачей. Он научился обобщать информацию, выделять главное и не отвлекаться на мусор. Теперь Спарк готов помогать нам в реальном мире, и мы можем доверять его электронным глазам.