Введение в Observability: Фундаментальные основы и архитектурные подходы мониторинга

1. Три столпа Observability: концептуальное различие между метриками, логами и распределенными трассировками

Три столпа Observability: концептуальное различие между метриками, логами и распределенными трассировками

Представьте интернет-магазин в разгар ноябрьских распродаж. Загрузка процессоров на серверах держится на комфортных 40%, оперативной памяти достаточно, сетевой пинг до базы данных не превышает 5 миллисекунд. Дашборды администраторов светятся зеленым, показывая абсолютное здоровье инфраструктуры. При этом социальные сети разрываются от жалоб сотен пользователей, которые не могут оплатить корзину. Традиционный мониторинг утверждает, что система работает идеально. Реальность же такова, что бизнес теряет деньги каждую секунду из-за специфической блокировки в базе данных, возникающей только при определенной комбинации товаров в корзине.

Этот парадокс иллюстрирует фундаментальную разницу между классическим мониторингом и концепцией Observability (наблюдаемости). Мониторинг отвечает на вопрос «Работает ли система?». Observability дает ответ на вопрос «Почему она не работает так, как ожидается?».

Термин Observability пришел в IT из теории управления. В инженерном смысле система является наблюдаемой, если вы можете понять ее внутреннее состояние, анализируя исключительно ее внешние выходные данные, без необходимости внедрять новый код для отладки. Чтобы достичь такого уровня прозрачности в современных распределенных архитектурах, инженеры опираются на три фундаментальных типа данных, которые часто называют «тремя столпами наблюдаемости»: метрики, логи и распределенные трассировки.

Метрики: пульс и компас системы

Метрика — это числовое значение, измеренное в определенный момент времени. Это агрегированные данные, которые описывают поведение системы в виде временных рядов (Time-Series Data).

Структурно метрика предельно проста. Она состоит из имени, временной метки (timestamp), самого числового значения и набора пар «ключ-значение», которые называются лейблами (labels) или тегами.

Например, запись http_requests_total{method="POST", status="500", service="billing"} 42 говорит о том, что к текущему моменту сервис биллинга вернул 42 ошибки со статусом 500 при обработке POST-запросов.

Метрики обладают тремя важнейшими характеристиками:

Компактность и дешевизна хранения. Независимо от того, обработал ли ваш сервис 10 запросов или 10 миллионов, счетчик общего числа запросов займет в базе данных практически одинаковый объем памяти. Мы храним только числа и время, а не сами запросы.

Математическая предсказуемость. Поскольку метрики — это числа, к ним можно применять математические функции: вычислять скорости (rate), средние значения, перцентили, прогнозировать исчерпание дискового пространства с помощью линейной регрессии.

Идеальная основа для алертинга. Метрики позволяют легко установить порог. Если использование CPU превышает 90% в течение 5 минут — отправляется уведомление дежурному инженеру.

В мире метрик существует строгий запрет, нарушение которого приводит к падению систем мониторинга — это проблема высокой кардинальности (High Cardinality). Кардинальность — это количество уникальных комбинаций лейблов у одной метрики.

Если вы добавите в метрику лейбл http_method (GET, POST, PUT, DELETE), кардинальность увеличится в 4 раза. Это нормально. Но если неопытный разработчик решит добавить в метрику лейбл user_id, чтобы знать, сколько запросов сделал каждый клиент, система рухнет. Если у вас миллион пользователей, база данных метрик (например, Prometheus) попытается создать миллион независимых временных рядов для одной метрики. Метрики предназначены для агрегированного взгляда на систему, а не для отслеживания индивидуальных сущностей.

Логи: детализированный бортовой самописец

Если метрики показывают, что в системе произошел всплеск ошибок, они редко могут сказать, в чем именно заключалась ошибка. Для получения контекста нужны логи.

Лог — это неизменяемая запись о дискретном событии, произошедшем в системе. В отличие от метрик, логи не агрегируются при создании. Каждое событие (ошибка аутентификации, старт фонового процесса, таймаут соединения) порождает отдельную строку.

Исторически логи представляли собой простой неструктурированный текст, предназначенный для чтения человеком: 2023-10-27 15:42:01 [ERROR] Failed to connect to database 10.0.0.5: Connection timed out after 3000ms.

Такой формат удобен, если вы читаете файл глазами. Но в масштабах Enterprise-архитектуры, где тысячи контейнеров генерируют терабайты логов ежедневно, поиск по простому тексту становится катастрофически медленным. Поэтому современный стандарт Observability требует использования структурированных логов, чаще всего в формате JSON:

Структурированный лог позволяет системам агрегации мгновенно фильтровать события. Вы можете легко выполнить запрос: «покажи все логи уровня error для сервиса billing_api, где таймаут был больше 2000 мс». Заметьте, что здесь мы свободно используем user_id — для логов высокая кардинальность не является проблемой, так как они хранятся как отдельные документы, а не как временные ряды.

Главный недостаток логов — их стоимость. Сохранение, индексация и хранение каждого чиха системы требует огромных вычислительных ресурсов и дискового пространства. Поэтому в зрелых архитектурах логи часто делят на уровни (INFO, WARN, ERROR) и в штатном режиме отправляют в централизованное хранилище только предупреждения и ошибки, оставляя детальные отладочные сообщения (DEBUG) только для локальной разработки или временно включая их при расследовании инцидентов.

Распределенные трассировки: GPS для микросервисов

В эпоху монолитных приложений метрик и логов было достаточно. Если запрос выполнялся медленно, вы открывали лог монолита и видели весь путь запроса сверху вниз. С переходом на микросервисную архитектуру ситуация усложнилась: один клик пользователя в браузере может породить цепочку из десятков HTTP-вызовов и обращений к базам данных между разными сервисами, написанными на разных языках и развернутыми на разных серверах.

Распределенная трассировка (Distributed Tracing) решает проблему потери контекста между сервисами. Она позволяет визуализировать весь жизненный цикл одного запроса от момента входа в систему до возврата ответа пользователю.

!Жизненный цикл запроса в распределенной трассировке

В основе трассировки лежат два ключевых понятия:

Trace (Трейс) — представляет собой весь путь прохождения запроса через систему. Трейс имеет уникальный идентификатор (Trace ID).

Span (Спан) — представляет собой одну логическую операцию внутри трейса (например, вызов функции, SQL-запрос, обращение к внешнему API). Спан имеет собственное имя, время начала, продолжительность и идентификатор (Span ID). Спаны могут вкладываться друг в друга, образуя иерархию (Parent Span ID).

Магия трассировки заключается в механизме передачи контекста (Context Propagation). Когда Frontend-сервис принимает запрос от пользователя, он генерирует уникальный Trace ID (например, a1b2c3d4). Когда Frontend делает HTTP-запрос к API-сервису, он внедряет этот Trace ID в специальные HTTP-заголовки (часто используются стандарты W3C Trace Context или B3). API-сервис читает этот заголовок, понимает, что он является частью существующего трейса, выполняет свою работу (создавая новые спаны) и передает тот же Trace ID дальше по цепочке — в базу данных или сервис биллинга.

Трассировки незаменимы для поиска «бутылочных горлышек» (bottlenecks) производительности. Вы можете увидеть, что общий ответ занял 5 секунд не потому, что база данных тормозит, а потому, что один из микросервисов в середине цепочки делал 50 последовательных быстрых запросов вместо одного пакетного (проблема N+1).

Однако внедрение трассировок — самый сложный технический шаг. Он требует модификации кода приложений или использования интеллектуальных агентов (например, OpenTelemetry), которые перехватывают сетевые вызовы. Кроме того, сохранять 100% трейсов в высоконагруженных системах нецелесообразно. Поэтому применяется семплирование (Sampling) — система случайным образом или по заданным правилам сохраняет, например, только 1% от всех успешных запросов, но при этом 100% запросов, завершившихся ошибкой.

Синергия трех столпов: расследование инцидента

Метрики, логи и трассировки не заменяют, а дополняют друг друга. Попытка построить Observability только на одном из столпов неизбежно приведет к слепым зонам. Мощь современного стека мониторинга раскрывается, когда эти данные связаны между собой.

!Схема перехода между метриками, трейсами и логами при инциденте

Рассмотрим классический сценарий расследования инцидента в зрелой гибридной архитектуре:

Обнаружение (Метрики). Подсистема алертинга замечает аномалию: метрика http_request_duration_seconds для эндпоинта /checkout показывает, что 99-й перцентиль времени ответа вырос с 200 мс до 4 секунд. Метрики невероятно быстры, поэтому дежурный инженер получает уведомление в Telegram уже через минуту после начала деградации. Метрика сказала: «У нас проблема с производительностью чекаута».

Локализация (Трассировки). Инженер открывает дашборд и переходит к списку медленных трейсов для эндпоинта /checkout за последние 5 минут. Открыв визуализацию трейса, он видит каскад вызовов. Frontend отработал быстро, API Gateway тоже, а вот спан вызова сервиса Inventory (складские остатки) занял 3.8 секунды. Внутри этого спана видно, что проблема не в сети, а в конкретном SQL-запросе к базе данных PostgreSQL. Трейс сказал: «Проблема находится в сервисе Inventory при выполнении запроса UPDATE».

Объяснение (Логи). Инженер копирует Trace ID из проблемного спана и переходит в систему агрегации логов (например, Loki). Он делает поиск по этому Trace ID и мгновенно получает ровно те строки логов, которые были сгенерированы сервисом Inventory именно во время этого конкретного зависшего запроса. В логах он видит сообщение: [ERROR] Transaction deadlock detected: waiting for lock on table 'inventory_items' held by process 4829. Лог сказал: «Причина — взаимная блокировка транзакций в базе данных».

Без метрик мы бы узнали о проблеме только от разъяренных пользователей. Без трассировок мы бы потратили часы, пытаясь угадать, какой именно из 50 микросервисов тормозит процесс чекаута. Без логов мы бы знали, что тормозит база данных сервиса Inventory, но не понимали бы физическую причину (дедлок, нехватка соединений или упавший диск).

Именно поэтому современный стек мониторинга строится как гибридная экосистема. Инструменты вроде Zabbix могут отлично справляться с метриками инфраструктуры (железо, сеть), Prometheus становится стандартом де-факто для сбора динамических метрик с микросервисов, а Loki обеспечивает экономичную агрегацию логов. Связывание этих сущностей через единые идентификаторы (Trace ID) и общие дашборды (Grafana) превращает разрозненные данные в настоящую наблюдаемость, позволяя инженерам видеть систему насквозь.

2. Механизмы доставки данных: сравнительный анализ Pull и Push моделей в современных системах мониторинга

Представьте гигантский завод с тысячами датчиков температуры. Как центральному пульту управления узнавать об их состоянии? Есть два принципиально разных пути. Первый: каждый датчик сам кричит «у меня 45 градусов!», как только у него появляется возможность. Второй: пульт управления методично, по списку, опрашивает каждый датчик: «первый, какая температура? второй, какая температура?». Эта простая аналогия описывает фундаментальный архитектурный водораздел в инженерии Observability — выбор между Push (выталкивание) и Pull (вытягивание) моделями доставки данных.

В современных распределенных системах нет однозначно «правильного» подхода. Выбор механизма жестко диктуется топологией сети, природой собираемых данных и жизненным циклом самих приложений.

Push-модель: Инициатива на стороне агента

В Push-модели источник данных (приложение, сервер, IoT-устройство) берет на себя ответственность за доставку. На узле устанавливается агент (например, Telegraf, Fluentd или активный агент Zabbix), который собирает локальные показатели, формирует пакет данных и отправляет его по сети на центральный сервер мониторинга.

Главное преимущество этого подхода — естественное преодоление сетевых барьеров. Если ваши серверы находятся в закрытых подсетях, за NAT (Network Address Translation) или строгими файрволами, им гораздо проще инициировать исходящее соединение к известному центральному серверу, чем позволить серверу мониторинга пробиваться внутрь защищенного периметра.

Push-модель идеальна для динамических и эфемерных сред. Например, AWS Lambda-функция (бессерверные вычисления) может существовать всего несколько миллисекунд. За это время она должна успеть выполнить работу, отправить метрики и логи на сервер и исчезнуть. У центрального сервера нет никаких шансов узнать о ее существовании и успеть опросить ее.

Однако у Push-модели есть серьезные архитектурные риски.

Во-первых, это проблема «ревущего стада» (Thundering Herd). Допустим, у вас 10 000 серверов, которые отправляют метрики раз в минуту. Внезапно происходит кратковременный сбой сети перед сервером мониторинга. Агенты на серверах начинают накапливать данные в локальных буферах. Как только сеть восстанавливается, все 10 000 агентов одновременно сбрасывают накопленные мегабайты данных на сервер. Сервер не справляется с пиковой нагрузкой (I/O диска или CPU), падает, агенты снова начинают копить данные, и цикл повторяется.

Во-вторых, в чистой Push-модели сервер страдает от «слепоты» к мертвым узлам. Если сервер перестал получать данные от узла database-04, что это значит? Узел сгорел? Упал процесс агента? Проблема с сетью? Или узел просто штатно выведен из эксплуатации и больше не должен ничего слать? Сервер не знает контекста, он лишь пассивно принимает то, что ему дают.

!Архитектурное сравнение Push и Pull моделей

Pull-модель: Диктатура центрального сервера

В Pull-модели инициатива полностью принадлежит серверу мониторинга (яркий пример — Prometheus). Приложения или агенты (экспортеры) просто открывают локальный HTTP-порт и вывешивают на нем текущее состояние системы. Сервер мониторинга имеет конфигурацию (или динамический список) всех целей и периодически обходит их, скачивая данные.

Этот подход кардинально меняет баланс сил в системе.

Pull-модель дает абсолютный контроль над нагрузкой. Сервер сам решает, с какой частотой опрашивать узлы. Если сервер перегружен, он может замедлить опрос. Проблема «ревущего стада» здесь невозможна физически: сервер никогда не запросит больше данных, чем способен переварить.

Кроме того, Pull-модель предоставляет бесплатный мониторинг доступности (Dead Man's Switch). Если Prometheus пытается опросить узел и получает ошибку Connection Refused или таймаут, он мгновенно и точно знает: процесс недоступен. Ему не нужно гадать, почему нет данных, сам факт неудачного HTTP-запроса уже является важнейшей метрикой (в Prometheus она записывается как up == 0).

Отладка в Pull-модели невероятно проста. Если вы сомневаетесь, какие метрики отдает ваше приложение, вам не нужно смотреть логи агентов или дампить сетевой трафик. Вы просто заходите на сервер и выполняете команду: curl http://localhost:8080/metrics Вы сразу видите сырой текст, который приложение подготовило для сервера мониторинга.

Но у Pull-модели есть свои «скелеты в шкафу». Главная боль — это Service Discovery (обнаружение сервисов). Чтобы сервер мог кого-то опросить, он должен знать его IP-адрес. В статичной инфраструктуре адреса можно прописать в конфигурационный файл. Но в кластере Kubernetes контейнеры создаются и удаляются каждую секунду, меняя IP-адреса. Pull-сервер должен быть глубоко интегрирован с API оркестратора (например, Kubernetes API или Consul), чтобы непрерывно актуализировать список целей для опроса.

Вторая проблема — маршрутизация. Если у вас есть центральный Prometheus в дата-центре А, а опрашивать нужно базы данных в дата-центре Б, вам придется настраивать VPN-туннели, пробрасывать порты или ставить промежуточные прокси-серверы, так как дата-центр Б не пустит внешний трафик внутрь своей сети.

Столкновение миров: короткоживущие задачи

Один из самых интересных архитектурных конфликтов возникает при попытке мониторить скрипты резервного копирования или миграции баз данных с помощью Pull-системы.

Рассмотрим сценарий: у нас есть скрипт, который запускается по расписанию, выполняется 3 секунды, обновляет метрику «успешных бэкапов» и завершается. Сервер Prometheus настроен на интервал опроса секунд.

!Проблема короткоживущих задач при Pull-модели

Вероятность того, что момент опроса сервером совпадет с окном в 3 секунды, когда скрипт жив и отдает метрики, крайне мала. Данные будут потеряны.

Для решения этой проблемы в Pull-системах создают искусственные Push-прослойки. В экосистеме Prometheus это компонент Pushgateway. Короткоживущий скрипт перед завершением пушит свои финальные метрики в Pushgateway. Этот шлюз работает постоянно, хранит последнее полученное значение в оперативной памяти и покорно отдает его Prometheus, когда тот приходит с очередным пуллом. Таким образом, сохраняется общая Pull-архитектура, но решается проблема эфемерности.

Природа данных диктует модель

Важно понимать, что спор между Push и Pull актуален в первую очередь для метрик — числовых показателей состояния системы в конкретный момент времени. Метрика — это срез реальности. Если мы не опросили датчик температуры сейчас, мы опросим его через 10 секунд; мы потеряем гранулярность, но не сломаем картину мира.

Совершенно иная ситуация с логами и трейсами. Лог — это дискретное событие («Пользователь X удалил таблицу Y»). Трейс — это цепочка вызовов конкретного запроса. Эти данные нельзя «опрашивать» раз в 15 секунд. Если событие произошло, оно должно быть сохранено, иначе мы потеряем критически важную бизнес-информацию или аудит безопасности.

Поэтому системы сбора логов (Elasticsearch, Loki, Splunk) и распределенной трассировки (Jaeger, Tempo) всегда работают по Push-модели. Приложение или локальный агент на сервере отлавливает событие в момент его возникновения и выталкивает в хранилище.

В реальной Enterprise-инфраструктуре никогда не используется только одна модель. Вы будете использовать Pull для сбора инфраструктурных метрик серверов и баз данных, потому что это дает предсказуемую нагрузку и отличный контроль состояния. Одновременно вы будете использовать Push для сбора логов, трейсов и метрик от бессерверных функций. Понимание сильных и слабых сторон каждого механизма доставки — это фундамент, на котором строится гибридная архитектура Observability, способная пережить как сетевые штормы, так и масштабирование до тысяч узлов.

3. Стратегия гибридного мониторинга: обоснование совместного использования Zabbix, Prometheus и Loki в Enterprise-инфраструктуре

В IT-сообществе регулярно вспыхивают споры: одни инженеры утверждают, что классические системы мониторинга безнадежно устарели и всё нужно переводить на современные cloud-native инструменты, другие жалуются, что новые решения не способны адекватно отслеживать состояние физических коммутаторов и старых баз данных. На практике попытка натянуть один инструмент на всю инфраструктуру крупной компании всегда заканчивается провалом. Enterprise-инфраструктура — это слоистый пирог, где двадцатилетний мейнфрейм или монолитная база данных соседствуют с микросервисами, которые живут от нескольких минут до пары часов.

Чтобы получить полную картину происходящего, требуется гибридная стратегия. Она строится на признании простого факта: разные архитектурные слои генерируют данные разной природы, и для их обработки нужны специализированные механизмы.

Анатомия Enterprise-инфраструктуры

Крупная корпоративная сеть редко бывает однородной. Исторически она обрастает системами, которые невозможно или экономически нецелесообразно переписывать. Всю эту среду можно разделить на две большие зоны: статику и динамику.

Статическая зона (Legacy & Core) включает физические серверы, системы хранения данных (СХД), сетевое оборудование (маршрутизаторы, коммутаторы, файрволы) и монолитные приложения. Главная характеристика этой зоны — постоянство. IP-адрес центрального маршрутизатора или сервера с базой данных Oracle не меняется годами. Оборудование здесь общается по старым, жестко стандартизированным протоколам вроде SNMP или IPMI.

Динамическая зона (Cloud-Native) состоит из контейнеров, оркестраторов (Kubernetes), serverless-функций и микросервисов. Здесь царит хаос с точки зрения классического сетевого инженера: IP-адреса эфемерны, приложения постоянно масштабируются (скейлятся) вверх и вниз, контейнеры уничтожаются и создаются заново десятки раз в день.

Попытка мониторить динамическую зону инструментами для статической приводит к переполнению баз данных мертвыми узлами. Попытка мониторить статику инструментами для динамики разбивается об отсутствие нужных протоколов и невозможность установить агенты на закрытое железо (например, на аппаратный балансировщик).

Именно поэтому фундамент гибридного мониторинга опирается на три разных по своей природе инструмента: Zabbix, Prometheus и Loki.

Zabbix: Хранитель статического фундамента

Zabbix — это классическая система мониторинга корпоративного класса. В её основе лежит реляционная база данных (чаще всего PostgreSQL или MySQL). Реляционная модель идеально подходит для описания сложных связей и иерархий: узел сети (Host) принадлежит к группе (Host Group), к узлу привязан шаблон (Template), в шаблоне есть элементы данных (Items), на которые завязаны триггеры (Triggers).

Сильные стороны Zabbix раскрываются там, где инфраструктура имеет четкую структуру и предсказуемое поведение:

Мониторинг сетевого оборудования. Zabbix из коробки превосходно работает с протоколом SNMP. Он может автоматически опросить коммутатор Cisco, найти все 48 портов, создать для каждого графики пропускной способности и повесить триггеры на ошибки интерфейса.

Сложная логика алертинга. Благодаря доступу к историческим данным в реляционной БД, Zabbix позволяет строить математически сложные условия для срабатывания тревоги. Например, можно задать правило: поднять тревогу, если текущая загрузка процессора на протяжении последних 10 минут, И при этом она больше, чем средняя загрузка в это же время ровно неделю назад.

Инвентаризация. Zabbix умеет хранить серийные номера, версии прошивок, MAC-адреса и геолокацию оборудования, выступая в роли базовой CMDB (Configuration Management Database).

Однако реляционная природа Zabbix становится его узким местом в cloud-native среде. Если Kubernetes каждую минуту создает и убивает сотни подов, Zabbix будет пытаться записывать каждый из них как новый узел в таблицы базы данных. Очень быстро таблицы разрастутся, индексы перестанут помещаться в оперативную память, и система рухнет под тяжестью собственных метаданных.

Prometheus: Двигатель динамической среды

Там, где Zabbix задыхается от высокой динамики, Prometheus чувствует себя в родной стихии. Он изначально создавался для экосистемы Kubernetes и микросервисов.

В основе Prometheus лежит Time-Series Database (TSDB) — база данных временных рядов. Она не строит сложных реляционных связей. Каждая метрика — это просто имя, набор ключ-значение (лейблы) и массив пар «время-значение».

!Архитектура гибридного мониторинга

Ключевые преимущества Prometheus для современной инфраструктуры:

Многомерная модель данных. Лейблы позволяют мгновенно фильтровать и агрегировать данные. Метрика http_requests_total{service="billing", status="500", region="eu"} позволяет одним запросом узнать, сколько ошибок вернул биллинг в Европе, не создавая для этого отдельных иерархий в настройках.

Глубокая интеграция с Service Discovery. Prometheus (используя Pull-модель) непрерывно опрашивает API Kubernetes или облачного провайдера. Как только поднимается новый под с приложением, Prometheus автоматически узнает его IP-адрес и начинает собирать метрики. Когда под умирает, сбор просто прекращается. Никаких «мертвых душ» в конфигурации не остается.

Производительность. TSDB Prometheus способна принимать миллионы значений в секунду на весьма скромном оборудовании, сжимая данные так, что одна точка (timestamp + значение) занимает всего около 1-2 байт.

Слабость Prometheus — в мониторинге традиционного железа. Чтобы собрать данные по SNMP, потребуется поднимать отдельный компонент (SNMP Exporter), который будет транслировать SNMP-ответы в формат метрик Prometheus. Настройка таких экспортеров для сотен разных моделей коммутаторов и ИБП — крайне трудоемкий процесс по сравнению с готовыми шаблонами Zabbix.

Сравнительная таблица: Zabbix vs Prometheus

Loki: Недостающий контекст

Метрики Zabbix и Prometheus отлично отвечают на вопрос «Что сломалось?» (упал сервер, выросла задержка, кончилась память). Но они редко могут ответить на вопрос «Почему это сломалось?». Для поиска первопричины нужны логи.

В Enterprise-сегменте долгое время стандартом де-факто для логов был стек ELK (Elasticsearch, Logstash, Kibana). Elasticsearch — мощнейшая поисковая система, которая строит инвертированный индекс. Это значит, что она индексирует каждое слово в каждом логе. Если приложение пишет 1 ТБ логов в день, Elasticsearch создаст индексы, которые могут занимать еще 1-2 ТБ. Это требует огромных вычислительных мощностей и дорогостоящих дисков.

Для подавляющего большинства задач мониторинга такой полнотекстовый поиск избыточен. Инженеру редко нужно искать слово «exception» по всем петабайтам логов компании. Обычно сценарий выглядит так: «Я вижу на графике Prometheus, что микросервис Payment в дата-центре East начал тормозить 5 минут назад. Покажи мне логи именно этого сервиса за это время».

Здесь на сцену выходит Grafana Loki. Его архитектурная философия звучит так: «Как Prometheus, но для логов».

Loki принципиально отказывается от полнотекстового индексирования текста лога. Вместо этого он индексирует только метаданные — те самые лейблы, которые использует Prometheus (например, app="payment", region="east"). Сам текст лога просто сжимается и складывается в дешевое объектное хранилище (например, AWS S3 или MinIO).

Такой подход дает два колоссальных преимущества в гибридной архитектуре:

Экономическая эффективность. Хранение логов в Loki обходится в разы дешевле, чем в полнотекстовых поисковых системах.

Бесшовная корреляция. Поскольку Loki и Prometheus используют идентичную систему лейблов, инженер может одним кликом перейти от графика метрики к логам того же самого приложения за тот же самый отрезок времени.

Grafana: Единое окно (Single Pane of Glass)

Наличие трех разных систем (Zabbix, Prometheus, Loki) может показаться кошмаром для дежурной смены (NOC), которой придется переключаться между тремя интерфейсами. Эту проблему решает концепция Single Pane of Glass («единое стекло» или единая панель управления), роль которой выполняет Grafana.

Grafana не хранит данные сама. Она выступает универсальным визуализатором, который умеет подключаться к десяткам различных баз данных (Data Sources).

В гибридной архитектуре инженер открывает один дашборд в Grafana, на котором:

Верхний левый график показывает загрузку канала на магистральном маршрутизаторе (данные запрашиваются из Zabbix).

Верхний правый график отображает количество HTTP-ошибок 500 в микросервисах, зависящих от этого маршрутизатора (данные из Prometheus).

Нижняя панель выводит поток логов с ошибками таймаута от этих микросервисов (данные из Loki).

Если происходит сбой сети, инженер мгновенно видит корреляцию: всплеск утилизации порта на коммутаторе (Zabbix) по времени совпадает с падением пропускной способности микросервиса (Prometheus) и появлением записей «connection reset by peer» в логах (Loki).

Совместное использование этих инструментов не является компромиссом — это осознанный архитектурный паттерн. Zabbix обеспечивает надежный контроль за физическим фундаментом и сетью, где важны состояния и иерархии. Prometheus берет на себя высоконагруженный сбор метрик с эфемерных контейнеров и приложений. Loki предоставляет детальный текстовый контекст инцидентов, не разоряя IT-бюджет. А Grafana связывает эти три потока данных в единую, логичную и удобную для человека картину, позволяя управлять сложнейшей Enterprise-инфраструктурой как единым организмом.