Linux для SRE: Глубокое погружение в механизмы ядра и эксплуатацию систем

1. Архитектура ядра и интерфейс системных вызовов (syscalls) для SRE

Архитектура ядра и интерфейс системных вызовов (syscalls) для SRE

Когда высоконагруженное приложение внезапно увеличивает время отклика (latency) в десять раз, а графики использования CPU показывают аномальный рост в режиме system (kernel space), стандартные инструменты мониторинга часто оказываются бесполезны. Инженер по надежности (SRE) в этот момент должен перестать смотреть на приложение как на «черный ящик» и спуститься на уровень ниже — туда, где код пользователя встречается с кодом ядра. Понимание того, как именно ядро Linux обрабатывает запросы приложения через интерфейс системных вызовов, является фундаментом для диагностики самых сложных инцидентов в распределенных системах.

Монолитная архитектура и кольца защиты

Ядро Linux часто называют «макроядерным» или монолитным. В отличие от микроядерных архитектур (например, QNX или L4), где большинство сервисов (драйверы, файловые системы, сетевые стеки) вынесены в пространство пользователя, в Linux все эти компоненты работают в едином адресном пространстве ядра. Для SRE это означает две вещи: во-первых, невероятную производительность за счет отсутствия лишних переключений контекста между сервисами, а во-вторых, риск того, что ошибка в одном модуле ядра (например, в драйвере сетевой карты) может привести к падению всей системы (Kernel Panic).

Современные процессоры x86_64 поддерживают иерархию уровней привилегий, известных как кольца защиты (Protection Rings). * Ring 0 (Kernel Mode): Здесь исполняется ядро. Оно имеет неограниченный доступ к аппаратному обеспечению, памяти и портам ввода-вывода. Любая инструкция процессора здесь легальна. * Ring 3 (User Mode): Здесь работают ваши приложения, базы данных, веб-серверы и даже Docker-контейнеры. Доступ к «железу» напрямую запрещен. Если приложение попытается прочитать сектор диска в обход ядра, процессор сгенерирует исключение, и ядро немедленно завершит процесс (Segmentation Fault).

Разделение на Ring 0 и Ring 3 — это не просто вопрос безопасности, это вопрос стабильности. Однако приложению постоянно нужно взаимодействовать с внешним миром: записывать логи, отправлять пакеты в сеть, выделять память. Чтобы сделать это безопасно, приложение должно «попросить» ядро выполнить операцию от своего имени. Этот запрос и называется системным вызовом (syscall).

Механика системного вызова: от инструкции до прерывания

Системный вызов — это не обычный вызов функции внутри программы. Когда вы вызываете printf() в C или os.Write() в Go, происходит сложная цепочка событий. Стандартная библиотека (libc для C или runtime для Go) подготавливает аргументы и инициирует переход из Ring 3 в Ring 0.

В архитектуре x86_64 для этого используется специальная инструкция процессора syscall. До появления этой инструкции использовалось программное прерывание int 0x80, которое работало значительно медленнее из-за необходимости полной очистки конвейера процессора и обращения к таблице векторов прерываний (IDT).

Процесс выполнения системного вызова выглядит следующим образом:

Приложение помещает номер системного вызова (например, 1 для write или 0 для read) в регистр %rax.

Аргументы вызова (указатели на буферы, дескрипторы файлов) помещаются в регистры %rdi, %rsi, %rdx, %r10, %r8, %r9.

Выполняется инструкция syscall.

Процессор переключает уровень привилегий на Ring 0, сохраняет указатель стека пользователя и переходит по адресу, записанному в специальном регистре (MSR — Model Specific Register), где находится точка входа в ядро (entry_SYSCALL_64).

Ядро проверяет номер системного вызова по таблице sys_call_table, проверяет права доступа процесса к запрашиваемым ресурсам и выполняет код.

Результат возвращается в регистр %rax, и управление возвращается в User Space через инструкцию sysret.

Для SRE критически важно понимать цену этого перехода. Каждый системный вызов вызывает так называемый «Context Switch» (хотя технически это переход между режимами, а не процессами, накладные расходы существенны). Если приложение делает тысячи мелких вызовов write() вместо одного большого, оно тратит значительную часть CPU на «перепрыгивание» между кольцами защиты. Это явление часто называют «Syscall Overhead».

Виртуальный системный вызов: vDSO и vsyscall

Инженеры ядра Linux понимали, что некоторые системные вызовы нужны приложениям постоянно, но при этом они не требуют изменения состояния системы. Самый яркий пример — получение текущего времени (gettimeofday или clock_gettime). Если ваше приложение пишет миллионы строк логов в секунду и каждая строка требует метки времени, постоянные переходы в Ring 0 создадут огромную нагрузку.

Чтобы оптимизировать это, был внедрен механизм vDSO (virtual Dynamic Shared Object). Это небольшой фрагмент кода ядра, который «мапится» (отображается) в адресное пространство каждого пользовательского процесса.

> vDSO позволяет выполнять определенные системные вызовы целиком в User Space, без переключения контекста и использования инструкции syscall.

Это работает так: ядро обновляет данные о времени в специальной странице памяти, доступной только для чтения пользователю. Библиотека libc при вызове gettimeofday сначала проверяет наличие vDSO. Если он есть, функция просто читает данные из памяти и возвращает их. Это в десятки раз быстрее полноценного системного вызова.

Для SRE знание о vDSO помогает при отладке: если вы видите в strace, что приложение постоянно спрашивает время, но при этом нагрузка на CPU в режиме system не растет — значит, работает vDSO. Однако, если vDSO по какой-то причине не используется (например, в очень старых дистрибутивах или при специфических настройках безопасности), вы получите деградацию производительности «на ровном месте».

Анатомия системных вызовов через призму SRE

Рассмотрим основные группы системных вызовов, которые чаще всего становятся источником проблем в эксплуатации.

Управление файлами и I/O

Здесь доминируют open, read, write, close, lseek. Важный нюанс для SRE: системный вызов write обычно считается завершенным, как только данные попали в Page Cache (кэш страниц в оперативной памяти). Ядро не гарантирует, что данные физически записаны на диск в этот момент. Если происходит сбой питания, данные в кэше теряются. Для принудительной записи используются вызовы fsync или fdatasync.

Граничный случай: если мониторинг показывает высокую задержку на fsync, это прямой индикатор того, что дисковая подсистема не справляется с потоком данных или имеет место износ SSD.

Управление процессами и памятью

Вызовы fork, vfork и clone отвечают за создание процессов и потоков. В Linux нет разделения на процессы и потоки на уровне ядра — и те, и другие являются «задачами» (task_struct), просто создаются с разными флагами разделения ресурсов через clone.

Вызов brk и mmap управляют адресным пространством. Когда ваше приложение на Python или Java запрашивает память, среда исполнения (runtime) не всегда идет к ядру. Она обычно запрашивает большой кусок через mmap и сама распределяет его внутри. Если вы видите в strace частые вызовы mmap и munmap, значит, аллокатор памяти приложения работает неэффективно, вызывая фрагментацию или избыточную нагрузку на ядро.

Сетевое взаимодействие

socket, bind, listen, accept, connect, sendto, recvfrom. Для SRE здесь кроется классическая проблема «Thundering Herd» (проблема грохочущего стада). Когда сотни процессов ждут входящего соединения на одном сокете через accept, и соединение приходит, ядро может разбудить все процессы, хотя обработать его сможет только один. Современные ядра решают это через флаг EPOLLEXCLUSIVE, но понимание механики вызова помогает диагностировать всплески CPU при установке новых соединений.

Диагностика: strace и его влияние на систему

Главный инструмент для изучения системных вызовов — strace. Он позволяет в реальном времени видеть, что приложение просит у ядра. Однако у strace есть «темная сторона», о которой обязан знать каждый SRE.

strace основан на системном вызове ptrace. Когда вы подключаетесь к процессу через strace, происходит следующее:

Процесс переходит в состояние «трассируемого».

На каждом входе в системный вызов и на каждом выходе из него процесс останавливается (сигнал SIGTRAP).

Ядро переключает контекст на strace, чтобы тот прочитал аргументы из регистров.

strace выводит строку в терминал.

Ядро переключает контекст обратно на процесс.

Это замедляет работу приложения в десятки, а иногда и в сотни раз.

> Правило SRE №1: Никогда не запускайте strace на высоконагруженном продакшн-сервисе без понимания рисков. Это может привести к срабатыванию тайм-аутов в соседних сервисах и каскадному сбою.

Для безопасной диагностики лучше использовать инструменты на базе eBPF (например, bpftrace или strace-е из пакета perf), которые собирают статистику внутри ядра без постоянных переключений контекста в User Space.

Системные вызовы и контейнеризация

Когда мы говорим о Docker или Kubernetes, мы должны помнить: контейнеры — это не виртуальные машины. У них нет своего ядра. Все процессы внутри всех контейнеров на одном хосте используют одно и то же ядро Linux.

Именно системные вызовы являются границей изоляции. Механизм seccomp (Secure Computing mode) позволяет ограничить список системных вызовов, которые может выполнять процесс. Например, контейнеру с веб-сервером вряд ли нужно вызывать reboot() или mount().

Если ваше приложение в контейнере падает с ошибкой «Operation not permitted», хотя вы запускаете его от root, скорее всего, оно пытается выполнить системный вызов, запрещенный дефолтным профилем seccomp (в Docker по умолчанию запрещено около 44 вызовов из 300+).

Обработка ошибок и сигналы

Каждый системный вызов возвращает значение. Обычно отрицательное значение указывает на ошибку, а конкретный код ошибки записывается в глобальную переменную errno.

Для SRE критически важно различать типы ошибок: * EAGAIN или EWOULDBLOCK: «Я сейчас занят, попробуй позже». Часто встречается при неблокирующем вводе-выводе. Это не повод для паники, а сигнал приложению подождать. * ENOMEM: «Закончилась память». Это предвестник визита OOM Killer. * ETIMEDOUT: «Тайм-аут на уровне ядра». Часто указывает на проблемы в сети или на слишком длинные очереди в дисковой подсистеме.

Иногда системный вызов может быть прерван сигналом (например, SIGCHLD или SIGHUP). В этом случае вызов возвращает EINTR. Правильно написанное приложение должно уметь перезапускать вызов в такой ситуации. Если же вы видите в логах массу ошибок Interrupted system call, это повод проверить, почему процесс засыпают сигналами.

Модель прерываний и Hardware-интерфейс

Хотя SRE редко пишет драйверы, понимание того, как ядро взаимодействует с железом, помогает при анализе «Soft IRQ» нагрузки. Когда пакет приходит на сетевую карту, она генерирует аппаратное прерывание (Hard IRQ). Процессор бросает все дела и переключается на обработчик прерывания в ядре.

Но обработка пакета (проход по стеку TCP/IP) — задача долгая. Чтобы не держать процессор в состоянии прерывания слишком долго, ядро выполняет только критическую часть, а остальное откладывает в «мягкое прерывание» (Soft IRQ). В top это отображается в колонке %si.

Если вы видите, что одно ядро CPU загружено на 100% в %si, а остальные простаивают — у вас проблема с распределением прерываний (IRQ Balance). Сетевая карта шлет все пакеты на одно ядро, и системные вызовы recv на других ядрах будут ждать, пока это единственное ядро закончит обработку Soft IRQ.

Взаимосвязь syscalls и производительности: пример из практики

Представьте ситуацию: база данных PostgreSQL начинает работать медленно. Вы запускаете top и видите, что iowait (время ожидания ввода-вывода) в норме, но system CPU зашкаливает.

Вы подключаетесь через perf top или strace -c (на короткое время) и видите, что 80% времени тратится на системный вызов futex. futex (Fast Userspace Mutex) — это механизм синхронизации потоков. Если потоки не конфликтуют за ресурс, они работают в User Space. Но если один поток пытается захватить заблокированный мьютекс, он делает системный вызов futex(WAIT), и ядро усыпляет его. Когда мьютекс освобождается, другой поток делает futex(WAKE).

Огромное количество вызовов futex говорит о «Lock Contention» — высокоуровневой логической проблеме в приложении, где слишком много потоков пытаются одновременно получить доступ к одной и той же структуре данных. Ядро здесь не виновато, оно лишь честно выполняет тяжелую работу по переключению контекста и управлению очередями ожидания. Для SRE это сигнал к тому, что масштабирование «вверх» (добавление ядер CPU) может только ухудшить ситуацию из-за роста накладных расходов на синхронизацию.

Буферы и копирование данных

Одна из самых дорогих операций в ядре — копирование данных между адресным пространством пользователя и ядра. Когда вы вызываете read(fd, buffer, size), ядро сначала копирует данные с диска (или из своего кэша) в буфер ядра, а затем копирует их в buffer в User Space.

Для оптимизации высоконагруженных систем SRE должен искать возможности использования «Zero-copy» механизмов: * mmap: позволяет отобразить файл напрямую в память процесса. Приложение читает файл как массив в памяти, а ядро само подгружает нужные страницы. Копирование из Kernel Space в User Space исключается. * sendfile: позволяет передать данные из дескриптора файла напрямую в дескриптор сокета. Данные вообще не заходят в User Space. Это то, почему Nginx так быстро отдает статические файлы.

Понимание этих механизмов позволяет SRE давать рекомендации разработчикам по оптимизации архитектуры приложения.

Граничные случаи: когда syscall «повисает»

Может ли системный вызов длиться вечно? В теории — нет, на практике — да. Это состояние называется "Uninterruptible Sleep" (статус D в ps или top).

Процесс в состоянии D обычно ждет завершения ввода-вывода (например, ответа от удаленной NFS-шары, которая «отвалилась»). Такой процесс невозможно убить даже через kill -9, потому что сигналы доставляются только тогда, когда процесс выходит из системного вызова или находится в состоянии прерываемого сна.

Для SRE наличие процессов в состоянии D — это критический аларм. Это означает, что ядро застряло в какой-то подсистеме (чаще всего файловой или сетевой), и это может привести к накоплению очереди (Load Average) и полной деградации хоста.

Системные вызовы как API стабильности

Линус Торвальдс известен своей жесткой позицией: "Never break user space". Это означает, что интерфейс системных вызовов в Linux остается стабильным десятилетиями. Программа, скомпилированная 15 лет назад, должна работать на современном ядре.

Для SRE эта стабильность — залог того, что инструменты диагностики и автоматизации будут работать предсказуемо. Однако само ядро внутри меняется стремительно. Появляются новые, более эффективные вызовы, такие как io_uring.

io_uring — это революция в системных вызовах, позволяющая выполнять асинхронный ввод-вывод без постоянного вызова инструкции syscall для каждой операции. Вместо этого приложение и ядро обмениваются данными через разделяемые кольцевые буферы (ring buffers). Это радикально снижает Overhead и является будущим высокопроизводительных Linux-систем.

Глубокое понимание архитектуры ядра и интерфейса системных вызовов превращает SRE из "оператора пульта управления" в "диагноста-патологоанатома", способного по косвенным признакам и трассировкам определить истинную причину деградации системы, будь то неэффективный аллокатор памяти, Lock Contention или проблемы с прерываниями сетевой карты.

2. Управление процессами, жизненный цикл потоков и работа планировщика задач

Управление процессами, жизненный цикл потоков и работа планировщика задач

Когда высоконагруженное приложение внезапно «замирает» на несколько сотен миллисекунд, а графики мониторинга показывают резкий всплеск Load Average при низкой утилизации CPU, инженер SRE оказывается перед дилеммой: это проблема неэффективного кода или особенности поведения планировщика задач Linux? Понимание того, как ядро управляет конкуренцией за процессорное время, превращает гадание на логах в точную диагностику. В Linux разница между процессом и потоком гораздо эфемернее, чем в других ОС, а планировщик CFS (Completely Fair Scheduler) работает по логике, которая иногда кажется контринтуитивной в условиях жестких лимитов контейнеризации.

Универсальная единица исполнения: task_struct

Для ядра Linux не существует принципиальной разницы между процессом и потоком в контексте планирования. Оба они представлены одной и той же структурой данных — struct task_struct. Эта структура является, пожалуй, самым важным объектом в исходном коде ядра, описывающим всё: от идентификаторов (PID) до открытых файлов, состояния памяти и сигналов.

Когда мы создаем поток внутри процесса (например, через pthread_create), ядро вызывает системный вызов clone(). Разница лишь в наборе флагов, передаваемых этому вызову. Если флаги указывают на совместное использование адресного пространства (CLONE_VM), таблицы файловых дескрипторов (CLONE_FILES) и обработчиков сигналов (CLONE_SIGHAND), мы называем это потоком. Если эти ресурсы копируются (Copy-on-Write), мы называем это процессом.

С точки зрения планировщика, каждый такой объект — это LWP (Lightweight Process). Именно поэтому в выводе команды top -H или ps -eLf вы видите каждый поток как отдельную сущность с собственным идентификатором. Для SRE это критически важно: если один поток приложения уходит в бесконечный цикл, он потребляет ресурсы конкретного ядра CPU, и планировщик будет наказывать именно этот task_struct, а не всё приложение целиком, пока не возникнет дефицит ресурсов на уровне контрольных групп (cgroups).

Состояния процесса и жизненный цикл

Жизненный цикл процесса в Linux — это не просто переход от «запущен» к «завершен». Для диагностики аномалий необходимо понимать нюансы состояний, отображаемых в столбце STAT инструментов мониторинга:

R (Running / Runnable): Процесс либо исполняется на CPU прямо сейчас, либо находится в очереди на исполнение (runqueue). Если у вас много процессов в состоянии R, но CPU загружен не полностью — значит, система не успевает переключать контекст или упирается в другие ресурсы.

S (Interruptible Sleep): Процесс ждет события (ввода-вывода, системного вызова, таймера). Его можно прервать сигналом (например, SIGKILL). Большинство потоков в типичной системе находятся именно здесь.

D (Uninterruptible Sleep): Критическое состояние для SRE. Процесс ждет завершения ввода-вывода (обычно дискового или сетевого NFS) и не может быть прерван даже kill -9. Высокое значение Load Average при низком CPU часто вызвано процессами в состоянии D. Ядро считает их «активными», так как они готовы потреблять CPU сразу после ответа железа.

Z (Zombie): Процесс завершился, но его родитель еще не прочитал код возврата через wait(). Зомби не потребляют CPU или RAM, но занимают запись в таблице процессов. Если их тысячи — вы не сможете запустить новые процессы из-за исчерпания лимита PID.

T (Stopped): Процесс остановлен сигналом (например, SIGSTOP или при отладке в gdb).

Анатомия планировщика CFS (Completely Fair Scheduler)

С версии ядра 2.6.23 основным планировщиком для задач обычного приоритета (SCHED_OTHER) является CFS. Его главная цель — имитировать «идеальный многозадачный процессор», где каждый из процессов получает мощности CPU.

В отличие от старых планировщиков, которые использовали фиксированные кванты времени (timeslices), CFS оперирует понятием vruntime (virtual runtime).

Механика vruntime

Каждый процесс имеет счетчик vruntime, который увеличивается по мере того, как процесс занимает CPU. Планировщик всегда выбирает для выполнения ту задачу, у которой vruntime наименьший. Это делает систему саморегулирующейся:

Если процесс много «спал» (ждал I/O), его vruntime не рос. Когда он просыпается, он становится приоритетным кандидатом на исполнение.

Если процесс активно вычисляет, его vruntime быстро растет, и планировщик отодвигает его в конец очереди.

Для эффективного поиска задачи с минимальным vruntime используется красно-черное дерево (Red-Black Tree). Сложность поиска следующей задачи составляет , что обеспечивает масштабируемость системы при тысячах потоков.

Влияние Nice value на планирование

Параметр nice (от -20 до +19) в CFS не определяет «приоритет» в классическом смысле слова «кто первый». Он определяет вес процесса, который влияет на скорость роста vruntime.

Формула веса примерно такова: при увеличении nice на 1, процесс получает на 10% меньше процессорного времени относительно других. Для SRE это означает, что nice — это инструмент долгосрочного распределения ресурсов, а не мгновенного ускорения задачи. Если у вас есть фоновый процесс сборки логов, установка nice 19 гарантирует, что он практически не будет мешать основному приложению, так как его vruntime будет расти «быстрее» при той же фактической нагрузке.

Переключение контекста и его цена

Context Switch — это операция, при которой ядро сохраняет состояние текущего процесса (регистры, программный счетчик, указатель стека) и загружает состояние другого. Существует два типа переключений:

Voluntary Context Switches (добровольные): Процесс сам отдает CPU, уходя в ожидание (например, вызывая sleep или ожидая данные из сокета).

Involuntary Context Switches (принудительные): Планировщик прерывает процесс, потому что его квант времени истек или в очереди появилась более приоритетная задача.

Для SRE высокий уровень принудительных переключений контекста (видны в pidstat -w) — это четкий сигнал CPU contention (борьбы за процессор). Это приводит к деградации производительности из-за «промахов» в кэше процессора (L1/L2/L3) и необходимости перезагрузки TLB (Translation Lookaside Buffer).

> "Context switching is the tax you pay for multitasking." > > Brendan Gregg, Systems Performance

Планирование в реальном времени: SCHED_FIFO и SCHED_RR

Иногда стандартной «справедливости» CFS недостаточно. Для задач, требующих предсказуемой задержки (например, драйверы или специфические финансовые приложения), Linux предоставляет политики реального времени (RT).

SCHED_FIFO: Процесс выполняется до тех пор, пока он сам не заблокируется или пока не появится процесс с еще более высоким RT-приоритетом. Квантов времени нет.

SCHED_RR (Round Robin): То же самое, что FIFO, но с ограничением по времени выполнения. Если процесс не завершился за свой квант, он уходит в конец очереди среди задач своего уровня приоритета.

Опасность для SRE: Если процесс с политикой SCHED_FIFO уйдет в бесконечный цикл, он может полностью «завесить» ядро CPU, не давая шанса даже системным процессам. Для предотвращения этого в ядре существует параметр kernel.sched_rt_runtime_us, который по умолчанию резервирует 5% времени для процессов не-RT (CFS), чтобы администратор мог хотя бы попытаться убить зависший процесс.

Групповое планирование и проблема CPU Throttling

В мире Kubernetes и Docker мы редко управляем процессами напрямую. Мы управляем контейнерами. Здесь в игру вступает Group Scheduling.

CFS умеет распределять время не только между процессами, но и между группами процессов (cgroups). Если у вас есть два пользователя, и один запустил 1 процесс, а другой — 100, CFS (при соответствующей настройке) может выделить каждому пользователю по 50% CPU, а не делить время поровну между всеми 101 процессами.

Лимиты и Периоды (CPU Quota)

В контейнерах используются два параметра: cpu.cfs_period_us и cpu.cfs_quota_us.

Period: Окно времени (например, 100мс).

Quota: Сколько микросекунд внутри этого окна группе разрешено использовать CPU.

Если квота исчерпана до конца периода, все процессы в группе приостанавливаются — наступает throttling. Пример: Вы ограничили контейнер лимитом 0.5 CPU. Это значит, что при периоде 100мс квота составит 50мс. Если приложение многопоточное и задействует 4 ядра одновременно, оно израсходует эти 50мс за мс. Оставшиеся 87.5 мс периода приложение будет полностью заблокировано ядром.

Для SRE это критический момент: средняя загрузка CPU за секунду может быть низкой (например, 20%), но из-за микро-всплесков активности приложение будет постоянно попадать под троттлинг, что вызывает резкий рост Latency (p99). Инструменты вроде top этого не покажут, нужно смотреть в /sys/fs/cgroup/cpu/cpu.stat (поле nr_throttled).

Балансировка нагрузки между ядрами (SMP)

Современные серверы — это многоядерные системы с архитектурой NUMA (Non-Uniform Memory Access). Планировщик Linux должен не просто распределять задачи, но и следить за тем, чтобы все ядра были загружены равномерно.

Domains и Migration

Ядро организует процессоры в Scheduling Domains. Балансировка происходит иерархически: сначала внутри ядер одного физического процессора (где общие кэши), затем между разными сокетами.

Миграция процесса с одного ядра на другое — дорогая операция. Она «холодит» кэш (L1/L2 данные остаются на старом ядре). Поэтому планировщик обладает «аффинностью» (affinity) — он старается оставить процесс на том же ядре, где он исполнялся ранее.

Однако, если возникает дисбаланс (одно ядро простаивает, а на другом очередь), срабатывает механизм Load Balancing. Для SRE важно понимать, что чрезмерная миграция процессов может быть вызвана неправильной настройкой топологии в виртуальных машинах или конфликтами между планировщиком ОС и планировщиком самого приложения (например, Go runtime или Java ForkJoinPool).

Практическая диагностика: от Load Average до Runqueue

Load Average — самый часто используемый и самый часто неправильно интерпретируемый показатель. В Linux это среднее количество процессов в состояниях R и D за 1, 5 и 15 минут.

Если ваш Load Average равен количеству ядер CPU, это не значит, что система перегружена. Это значит, что она загружена оптимально. Проблемы начинаются, когда Load Average стабильно превышает количество ядер (CPU saturation) или когда он высок при низком CPU (I/O wait или Lock contention).

Инструментарий SRE

Для глубокого анализа планировщика стоит использовать:

vmstat 1: Столбец r (runnable) показывает длину очереди на исполнение. Если там значения > количества ядер, задачи ждут CPU. Столбец b (blocked) — процессы в состоянии D.

pidstat -t 1: Позволяет увидеть статистику в разрезе потоков (TID), а не только процессов.

chrt: Инструмент для просмотра и изменения политики планирования (например, перевод процесса в SCHED_RR).

taskset: Позволяет жестко привязать процесс к конкретным ядрам (CPU Affinity), что полезно для изоляции критичных сервисов от «шумных соседей».

Граничный случай: Spinlocks в User Space

Иногда приложение потребляет 100% CPU, но не выполняет полезной работы. Это может происходить из-за «спинлоков» в пространстве пользователя. Вместо того чтобы вызвать системный вызов и уйти в сон (отдав CPU другим), поток в цикле проверяет условие (например, доступность переменной). С точки зрения планировщика, это активная задача в состоянии R. CFS будет честно отдавать ей кванты времени, хотя она просто сжигает электричество. Обнаружить такое поведение можно только профилированием (например, через perf), которое покажет, что большая часть времени тратится на одну и ту же инструкцию сравнения.

Взаимодействие планировщика и энергопотребления

В современных облачных средах мы редко об этом задумываемся, но на «голом железе» (Bare Metal) планировщик тесно сотрудничает с подсистемой CPUFreq. Когда нагрузка на CPU падает, планировщик может решить сгруппировать задачи на одном ядре, чтобы остальные перевести в глубокие состояния сна (C-states). Для SRE это может обернуться неожиданными задержками при «прогреве» процессора (выходе из сна), когда внезапно прилетает пачка запросов. В таких случаях часто используется профиль производительности performance в cpupower, который запрещает процессору снижать частоту.

---

Понимание механизмов работы task_struct, логики vruntime в CFS и нюансов группового планирования в cgroups позволяет SRE выйти за рамки простого перезапуска сервисов. Когда вы видите троттлинг в контейнере при 30% загрузке CPU или понимаете, почему процесс «завис» в состоянии D, вы начинаете управлять системой на уровне её фундаментальных законов. В следующей главе мы углубимся в то, как эти процессы делят между собой самый ценный ресурс — оперативную память, и что происходит, когда её становится недостаточно.