Операционный гайд: runtime и метрики

Гайд описывает, где смотреть состояние MARV в проде: какие эндпоинты уже отдают готовые метрики, как читать runtime-блоки в ACP и какие флаги включают дополнительный экспорт.

Источники телеметрии

Источник	Что содержит	Как включить/получить
`POST /acp/system/metrics`	JSON c секциями `host/cache/db/http/controllers/tasks/streams/traffic_flows`	Доступно всем ACP-операторам (авторизация обязательна)
`POST /acp/cron-tasks/list`	Помимо списка задач содержит блок `runtime` с `running`, `running_since`, `runs`, `failures`, `p95`	Уже включено, обновляется в реальном времени
`POST /acp/streams/list` и `/acp/traffic-flows/list`	В ответе есть `runtime` (per-handler latencies/errors) и `commit` (сборка сервера)	Можно использовать для health-check’ов UI
`/metrics` (Prometheus)	`marv_controller_`, `marv_task_`, `marv_http_client_*` в формате Prometheus	В `config.{mode}.yml` выставить `observability.metrics.prometheus_enabled: true`

Быстрые процедуры

Проверка cron-задач

Открой /acp/cron-tasks/list.
Отсортируй по running == true, чтобы увидеть задачи, которые всё ещё исполняются (поле running_since покажет момент старта).
Сравни runs/failures с задачами прошлого часа; резкий рост Failures => проверить логи задачи и параметры HTTP вызова (URL, headers, payload).
В /acp/system/metrics → секция tasks ищи p95_duration_ms и last_error. Если p95 > SLA — возможно, задача цепляется за внешний сервис.
Для пост-мортема доступны сырые длительности в Prometheus (marv_task_last_duration_milliseconds и bucket’ы контроллеров).
У каждой задачи есть execution_scope: leader означает запуск только на лидере, all — на каждом сервере. Если таск неожиданно не исполняется, убедись, что текущий узел лидер или что scope выставлен корректно.

Мониторинг потоков и трафика

/acp/streams/list и /acp/traffic-flows/list возвращают runtime c count, errors, avg_ms, p95_ms. Это тот же recorder, что и в /acp/system/metrics.controllers.
Проверяй commit → легко понять, какая версия кода отдает страницу.
Если errors > 0, сразу смотри controller_metrics по маршруту (пример: /acp/system/metrics → controllers["/acp/streams/list"]).

HTTP‑клиенты и ретраи

http.total_requests/errors/duration_ms_sum видны в /acp/system/metrics.http.
Buckets задаются через observability.metrics.http_buckets_ms; они же попадут в Prometheus (marv_http_client_duration_milliseconds_sum + счетчики по bucket’ам).
Даже при использовании internal/infrastructure/http/retry статистика берётся с базового клиента, поэтому повторные запросы учитываются.

Трассировка запросов

Middleware RequestID добавляет X-Request-Id в каждый ответ и записывает его в gin.Context как request_id.
ControllerMetricsMiddleware прокидывает trace_id=request_id в логгер (zerolog) и в gin.Context.
В логах ищи trace_id=<request-id> → это тот же ID, что вернул клиенту HTTP-слой.
Если нужен признак страны клиента, смотри заголовок X-Client-Country-Code (проксируется из CF-IPCountry Cloudflare’а).
Для идентификации конкретного узла/процесса используй заголовок X-Server-Id: значение берётся из app.server.id (если не задан, контейнер сгенерирует ID сам) и синхронизируется с лидер-выборами (app.server.is_leader в runtime-конфиге показывает текущее состояние).

Настройка Prometheus

Настройки Prometheus — см. Наблюдаемость и Основной конфиг, секция observability.metrics.

Чек-лист on-call

Падение UI / ACP → POST /acp/system/metrics, убедиться, что контроллерные метрики приходят, посмотреть host.uptime_seconds.
Жалобы на задания → /acp/cron-tasks/list + tasks секция в системных метриках.
Проблемы со стримами/трафиком → runtime-блоки в соответствующих списках; фильтруем по errors.
Внешние интеграции → HTTP секция (total_requests, кастомные buckets) + логи по trace_id.
Аудит версии → поле commit в ACP-ответах + version (если выставлен) в /acp/system/metrics.

Этот гайд дополняет документ по наблюдаемости. Здесь собраны именно операционные процедуры.

Операционный гайд: runtime и метрики ​

Источники телеметрии ​

Быстрые процедуры ​

Проверка cron-задач ​

Мониторинг потоков и трафика ​

HTTP‑клиенты и ретраи ​

Трассировка запросов ​

Настройка Prometheus ​

Чек-лист on-call ​