Перейти к основному содержимому

Мониторинг и алерты

Частично верифицировано

Стек мониторинга (VictoriaMetrics, Fluent Bit, Grafana) подтверждён по данным YouTrack DOTMIND-A-194 и по структуре репозитория devops-infra (devops-infra-tree.md). README репозитория devops-infra — шаблонная заглушка GitLab. Конкретные пороговые значения алертов не зафиксированы в raw-данных — носят рекомендательный характер.

Обзор

Думатель использует многоуровневую систему мониторинга для обеспечения надёжности и наблюдаемости всех компонентов платформы. Согласно архитектурному контексту, стек включает Sentry (error tracking), VictoriaMetrics (метрики), Grafana (дашборды) и Fluent Bit (сбор логов).

Подтверждённые компоненты стека (из devops-infra-tree.md)

Структура репозитория dot.mind/devops/devops-infra подтверждает наличие следующих конфигурационных артефактов:

КомпонентПуть в репозиторииТип
VictoriaMetricsLOGS/victoriametrics/vmagent.yamlvmagent config
VictoriaLogsLOGS/victorialogs/victorialogs.servicesystemd-сервис
Fluent BitLOGS/fluentbit/values.yaml, README.MDHelm values
oauth2-proxyLOGS/oauth2-proxy/oauth2-proxy.cfgКонфиг прокси для доступа к UI
NGINX (logs)LOGS/nginx/victorialogsКонфиг nginx → VictoriaLogs
Milvus UI (Attu)UI/milvus-ui-attu.yamlK8s manifest
MLflowMLFLOW/values-community.yamlHelm values
GPU OperatorGPU-OPERATOR/values.yamlHelm values
GitLab RunnersRUNNERS/values.yamlHelm values
Keycloak devkeycloak-dev/values.yaml, ingress.yamlHelm + Ingress
Keycloak prodkeycloak-prod/values.yaml, ingress.yamlHelm + Ingress
Cert-Managercert-manager/issuer-prod.yamlClusterIssuer

Инструменты мониторинга

Sentry — трекинг ошибок

Все микросервисы интегрированы с Sentry для:

  • Трекинг исключений — автоматический захват необработанных ошибок
  • Sourcemaps — маппинг ошибок в минифицированном фронтенде к исходному коду
  • Release management — привязка ошибок к конкретным релизам
  • Context enrichment — ID задач, metadata, счётчики повторов

Конфигурация:

  • Frontend (Seadragon): Sentry SDK с sourcemaps upload при сборке
  • Backend (Python-сервисы): Sentry SDK в каждом воркере Orker
  • Email-сервис (Gull): Sentry SDK для отслеживания ошибок отправки

Kubernetes — мониторинг инфраструктуры

  • Pod health checks — liveness/readiness probes
  • HPA (Horizontal Pod Autoscaler) — автоматическое масштабирование
  • Pod verification — smoke-тесты после деплоя
  • Resource quotas — лимиты CPU/Memory на namespace

NATS JetStream — мониторинг очередей

  • Количество сообщений в потоке
  • Задержка обработки (consumer lag)
  • Статус durable consumers
  • Счётчики retry и dead-letter

Алерты

Критические

МетрикаПорогДействие
Pod CrashLoopBackOffЛюбойПроверить логи, откатить деплой
NATS consumer lag> 1000 сообщенийМасштабировать воркеры
Sentry error rate spike> 10x baselineНемедленная диагностика
Database connection pool exhausted0 availableПроверить утечки соединений

Предупреждения

МетрикаПорогДействие
CPU utilization> 80% sustainedМасштабировать HPA
Memory usage> 85%Проверить утечки памяти
Response time P95> 5sПрофилирование запросов
Failed email delivery> 5%Проверить SMTP конфигурацию

Логирование

Структура логов

Все сервисы используют структурированное логирование:

  • Python-сервисы: logging модуль с JSON-форматированием
  • Next.js: console logging с Sentry integration
  • Orker workers: детализированные логи с metadata задач (ID, топик, размер)

Уровни логирования

УровеньИспользование
ERRORНеобработанные исключения, критические сбои
WARNINGОшибки бизнес-логики, retry attempts
INFOУспешные операции, деплой-события
DEBUGДетали обработки (включается через DEBUG_NATS и аналоги)