Перейти к содержанию

RedHat OpenShift Container Platform Monitoring

Документация

Документация по мониторингу.

Check-list

Cluster:

  • Получить доступ к кластеру OCP (RHODS). Выяснить текущую версию кластера, чтобы читать правильную документацию.
  • Установить утилиту OpenShift CLI oc версии, соответствующей версии кластера.
  • A cluster administrator has enabled monitoring for user-defined projects.
  • A cluster administrator has enabled alert routing for user-defined projects.
  • Получить у администратора кластера привилегии, необходимые для выполнения работ.
  • Настроить Alerting rules for user-defined projects.

User-defined project:

  • Создать user-defined project.
  • Создать NetworkPolicy.
  • Создать Service. RHODS (на базе Kubeflow) автоматически создает Service без labels, которые пригодятся в PromQL для фильтрации метрик. Чтобы добавить labels, нужно создать ещё один Service и старгетировать его на тот же statefulset.
  • Создать ServiceMonitor CRD.

Привилегии

Роль Что дает Ссылка на документацию
cluster-monitoring-view* 1. View permisssions for all projects (позволяет наблюдать метрики всех проектов кластера из его веб-интерфейса).
2. To access Thanos Ruler and
Thanos Querier service APIs.
3. To access Alertmanager.
1. Accessing metrics from outside the cluster for custom applications.
2. Managing alerts.
3. Querying metrics for all projects as a cluster administrator.
monitoring-alertmanager-edit* Permits you to create and silence alerts in the Administrator perspective in the web console. Managing alerts.
monitoring-rules-edit 1. Grants a user permission to create, modify, and delete PrometheusRule custom resources for a project.
2. Permits you to create and silence alerts in the Developer perspective in the web console.
1. Granting users permission to monitor user-defined projects.
2. Managing alerts.
monitoring-rules-view 1. To list alerting rules for a user-defined project.
2. Provides read access to PrometheusRule custom resources for a project.
Granting users permission to monitor user-defined projects.
monitoring-edit* 1. Grants the same privileges as the monitoring-rules-edit cluster role.
2. Additionally, it enables a user to create new scrape targets for services or pods.
3. With this role, you can also create, modify, and delete ServiceMonitor and PodMonitor resources.
Granting users permission to monitor user-defined projects.
user-workload-monitoring-config-edit 1. In the openshift-user-workload-monitoring project enables you to edit the user-workload-monitoring-config ConfigMap object.
2. With this role, you can edit the ConfigMap object to configure Prometheus, Prometheus Operator, and Thanos Ruler for user-defined workload monitoring.
1. Granting users permission to monitor user-defined projects.
2. Enabling alert routing for user-defined projects.
3. Creating alert routing for user-defined projects.
alert-routing-edit 1. Grants a user permission to create, update, and delete AlertmanagerConfig custom resources for a project.
2. To configure alert notification routing and receivers for user-defined projects.
1. Granting users permission to monitor user-defined projects.
2. Enabling alert routing for user-defined projects.
3. Creating alert routing for user-defined projects.

Вопросы по текущему конфигу для уточнения у администраторов кластера

  1. Сконфигурирован ли remote write storage для user-defined projects?
  2. Какая настроена политика ротации Prometheus для user-defined projects?
  3. Сконфигурировано ли добавление cluster ID labels для метрик user-defined projects?
  4. Сконфигурированы ли лимиты для labels в user-defined projects (кардинальность и т.п.)?
  5. Добавляются ли кастомные labels для всех time series и alerts для user-defined projects?
  6. Включен ли alert routing for user-defined projects? Если да, то для алертов используется встроенный Alertmanager или сконфигурирован внешний? Справочно:
    1. Disabling the local Alertmanager.
    2. Configuring external alertmanager instances.
    3. Separate Alertmanager instance for user-defined alert routing.
  7. Как можно получить доступ к Observe → Targets в Administrator perspective? См. Managing metrics targets.
  8. А можно посмотреть статус Metrics Targets?