RedHat OpenShift Container Platform Monitoring
Документация
Check-list
Cluster:
- Получить доступ к кластеру OCP (RHODS). Выяснить текущую версию кластера, чтобы читать правильную документацию.
- Установить утилиту OpenShift CLI
oc
версии, соответствующей версии кластера. - A cluster administrator has enabled monitoring for user-defined projects.
- A cluster administrator has enabled alert routing for user-defined projects.
- Получить у администратора кластера привилегии, необходимые для выполнения работ.
- Настроить Alerting rules for user-defined projects.
User-defined project:
- Создать user-defined project.
- Создать
NetworkPolicy
. - Создать
Service
. RHODS (на базе Kubeflow) автоматически создаетService
безlabels
, которые пригодятся вPromQL
для фильтрации метрик. Чтобы добавитьlabels
, нужно создать ещё одинService
и старгетировать его на тот жеstatefulset
. - Создать
ServiceMonitor
CRD.
Привилегии
Роль | Что дает | Ссылка на документацию |
---|---|---|
cluster-monitoring-view * |
1. View permisssions for all projects (позволяет наблюдать метрики всех проектов кластера из его веб-интерфейса). 2. To access Thanos Ruler and Thanos Querier service APIs . 3. To access Alertmanager . |
1. Accessing metrics from outside the cluster for custom applications. 2. Managing alerts. 3. Querying metrics for all projects as a cluster administrator. |
monitoring-alertmanager-edit * |
Permits you to create and silence alerts in the Administrator perspective in the web console. | Managing alerts. |
monitoring-rules-edit |
1. Grants a user permission to create, modify, and delete PrometheusRule custom resources for a project. 2. Permits you to create and silence alerts in the Developer perspective in the web console. |
1. Granting users permission to monitor user-defined projects. 2. Managing alerts. |
monitoring-rules-view |
1. To list alerting rules for a user-defined project. 2. Provides read access to PrometheusRule custom resources for a project. |
Granting users permission to monitor user-defined projects. |
monitoring-edit * |
1. Grants the same privileges as the monitoring-rules-edit cluster role. 2. Additionally, it enables a user to create new scrape targets for services or pods. 3. With this role, you can also create, modify, and delete ServiceMonitor and PodMonitor resources. |
Granting users permission to monitor user-defined projects. |
user-workload-monitoring-config-edit |
1. In the openshift-user-workload-monitoring project enables you to edit the user-workload-monitoring-config ConfigMap object. 2. With this role, you can edit the ConfigMap object to configure Prometheus , Prometheus Operator , and Thanos Ruler for user-defined workload monitoring. |
1. Granting users permission to monitor user-defined projects. 2. Enabling alert routing for user-defined projects. 3. Creating alert routing for user-defined projects. |
alert-routing-edit |
1. Grants a user permission to create, update, and delete AlertmanagerConfig custom resources for a project. 2. To configure alert notification routing and receivers for user-defined projects. |
1. Granting users permission to monitor user-defined projects. 2. Enabling alert routing for user-defined projects. 3. Creating alert routing for user-defined projects. |
Вопросы по текущему конфигу для уточнения у администраторов кластера
- Сконфигурирован ли remote write storage для user-defined projects?
- Какая настроена политика ротации
Prometheus
для user-defined projects? - Сконфигурировано ли добавление cluster ID labels для метрик user-defined projects?
- Сконфигурированы ли лимиты для labels в user-defined projects (кардинальность и т.п.)?
- Добавляются ли кастомные labels для всех time series и alerts для user-defined projects?
- Включен ли alert routing for user-defined projects? Если да, то для алертов используется встроенный
Alertmanager
или сконфигурирован внешний? Справочно: - Как можно получить доступ к Observe → Targets в Administrator perspective? См. Managing metrics targets.
- А можно посмотреть статус Metrics Targets?