Окончил курс "SRE: Стратегия и методы" от МТС¶
Итак, я окончил курс! Ура-а-а! 🎉 Это было круто и супер полезно! Спасибо организаторам и спикерам!
Читайте под катом о результатах.
Сначала немного статистики¶
Курс проходил 3,5 месяца, с сентября по декабрь 2023.
В начале было 100 студентов. До финиша добрались ~35 самых мотивированных.
Мне выдали сертификат о завершении.

Результаты¶
Success
Я стал чуточку ближе к своей цели.
И совершенно точно, я стал лучшим инженером, чем до этого. Курс подсветил важные аспекты проектирования, создания, эксплуатации и развития сложных систем:
- Базовые принципы SRE: SLI, SLO, SLA, Error Budget и т.п. про контракт с бизнесом.
- Как безопасно работать с инфраструктурой. Почему важно использовать
IaC,Git,GitOpsи такие инструменты, какAnsibleиHelm. - Как строить надежные сервисы поверх менее надежной инфраструктуры. Это про то, что ты берешь в общем-то не сильно надежные элементы, как-то их комбинируешь, происходит магия и система в целом становится более надежной.
- Как создавать приложения, более пригодные для эксплуатации в продуктивной среде. SRE и службы эксплуатации скажут спасибо. А еще, это позволит проще и быстрее находить root cause отказов и восстанавливать работоспособность сервисов.
- Как делать мониторинг. Тут я получил систематизацию знаний в этой области. Так же была практика с использованием
экспортеров,
Prometheus,Grafana,AlertManager. - Как делать бэкапы и репликацию. Я и раньше проектировал и применял бэкапы, т.к. работал системным и сетевым инженером. В курсе эту тему углубили и систематизировали.
- Как делать HA кластера в
PostgreSQL.Patroni,etcd,raftи т.п. - Как делать балансировку нагрузки между ЦОД. Здесь я вспомнил свое прошлое Cisco инженера —
BGP-маршрутизацию,AS(я как-то заводил её в одном из своих проектов),advertisementsи т.п. - Что такое, зачем нужен и как делать Shift Right Testing. Эта тема мне уже знакома по книге Building Microservices. Систематизировал, закрепил.
- Как делать Performance Testing. Я и ранее использовал Python-фреймворк
locust, например, в проектах Росбанк. Но это были фрагментарные знания. Тут был дан обзор всего ландшафта и инструментов, плюсы и минусы, особенности практического применения, рекомендации. - Что такое, зачем нужен и как делать Chaos Engineering. Тут я окончательно убедился в том, что нельзя стать Solution Architect без практического опыта эксплуатации создаваемых систем. Проектирование только после чтения документации несет в себе много рисков. Гладко было на бумаге:-)
- Как составлять Post Mortem и извлекать из этого пользу. Учиться на ошибках нужно. Желательно не только на своих:-) Здесь я понял, как можно создать работающий в компании процесс и как извлечь из него максимальную пользу.
Программу курса можно посмотреть на этой странице.
Note
Напомню, киллер фича курса МТС — это то, что можно было задавать вопросы практикующим экспертам. Что я и делал на каждом занятии.
Они рассказывали не только о теории. Они "съели по пуду соли" и делились своим опытом. Это дорогого стоит!