Перейти к содержанию

Окончил курс "SRE: Стратегия и методы" от МТС

Итак, я окончил курс! Ура-а-а! 🎉 Это было круто и супер полезно! Спасибо организаторам и спикерам!

Читайте под катом о результатах.

Сначала немного статистики

Курс проходил 3,5 месяца, с сентября по декабрь 2023.

В начале было 100 студентов. До финиша добрались ~35 самых мотивированных.

Мне выдали сертификат о завершении.

Сертификат о завершении курса "SRE: Стратегия и методы" от МТС

Результаты

Success

Я стал чуточку ближе к своей цели.

И совершенно точно, я стал лучшим инженером, чем до этого. Курс подсветил важные аспекты проектирования, создания, эксплуатации и развития сложных систем:

  1. Базовые принципы SRE: SLI, SLO, SLA, Error Budget и т.п. про контракт с бизнесом.
  2. Как безопасно работать с инфраструктурой. Почему важно использовать IaC, Git, GitOps и такие инструменты, как Ansible и Helm.
  3. Как строить надежные сервисы поверх менее надежной инфраструктуры. Это про то, что ты берешь в общем-то не сильно надежные элементы, как-то их комбинируешь, происходит магия и система в целом становится более надежной.
  4. Как создавать приложения, более пригодные для эксплуатации в продуктивной среде. SRE и службы эксплуатации скажут спасибо. А еще, это позволит проще и быстрее находить root cause отказов и восстанавливать работоспособность сервисов.
  5. Как делать мониторинг. Тут я получил систематизацию знаний в этой области. Так же была практика с использованием экспортеров, Prometheus, Grafana, AlertManager.
  6. Как делать бэкапы и репликацию. Я и раньше проектировал и применял бэкапы, т.к. работал системным и сетевым инженером. В курсе эту тему углубили и систематизировали.
  7. Как делать HA кластера в PostgreSQL. Patroni, etcd, raft и т.п.
  8. Как делать балансировку нагрузки между ЦОД. Здесь я вспомнил свое прошлое Cisco инженера — BGP-маршрутизацию, AS (я как-то заводил её в одном из своих проектов), advertisements и т.п.
  9. Что такое, зачем нужен и как делать Shift Right Testing. Эта тема мне уже знакома по книге Building Microservices. Систематизировал, закрепил.
  10. Как делать Performance Testing. Я и ранее использовал Python-фреймворк locust, например, в проектах Росбанк. Но это были фрагментарные знания. Тут был дан обзор всего ландшафта и инструментов, плюсы и минусы, особенности практического применения, рекомендации.
  11. Что такое, зачем нужен и как делать Chaos Engineering. Тут я окончательно убедился в том, что нельзя стать Solution Architect без практического опыта эксплуатации создаваемых систем. Проектирование только после чтения документации несет в себе много рисков. Гладко было на бумаге:-)
  12. Как составлять Post Mortem и извлекать из этого пользу. Учиться на ошибках нужно. Желательно не только на своих:-) Здесь я понял, как можно создать работающий в компании процесс и как извлечь из него максимальную пользу.

Программу курса можно посмотреть на этой странице.

Note

Напомню, киллер фича курса МТС — это то, что можно было задавать вопросы практикующим экспертам. Что я и делал на каждом занятии.

Они рассказывали не только о теории. Они "съели по пуду соли" и делились своим опытом. Это дорогого стоит!

Что дальше?

  1. Нашли эту статью полезной? Поделитесь ею и помогите распространить знания!
  2. Нашли ошибку или есть идеи 💡 о том, что и как я могу улучшить? Напишите мне в Telegram.
  3. Хотите узнать обо мне больше? Читайте здесь.