Прохожу курс "SRE: Стратегия и методы" от МТС
Я проектирую и создаю приложения, которые потом довожу до продуктивной среды. Я делаю всё, чтобы команда могла спокойно спать по ночам, отдыхать на выходных и праздниках.
Но, чтобы я ни делал, в моей практике отказы все равно случались. И я уверен, что еще будут случаться. Поэтому, тема надежности и восстановления после отказов интересует меня особенно.
Смотрите под катом: краткое описание, ссылки на видеозаписи лекций и презентации, информация о дополнительных материалах.
SRE: Cтратегия и методы
Курс МТС.Тета для тех, кто хочет стать SRE-инженером. Этот курс живо перекликается с результатами анализа демографической ситуации в РФ. Напомню один из выводов: "Нанимать через собственное корпоративное обучение → дообучать, а не ждать готовых с рынка."
Tip
SRE могут и должны участвовать в процессе построения архитектуры приложений.
Страница курса: https://www.teta.mts.ru/sre_education.
На входе было тестовое задание. Пришлось попотеть — я потратил субботний день, чтобы его пройти.
В программу включены лекции и домашние задания. Первое занятие прошло 19 сентября 2023 года.
Лекции
Ниже приведена таблица с перечнем занятий, ссылками на видео и презентации. Все ссылки без ограничения доступа, предоставлены авторами курса.
Домашние задания
Скажу сразу: практические домашние задания — супер полезные! Да, пришлось поразбираться в чем-то новом. Зато в голове постепенно складывается комплексное видение и на кончиках пальцев появляются нужные навыки.
Схему функциональной структуры сетапа и результат выполнения первой домашки можно посмотреть в этом репо:
https://gitlab.com/vkolupaev/mts-sre-course/. В ней я создавал отказоустойчивый сетап приложения в MTS Cloud с помощью Ansible
и Helm
.
Во второй домашке я настраивал мониторинг: экспортеры, Prometheus
+ AlertManager
, дашборды в Grafana
.
В третьей домашней работе я планировал и выполнял нагрузочное тестирование с помощью Python фреймворка locust
. В
результате тестов я нашел предел производительности системы, определил узкое место, сформулировал рекомендации
улучшению производительности системы.
Сейчас вот работаю над четвертой домашней работой по теме Chaos Engineering.
Полезные ссылки от других слушателей курса
- Мониторинг:
- Нагрузочное тестирование:
- Chaos Engineering:
- Прочее:
Другие ресурсы по SRE
У Тинькофф Образования есть бесплатный курс "Лекторий по SRE": https://edu.tinkoff.ru/.
Это предзаписанный курс без живого общения, как у МТС. Киллер фича курса МТС — это то, что вы можете задать вопросы практикующим экспертам. Они рассказывают не только о теории, а еще о том, как она реализуется в условиях российской действительности. Но контент Тинькофф все равно годный. Например, в нем есть пример структуры постмортема.
Quote
Полноценный анализ сбоя с привлечением всех участников — дорогостоящая история, которая обычно занимает 2—3 рабочих дня. Полный анализ мы делаем только для крупных сбоев. Для менее серьезных случаев мы разработали в Тинькофф упрощенный вариант — опросник после сбоя. Процедура отнимает мало времени и позволяет собирать статистику даже по маленьким инцидентам. Варианты ответов: да, нет, неприменимо, неизвестно.
Дополнительно я скачал себе несколько книг по SRE от O'Reilly и Google. Если заинтересует, пишите в Telegram, контакты внизу.
Еще курсы от МТС
Справочно, я обнаружил у МТС еще следующие курсы:
- GoLang: https://www.teta.mts.ru/golang.
- DevOps: https://www.teta.mts.ru/devops-practice.
Вдруг, кому-то пригодится.