Перейти к содержанию

Прохожу курс "SRE: Стратегия и методы" от МТС

Я проектирую и создаю приложения, которые потом довожу до продуктивной среды. Я делаю всё, чтобы команда могла спокойно спать по ночам, отдыхать на выходных и праздниках.

Но, чтобы я ни делал, в моей практике отказы все равно случались. И я уверен, что еще будут случаться. Поэтому, тема надежности и восстановления после отказов интересует меня особенно.

Смотрите под катом: краткое описание, ссылки на видеозаписи лекций и презентации, информация о дополнительных материалах.

SRE: Cтратегия и методы

Курс МТС.Тета для тех, кто хочет стать SRE-инженером. Этот курс живо перекликается с результатами анализа демографической ситуации в РФ. Напомню один из выводов: "Нанимать через собственное корпоративное обучение → дообучать, а не ждать готовых с рынка."

Tip

SRE могут и должны участвовать в процессе построения архитектуры приложений.

Страница курса: https://www.teta.mts.ru/sre_education.

На входе было тестовое задание. Пришлось попотеть — я потратил субботний день, чтобы его пройти.

В программу включены лекции и домашние задания. Первое занятие прошло 19 сентября 2023 года.

Лекции

Ниже приведена таблица с перечнем занятий, ссылками на видео и презентации. Все ссылки без ограничения доступа, предоставлены авторами курса.

Тема Видео Презентация
01 Что такое SRE, чем отличается от DevOps Смотреть видео >>> Смотреть презентацию >>>
02 Базовые принципы SRE: автоматизация, blameless Смотреть видео >>> Смотреть презентацию >>>
03 Как безопасно работать с инфраструктурой Смотреть видео >>> Смотреть презентацию >>>
04 Как строить надежные сервисы поверх менее надежной инфраструктуры Смотреть видео >>> Смотреть презентацию >>>
05 Из чего состоит и как работает идеальное приложение Смотреть видео >>> Смотреть презентацию >>>
06 Мастер-класс по DevOps Смотреть видео >>>
07 Введение в мониторинг Смотреть видео >>> Смотреть презентацию >>>
08 Мониторинг Лекция №2 Смотреть видео >>> Смотреть презентацию >>>
09 Бэкапы и репликации Смотреть видео >>> Смотреть презентацию >>>
10 Кластера и HA в Postgers Смотреть видео >>> Смотреть презентацию >>>
11 Балансировка нагрузки Смотреть видео >>> Смотреть презентацию >>>
12 Мастер-класс по настройке мониторинга Смотреть видео >>>
13 Shift Right Testing Смотреть видео >>> Смотреть презентацию >>>
14 Performance Testing Смотреть видео >>> Смотреть презентацию >>>
15 Chaos Engineering Смотреть видео >>> Смотреть презентацию >>>
16 Post Mortem. Часть 1. Смотреть видео >>> Смотреть презентацию >>>
17 Post Mortem. Часть 2. Смотреть видео >>> Смотреть презентацию >>>
18 Post Mortem. Часть 3. Смотреть видео >>> Смотреть презентацию >>>
19 Мастер-класс по нагрузочному тестированию Смотреть видео >>> Смотреть презентацию >>>
20 Мастер-класс «Концепции SLO, SLI и Error budget: теория и практика применения» Смотреть видео >>> Смотреть презентацию >>>
21 Мастер-класс по Chaos Engineering Смотреть видео >>> Смотреть презентацию >>>

Домашние задания

Скажу сразу: практические домашние задания — супер полезные! Да, пришлось поразбираться в чем-то новом. Зато в голове постепенно складывается комплексное видение и на кончиках пальцев появляются нужные навыки.

Схему функциональной структуры сетапа и результат выполнения первой домашки можно посмотреть в этом репо: https://gitlab.com/vkolupaev/mts-sre-course/. В ней я создавал отказоустойчивый сетап приложения в MTS Cloud с помощью Ansible и Helm.

Во второй домашке я настраивал мониторинг: экспортеры, Prometheus + AlertManager, дашборды в Grafana.

В третьей домашней работе я планировал и выполнял нагрузочное тестирование с помощью Python фреймворка locust. В результате тестов я нашел предел производительности системы, определил узкое место, сформулировал рекомендации улучшению производительности системы.

Сейчас вот работаю над четвертой домашней работой по теме Chaos Engineering.

Полезные ссылки от других слушателей курса

  1. Мониторинг:
    1. Основы мониторинга PostgreSQL / Алексей Лесовский (видео).
    2. Основы мониторинга PostgreSQL / Алексей Лесовский (статья).
  2. Нагрузочное тестирование:
    1. k6.
    2. GitHub: xk6-dashboard.
    3. Николай Максимов — Нагрузочное тестирование с помощью Python и Locust. GitHub: NikolaiMaximov/heisenbug_2022.
  3. Chaos Engineering:
    1. Непростые истории Chaos Engineering.
    2. Полный Абзац.
  4. Прочее:
    1. Подборка видео с последнего SREcon.
    2. Как настроить SSH-Jump Server.

Другие ресурсы по SRE

У Тинькофф Образования есть бесплатный курс "Лекторий по SRE": https://edu.tinkoff.ru/.

Это предзаписанный курс без живого общения, как у МТС. Киллер фича курса МТС — это то, что вы можете задать вопросы практикующим экспертам. Они рассказывают не только о теории, а еще о том, как она реализуется в условиях российской действительности. Но контент Тинькофф все равно годный. Например, в нем есть пример структуры постмортема.

Quote

Полноценный анализ сбоя с привлечением всех участников — дорогостоящая история, которая обычно занимает 2—3 рабочих дня. Полный анализ мы делаем только для крупных сбоев. Для менее серьезных случаев мы разработали в Тинькофф упрощенный вариант — опросник после сбоя. Процедура отнимает мало времени и позволяет собирать статистику даже по маленьким инцидентам. Варианты ответов: да, нет, неприменимо, неизвестно.

Дополнительно я скачал себе несколько книг по SRE от O'Reilly и Google. Если заинтересует, пишите в Telegram, контакты внизу.

Еще курсы от МТС

Справочно, я обнаружил у МТС еще следующие курсы:

  1. GoLang: https://www.teta.mts.ru/golang.
  2. DevOps: https://www.teta.mts.ru/devops-practice.

Вдруг, кому-то пригодится.

Что дальше?

  1. Нашли эту статью полезной? Поделитесь ею и помогите распространить знания!
  2. Нашли ошибку или есть идеи 💡 о том, что и как я могу улучшить? Напишите мне в Telegram.
  3. Хотите узнать обо мне больше? Читайте здесь.