2021-03-14 17:50:03
Чек лист от Charles Li по поиску проблем ну и бонусом интересный кейс с ошибкой на балансере в Ebay.
Итак, порядок действий при сбоях (переведно и адаптировано из статьи):
1. Устранение проблемы начинается с ее проверки, подтверждения и воспроизведения.
2. Далее нужно определить масштаб сбоя.
3. Поиск причин проблемы. Копайте до тех пор пока не найдется объяснение для каждого странного отклонения которого вы видели в процессе анализа.
4. Любые данные очень важны для определения первопричины. Логи, метрики приложений, чем больше тем лучше.
5. Главным приоритетом в продакшн среде является полное устранение или уменьшение масштаба проблемы, а не ее системное решение.
Кстати распространённой проблемой для начинающих разработчиков, на мой взгляд, является именно локализация проблемы, на каком уровне она произошла, как найти этот уровень, и т.д.
https://tech.ebayinc.com/engineering/sre-case-study-url-distribution-issue-caused-by-application/
297 views14:50