Get Mystery Box with random crypto!

Чек лист от Charles Li по поиску проблем ну и бонусом интересн | Бесконечное ИТ

Чек лист от Charles Li по поиску проблем ну и бонусом интересный кейс с ошибкой на балансере в Ebay.

Итак, порядок действий при сбоях (переведно и адаптировано из статьи):

1. Устранение проблемы начинается с ее проверки, подтверждения и воспроизведения.

2. Далее нужно определить масштаб сбоя.

3. Поиск причин проблемы. Копайте до тех пор пока не найдется объяснение для каждого странного отклонения которого вы видели в процессе анализа.

4. Любые данные очень важны для определения первопричины. Логи, метрики приложений, чем больше тем лучше.

5. Главным приоритетом в продакшн среде является полное устранение или уменьшение масштаба проблемы, а не ее системное решение.

Кстати распространённой проблемой для начинающих разработчиков, на мой взгляд, является именно локализация проблемы, на каком уровне она произошла, как найти этот уровень, и т.д.

https://tech.ebayinc.com/engineering/sre-case-study-url-distribution-issue-caused-by-application/