Reliability, Recovery, Failover

Draft

Как QA мыслит о надёжности системы: устойчивость к сбоям, восстановление после ошибок и переключение на резервные механизмы.

Содержание

Надёжность системы проявляется не тогда, когда всё идеально, а тогда, когда что-то идёт не по плану. Reliability, recovery и failover testing помогают понять, как продукт ведёт себя при сбоях зависимостей, сети, данных и инфраструктуры.

Что важно проверять

  • Предсказуемость деградации при частичном отказе зависимостей.
  • Способность системы восстанавливаться без потери консистентности.
  • Поведение retry, очередей, idempotency и резервных сценариев.
  • Понятность ошибки и восстановление пользовательского пути.

Где часто ошибаются

  • Проверяют только полный отказ, но не частичную деградацию.
  • Считают успешный retry достаточным без анализа дублей и side effects.
  • Игнорируют пользовательский опыт во время восстановления.

Надёжный продукт — это не продукт без ошибок, а продукт, который умеет переживать ошибки контролируемо.