Opportunity Description
A Keyrus acredita na diversidade e na inclusão. Encorajamos a todos a participarem em nosso processo de contratação, não importando o gênero, idade, raça, religião. Não permitimos nenhum tipo de discriminação. Isto é reforçado no processo de contratação e vivido dessa forma na empresa.
Papéis e Responsabilidades
- Definir e evoluir práticas de Site Reliability Engineering (SRE).
- Atuar na melhoria de disponibilidade, performance e resiliência dos sistemas.
- Implementar e evoluir estratégias de observabilidade (logs, métricas e tracing).
- Liderar iniciativas de automação de operações (AIOps / Infra as Code).
- Atuar na análise de incidentes críticos (P1/P2), incluindo post-mortem e RCA.
- Definir e acompanhar SLIs, SLOs e SLAs.
- Reduzir esforço operacional manual (toil) através de automações.
- Trabalhar em conjunto com times de desenvolvimento, cloud e suporte.
- Apoiar a evolução da cultura de...