Site Reliability Engineering Sênior
Listed on 2026-06-06
-
IT/Tech
Systems Engineer, SRE/Site Reliability, IT Support
Descrição da vaga
A Darede tem o objetivo de continuar revolucionando os negócios em Cloud no Brasil e nos tornarmos a mais relevante consultoria do segmento, afinal, THE FUTURE IS CLOUD!
Buscamos um SRE Sênior apaixonado por estabilidade, performance e automação para integrar uma Squad estratégica de Engenharia de Resiliência. O desafio principal é atuar de forma proativa em um ecossistema complexo e de alta criticidade, movendo a operação de um modelo reativo para uma cultura de confiabilidade. Você será responsável por projetar e implementar soluções que previnam falhas, garantindo que sistemas que sustentam a receita do negócio operem com máxima disponibilidade.
Se você tem curiosidade e vontade de aprender novas ferramentas, plataformas e tecnologias, é Data Driven e Hands On, é uma pessoa sempre antenada nas novidades do Mundo Cloud, essa vaga é para você!
Candidate-se, queremos te conhecer!
Responsabilidades e atribuiçõesLiderança em Incidentes:
- Atuar como Líder de Resposta a Incidentes em War Rooms, coordenando a resolução técnica e a comunicação com stakeholders.
Engenharia de Observabilidade:
- Projetar e evoluir a telemetria no Datadog (Logs, APM, Traces e métricas de negócio) para reduzir o MTTD e o esforço cognitivo do time.
Gestão de Workloads em AWS Amplify:
- Garantir a resiliência e a escalabilidade de aplicações front‑end e APIs críticas hospedadas.
Governança de SRE:
- Definir e monitorar SLIs, SLOs e SLAs, gerindo o Error Budget para equilibrar a velocidade de entrega com a estabilidade.
Automação de Mitigação:
- Desenvolver ferramentas e scripts de auto‑healing (rollback automático, restart controlado, isolamento de componentes).
Análise de Causa Raiz:
- Conduzir processos de Post‑mortem blameless e garantir a implementação de melhorias estruturais para evitar reincidências.
Modernização de Sistemas:
- Atuar junto aos times de desenvolvimento para implementar padrões de resiliência (Circuit Breakers, Bulkheads e Rate Limiting) tanto em arquiteturas modernas quanto em sistemas legados.
IA na Operação:
- Implementar soluções de detecção de anomalias e resposta inteligente utilizando AIOps (Datadog Bits AI ou AWS Dev Ops Agent).
- Senioridade comprovada em SRE ou Dev Ops: Experiência sólida em ambientes de alta escala e missão crítica.
- Domínio Profundo de AWS: Experiência avançada em EC2, RDS, S3, IAM, EKS e Amplify.
- Domínio de ferramentas de Observabilidade: Sólida experiência em monitoramento, logs e APM (preferencialmente utilizando Datadog).
- Containers & Orquestração: Sólidos conhecimentos em Docker e Kubernetes (EKS/GKE).
- Infraestrutura como Código (IaC): Domínio de Terraform.
- Desenvolvimento/Scripts: Fluidez em Python, Go ou Shell Script para automação.
- Gestão de Incidentes: Experiência real com plantões on‑call e resolução de problemas em tempo real.
- Perfil Analítico para Sistemas Legados: Experiência em troubleshooting de aplicações em .NET Framework e bancos de dados Oracle ou Postgre
SQL. - Chaos Engineering: Experiência na execução de testes de estresse e resiliência controlados.
- Certificações: AWS Certified Dev Ops Engineer – Professional ou Certificações oficiais Datadog.
- Perfil de liderança técnica e resiliência sob pressão.
- Excelente comunicação para interagir com áreas de negócio e tecnologia.
- Protagonismo e senso de responsabilidade na resolução definitiva de problemas.
- Incentivos Educacionais (Parcerias com Instituições de Ensino)
- Férias Remuneradas
- Total Pass
- Birthday off
- Assistência Médica
- Assistência Odontológica
- Licença Maternidade
- Licença Paternidade
- Reembolso em Certificações AWS
(If this job is in fact in your jurisdiction, then you may be using a Proxy or VPN to access this site, and to progress further, you should change your connectivity to another mobile device or PC).