Site Reliability Engineering Sênior Job Fernley area,Nevada USA,IT/Tech

Descrição da vaga

A Darede tem o objetivo de continuar revolucionando os negócios em Cloud no Brasil e nos tornarmos a mais relevante consultoria do segmento, afinal, THE FUTURE IS CLOUD!

Buscamos um SRE Sênior apaixonado por estabilidade, performance e automação para integrar uma Squad estratégica de Engenharia de Resiliência. O desafio principal é atuar de forma proativa em um ecossistema complexo e de alta criticidade, movendo a operação de um modelo reativo para uma cultura de confiabilidade. Você será responsável por projetar e implementar soluções que previnam falhas, garantindo que sistemas que sustentam a receita do negócio operem com máxima disponibilidade.

Se você tem curiosidade e vontade de aprender novas ferramentas, plataformas e tecnologias, é Data Driven e Hands On, é uma pessoa sempre antenada nas novidades do Mundo Cloud, essa vaga é para você!

Candidate-se, queremos te conhecer!

Responsabilidades e atribuições

Liderança em Incidentes:

Atuar como Líder de Resposta a Incidentes em War Rooms, coordenando a resolução técnica e a comunicação com stakeholders.

Engenharia de Observabilidade:

Projetar e evoluir a telemetria no Datadog (Logs, APM, Traces e métricas de negócio) para reduzir o MTTD e o esforço cognitivo do time.

Gestão de Workloads em AWS Amplify:

Garantir a resiliência e a escalabilidade de aplicações front‑end e APIs críticas hospedadas.

Governança de SRE:

Definir e monitorar SLIs, SLOs e SLAs, gerindo o Error Budget para equilibrar a velocidade de entrega com a estabilidade.

Automação de Mitigação:

Desenvolver ferramentas e scripts de auto‑healing (rollback automático, restart controlado, isolamento de componentes).

Análise de Causa Raiz:

Conduzir processos de Post‑mortem blameless e garantir a implementação de melhorias estruturais para evitar reincidências.

Modernização de Sistemas:

Atuar junto aos times de desenvolvimento para implementar padrões de resiliência (Circuit Breakers, Bulkheads e Rate Limiting) tanto em arquiteturas modernas quanto em sistemas legados.

IA na Operação:

Implementar soluções de detecção de anomalias e resposta inteligente utilizando AIOps (Datadog Bits AI ou AWS Dev Ops Agent).

Requisitos e qualificações

Senioridade comprovada em SRE ou Dev Ops: Experiência sólida em ambientes de alta escala e missão crítica.
Domínio Profundo de AWS: Experiência avançada em EC2, RDS, S3, IAM, EKS e Amplify.
Domínio de ferramentas de Observabilidade: Sólida experiência em monitoramento, logs e APM (preferencialmente utilizando Datadog).
Containers & Orquestração: Sólidos conhecimentos em Docker e Kubernetes (EKS/GKE).
Infraestrutura como Código (IaC): Domínio de Terraform.
Desenvolvimento/Scripts: Fluidez em Python, Go ou Shell Script para automação.
Gestão de Incidentes: Experiência real com plantões on‑call e resolução de problemas em tempo real.

Diferenciais (Desejáveis)

Perfil Analítico para Sistemas Legados: Experiência em troubleshooting de aplicações em .NET Framework e bancos de dados Oracle ou Postgre

SQL.
Chaos Engineering: Experiência na execução de testes de estresse e resiliência controlados.
Certificações: AWS Certified Dev Ops Engineer – Professional ou Certificações oficiais Datadog.

Competências Comportamentais

Perfil de liderança técnica e resiliência sob pressão.
Excelente comunicação para interagir com áreas de negócio e tecnologia.
Protagonismo e senso de responsabilidade na resolução definitiva de problemas.

Informações adicionais BENEFÍCIOS

Incentivos Educacionais (Parcerias com Instituições de Ensino)
Férias Remuneradas
Total Pass
Birthday off
Assistência Médica
Assistência Odontológica
Licença Maternidade
Licença Paternidade
Reembolso em Certificações AWS

#J-18808-Ljbffr