SRE (Site Reliability Engineer) Sênior
Procuramos SRE Sênior para fortalecer confiabilidade, performance e custos nas plataformas da Raiô, atuando com os times em incidentes, observabilidade, IaC e melhoria contínua.
RESPONSABILIDADES E ATRIBUIÇÕES
Garantir a confiabilidade, estabilidade, desempenho e eficiência de custos das plataformas da Raiô, atuando de forma próxima aos times de engenharia e produto.
Definir, acompanhar e evoluir indicadores de confiabilidade e performance (SLIs/SLOs), estabelecendo alertas eficazes e rotinas de melhoria contínua.
Atuar na gestão de incidentes em produção, conduzindo análise de causa raiz, planos de correção e prevenção, com foco em aprendizado e evolução do sistema.
Projetar, implantar e evoluir práticas de observabilidade (logs, métricas e rastreamento), promovendo maior previsibilidade e redução de tempo de resposta a falhas.
Desenvolver e manter automações e infraestrutura como código, garantindo ambientes consistentes, seguros e reprodutíveis.
Estruturar e evoluir práticas de operação: rotinas, playbooks/runbooks, gestão de mudanças, revisão de indicadores e capacidade.
Liderar, junto aos times de engenharia, decisões técnicas e de arquitetura voltadas à resiliência, escalabilidade e custo.
Promover melhorias contínuas em processos operacionais, segurança, disponibilidade e controle de custos em ambientes de nuvem.
Disseminar boas práticas de confiabilidade, operação e engenharia, elevando o nível técnico do time como um todo.
🔎 O que buscamos em você?
Experiência sólida como SRE ou em funções equivalentes, atuando diretamente com sistemas críticos em produção.
Domínio de ambientes em nuvem, especialmente AWS e GCP, incluindo redes, balanceamento de carga, controle de acesso, monitoramento e serviços gerenciados.
Conhecimento consistente em sistemas distribuídos, concorrência, tolerância a falhas e estratégias de escalabilidade.
Experiência prática com monitoramento, observabilidade e definição de indicadores técnicos voltados à confiabilidade e estabilidade.
Vivência com regime de plantão e condução de incidentes críticos em produção, incluindo análise de causa raiz e acompanhamento de plano de ação.
Vivência com infraestrutura como código e automação de ambientes (ex.: Terraform, CDK ou ferramentas equivalentes).
Experiência com pipelines de entrega contínua e estratégias seguras de implantação e rollback.
Capacidade de mentorar pessoas e elevar o padrão técnico e operacional do time.
Conhecimento em segurança aplicada à operação, incluindo gestão de acessos, segredos, proteção de ambientes e boas práticas operacionais.
Capacidade analítica para tomar decisões baseadas em métricas técnicas e impacto no negócio.
Uso responsável de ferramentas de IA generativa para acelerar diagnóstico, automações e qualidade, sem comprometer segurança e confiabilidade.
🧡 O que você encontra na Raio:
Trabalhamos duro para criar um ambiente colaborativo e respeitoso.
Para cuidar de você, preparamos:
Cartão Raio: R$1.000,00/mês - Benefício Flexível;
Convênio Médico e Odontológico: Unimed Unipart ou Unimax;
Total Pass e WellHub: para cuidar do corpo e da mente;
Plataforma StarBem: para cuidado da saúde mental e bem-estar;
Clubes de descontos: NewValue e Vai de Visa (via cartão Raio);
20 dias de recesso remunerado.
E aí, pronto(a) para construir o futuro com a gente?
- Departamento
- Tecnologia
- Status remoto
- Remoto por tempo integral
- Tipo de emprego
- Contrato