We are looking for a reliability‑first, platform‑oriented engineer to design and evolve our full‑stack observability strategy using Dynatrace and implement modern SRE practices. This role will be instrumental in ensuring high availability, scalability, and resilience across AWS infrastructure and Kubernetes environments, while supporting engineering squads with standards, automation, and best practices.
Responsibilities
• Design and evolve the full‑stack observability strategy using Dynatrace
• Implement and maintain SRE practices (SLOs, SLIs, error budgets)
• Ensure high availability and reliability of AWS infrastructure
• Develop and maintain Infrastructure as Code (IaC) using Terraform
• Structure and evolve production‑grade Kubernetes environments (EKS)
• Create dashboards, metrics, intelligent alerts, and structured root cause analysis mechanisms
• Support development squads with monitoring standards and best practices
• Implement and evolve CI/CD workflows using GitOps
• Contribute to the design and evolution of an Internal Developer Platform (IDP)
• Automate operational processes to increase scalability and reduce incidents
• Perform advanced troubleshooting in distributed systems
RequirementsCore Competencies
• Reliability‑first and platform engineering mindset
• Strong systems thinking and architectural vision
• Advanced analytical skills for complex incident investigation
• Proactive risk identification and continuous improvement mindset
• Clear communication skills to support engineering squads
• Strong sense of ownership and accountability
• Automation‑driven approach
Technical Requirements
Observability (Primary Requirement – Dynatrace)
• Hands‑on experience with Full‑Stack Monitoring and APM
• Observability in Kubernetes and AWS environments
• Configuration of metrics, logs, and traces
• Dashboard creation and intelligent alerting
• Structured root cause analysis
• Integration of Dynatrace into SRE strategy (SLO/SLI implementation)
Cloud & Infrastructure
• Strong knowledge of AWS
• Infrastructure as Code with Terraform
• Design of resilient and scalable cloud architectures
• Creation and management of Kubernetes objects
• Container troubleshooting and security
• Resource management in production clusters
• Engineering and standardization of workloads (beyond cluster operations)
CI/CD & Automation
• Experience with GitOps workflows
• CI/CD pipeline implementation and management
Platform Engineering
• Experience building or evolving an Internal Developer Platform (IDP)
BenefitsDiscover the
benefits and programs offered by OSF! ?
We offer a
complete package designed to support your well-being, boost your development,
and accelerate your career.
Benefits:
• Meal or Food
Vouchers
• Medical
Assistance
• Dental
Assistance
• Life Insurance
• Gym Pass
• Home
Office/Education Assistance
And there's more! Here you also have programs that boost your growth:
• Development and training program
• Incentives for obtaining professional certifications
• Language program
• Professional referral program with bonuses
"OSF Digital is committed to providing
equal opportunities and fostering a workplace where everyone can be themselves.
We cultivate an inclusive and engaged community of professionals dedicated to
driving digital transformation for organizations worldwide.
We welcome all individuals and are committed to
maintaining a workplace free from unlawful discrimination or harassment based
on protected characteristics.
OSF Digital does not discriminate on the basis
of gender identity or expression, race, ethnicity, disability, sexual
orientation, color, religion, national origin, age, marital or pregnancy
status, political opinion, social origin, or any other characteristic protected
under applicable laws in the jurisdictions in which we operate.
We are also committed to providing reasonable
accommodation to individuals with disabilities throughout our processes, in
compliance with applicable legislation."
Site Reliability Engineer (SRE) / Platform Engineer
Visão GeralEstamos em busca de um(a) profissional com mindset voltado para confiabilidade e engenharia de plataforma, responsável por desenhar e evoluir a estratégia de observabilidade full‑stack utilizando Dynatrace, além de implementar práticas modernas de SRE. Essa posição terá papel fundamental na garantia de alta disponibilidade, escalabilidade e resiliência da infraestrutura em nuvem e dos ambientes Kubernetes, apoiando os times de engenharia com padrões, automação e boas práticas.
Responsabilidades• Definir e evoluir a estratégia de observabilidade full‑stack utilizando Dynatrace
• Implementar e manter práticas de SRE (SLOs, SLIs e error budgets)
• Garantir alta disponibilidade e confiabilidade da infraestrutura AWS
• Desenvolver e manter Infraestrutura como Código (IaC) com Terraform
• Estruturar e evoluir ambientes Kubernetes (EKS) em nível de produção
• Criar dashboards, métricas, alertas inteligentes e mecanismos de análise de causa raiz
• Apoiar squads de desenvolvimento com padrões de monitoramento e boas práticas
• Implementar e evoluir fluxos de CI/CD utilizando GitOps
• Contribuir para o desenho e evolução de uma Internal Developer Platform (IDP)
• Automatizar processos operacionais para aumentar escalabilidade e reduzir incidentes
• Realizar troubleshooting avançado em ambientes distribuídos
Competências Comportamentais• Mentalidade voltada para confiabilidade e engenharia de plataforma
• Forte visão sistêmica e arquitetural
• Habilidade analítica para investigação de incidentes complexos
• Proatividade na identificação de riscos e foco em melhoria contínua
• Comunicação clara para suporte às squads de engenharia
• Forte senso de ownership e responsabilidade
• Mentalidade orientada à automação
Requisitos TécnicosObservabilidade (Requisito Principal – Dynatrace)• Experiência prática com Full‑Stack Monitoring e APM
• Observabilidade em ambientes Kubernetes e AWS
• Configuração de métricas, logs e traces
• Criação de dashboards e alertas inteligentes
• Análise estruturada de causa raiz
• Integração do Dynatrace à estratégia de SRE (implementação de SLO/SLI)
Cloud & Infraestrutura• Forte conhecimento em AWS
• Infraestrutura como Código com Terraform
• Design de arquiteturas resilientes e escaláveis em nuvem
• Criação e gerenciamento de objetos Kubernetes
• Troubleshooting de containers
• Segurança de containers
• Gestão de recursos em clusters produtivos
• Padronização e engenharia de workloads (não apenas operação de clusters)
CI/CD & Automação• Experiência com fluxos GitOps
• Implementação e gestão de pipelines de CI/CD
Platform Engineering• Experiência na construção ou evolução de uma Internal Developer Platform (IDP)
Conheça os benefícios e programas
da OSF! ?
Oferecemos um pacote completo
pensado para apoiar seu bem-estar, impulsionar seu desenvolvimento e acelerar
sua carreira.
Benefícios:
• Vale Refeição ou Alimentação
• Assistência Médica
• Assistência Odontológica
• Seguro de Vida
• Gym Pass
• Auxílio Home Office / Educação
E tem mais! Aqui você também
conta com programas que impulsionam o seu crescimento:
• Programa de desenvolvimento e
treinamentos
• Incentivo para obtenção de
certificações profissionais
• Programa de Idiomas
• Programa de Indicação de
Profissionais com bonificação
Mais do que benefícios,
acreditamos em criar um ambiente onde as pessoas realmente possam florescer.
A OSF Digital orgulha-se de ser uma empresa que oferece oportunidades
iguais a todos, onde você pode ser você mesmo no trabalho. Junte-se a uma
comunidade inclusiva e apaixonada de profissionais que ajudam a promover a
transformação digital para empresas em todo o mundo. Na OSF Digital, acolhemos
todos os indivíduos e não discriminamos com base em identidade e expressão de
gênero, raça, etnia, deficiência, orientação sexual, cor, religião,
nacionalidade, idade, estado civil ou qualquer outra categoria protegida em
nenhuma das jurisdições em que atuamos.
Vem construir o futuro com a gente!