engenheiro de confiabilidade do site é um título de trabalho para um especialista que trabalha com desenvolvedores de software para garantir que os sistemas de computação de uma organização sejam escaláveis, estáveis e previsíveis. O cargo exige alguém que se sinta confortável tanto com engenharia de software e operações de TI. > O termo SRE foi cunhado no Google por volta de 2003 quando a empresa contratou Ben Treynor Sloss para liderar uma equipe de engenheiros de software para executar um ambiente de produção. A empresa precisava criar novos paradigmas para gerenciar seus grandes sistemas, enquanto introduzia continuamente novas funcionalidades e a experiência do usuário final (UX).>
Embora as tarefas de engenharia de confiabilidade do local fossem historicamente feitas por equipes de operações, os SREs  atuais;use machine learning (ML) para automatizar tarefas anteriormente realizadas por mão-de-obra humana. Normalmente, as SREs são responsáveis por selecionar infra-estrutura ferramentas, gerenciar mudanças na produção e determinar respostas de emergência. SREs normalmente dedicam até 50% de seu tempo em responsabilidades operacionais (incluindo problemas, atendimento e intervenção manual) e o restante de seu tempo em tarefas de codificação e automação. No entanto, estas percentagens e tarefas do SRE podem variar, dependendo de modelos de negócio e cultura específicos.
Confiabilidade do local de trabalho
O trabalho do SRE evoluiu para além do do administrador do sistema (sysadmin). As habilidades necessárias para os SREs incluem um bacharelado em ciência da computação ou uma área relacionada, bem como experiência a nível de produção em pelo menos uma linguagem de código de linha de comando de alto nível (como Java, C/C++ e Go) e pelo menos uma linguagem dinâmica (incluindo Ruby, Python e Node.js). Outras habilidades necessárias podem incluir experiência avançada em redes, administração Linux/Unix, programação de sistemas, sistemas distribuídos, bancos de dados ou engenharia em nuvem. Os empregadores também estão procurando contratar membros da equipe SRE que tenham experiência em análise orientada a dados e infra-estrutura como código (IaC), bem como clusters de servidores, balanceamento de carga e monitoramento. Outras competências desejáveis da SRE são a experiência com pelo menos um grande fornecedor de cloud computing e uma tecnologia de contentores. Habilidades Soft como ser um bom comunicador são uma vantagem.
Site reliability engineering vs. DevOps
Site reliability engineering e DevOps têm objetivos similares: manter uma equipe diversamente qualificada envolvida no desenvolvimento de software, desde o projeto até a operação; automatizar tarefas repetitivas; e usar ferramentas de engenharia em operações. Em contraste, enquanto o DevOps se aplica a posições tanto dentro como fora de TI, a SRE está focada no apoio às operações de TI durante o desenvolvimento e implementação de software na produção. Além disso, embora os líderes empresariais estejam normalmente envolvidos no DevOps, eles não estão frequentemente envolvidos no SRE.