Chaos Monkey é uma ferramenta de software que foi desenvolvida pelos engenheiros da Netflix para testar a resiliência e recuperabilidade de seus Amazon Web Services (AWS).
O software simula falhas de instâncias de serviços executados dentro de Grupos de Escala Automática (ASG), desligando uma ou mais das máquinas virtuais. De acordo com os desenvolvedores, Chaos Monkey foi nomeado pela forma como ele causa estragos como um macaco selvagem e armado solto em um data center.
Chaos Monkey trabalha com o princípio de que a melhor maneira de evitar falhas maiores é falhar constantemente. No entanto, ao contrário de falhas inesperadas, que parecem ocorrer nos piores momentos possíveis, o software é opt-out por padrão. Ele também pode ser configurado para opt-in.
Chaos Monkey tem uma programação configurável que permite a ocorrência de falhas simuladas em momentos em que elas podem ser monitoradas de perto. Desta forma, é possível se preparar para grandes erros inesperados ao invés de apenas esperar que a catástrofe ocorra e ver o quão bem você pode gerenciar.
Chaos Monkey foi o membro original do Exército Simiano da Netflix, uma coleção de ferramentas de software projetado para testar a infra-estrutura AWS. O software é de código aberto para permitir que outros usuários de serviços em nuvem o adaptem para seu uso.
Outros membros do Exército Simiano foram adicionados para criar falhas e verificar condições anormais, configurações e problemas de segurança. Chaos Gorilla, outro membro do Exército Simiano, simula interrupções para regiões inteiras.
Os engenheiros da Netflix planejam adicionar mais macacos ao exército, alguns baseados em sugestões da comunidade.