Em resumo
- Substitui pentests manuais frustrantes por testes de IA com consciência de contexto
- Utiliza testes de caixa branca para validar APIs complexas baseadas em OData
- Gera centenas de milhares de requisições de API válidas para uma cobertura profunda
- Melhora a confiança na segurança sem atrito com fornecedores
- Escala os testes entre recursos, regiões e implantações
Desafio
Para a Balena, segurança não é apenas sobre conformidade. É sobre provar que uma plataforma IoT altamente complexa é segura por design. A Balena oferece gerenciamento de frotas IoT para dispositivos Linux embarcados, permitindo que os clientes implantem e gerenciem aplicações em frotas que variam de milhares a centenas de milhares de dispositivos. À medida que sua base de clientes crescia, as expectativas em torno da segurança também aumentavam.
A empresa obteve a certificação ISO 27001 em 2024 e atualmente busca a SOC 2 Tipo 2. Como parte desse esforço, o pentesting tornou-se essencial.
Mas o pentesting manual gerou mais atrito do que clareza.
Os achados eram frequentemente difíceis de interpretar e, às vezes, os pentesters fundamentalmente não entendiam como os sistemas da Balena funcionavam. Por exemplo, eles sinalizaram o uso de assinatura JWT simétrica como uma vulnerabilidade, apesar de ser uma escolha de design deliberada e válida dentro da arquitetura da Balena.
“Após cada engajamento de pentesting manual, a conclusão era a mesma: da próxima vez precisamos encontrar outra pessoa.”
Em vez de gerar confiança, os pentests se tornaram uma fonte recorrente de frustração.
Por que a Balena recorreu ao pentest de IA
A Balena descobriu o Aikido por meio de pesquisas de segurança e exposição na comunidade, incluindo eventos OWASP e trabalhos contínuos no ecossistema Node.js. Ao mesmo tempo, a equipe estava se sentindo mais confortável com ferramentas de desenvolvimento assistidas por IA, o que tornou a ideia de pentest impulsionado por IA um próximo passo natural.
Inicialmente, a decisão de experimentar o pentest de IA foi pragmática.
“O pentest de IA do Aikido era acessível em comparação com o pentest manual. O que se destacou imediatamente foi a capacidade de fornecer contexto.”
Em vez de depender de técnicas de varredura genéricas, o Aikido podia acessar a base de código da Balena e ser guiado usando conhecimento específico do domínio. Isso mudou a questão de encontrar um fornecedor melhor para entender como usar a IA da melhor forma para testes de segurança.
“A frustração levou à automação, e a automação nos levou à IA... finalmente quebrando o ciclo de auditorias manuais restritivas.”
Executando o pentest de IA
Começar exigiu esforço mínimo. A Balena conectou seus repositórios, configurou o escopo e lançou o teste sem atrasos legais ou operacionais.
“Foi muito fácil apenas obter uma avaliação e clicar em iniciar. Sem grandes obstáculos.”
A equipe usou uma abordagem white-box, dando à IA acesso ao seu código e modelo de dados. Crucialmente, eles instruíram a IA a seguir a especificação OData, que define como sua API opera.
Isso fez uma diferença significativa. Pentesters anteriores tiveram dificuldade até mesmo para construir requisições OData válidas. Em contraste, a IA foi capaz de interpretar a especificação, ler o modelo de dados e gerar queries complexas e válidas. O resultado foi um nível fundamentalmente diferente de profundidade de teste.
O que o pentest de IA entregou
O pentest de IA gerou mais de 450.000 requisições de API dentro do horário de trabalho padrão, muitas das quais eram sintaticamente corretas e retornaram respostas válidas.
Esse nível de precisão se destacou imediatamente.
“Nunca vimos essa profundidade de uso de queries OData de nenhum pentester humano.”
Em vez de enviar payloads de ataque irrelevantes ou genéricos, a IA focou em interações realistas com o sistema. Ela também descobriu problemas significativos precocemente, mesmo durante uma simples execução de teste.
Além da escala, a IA demonstrou um nível de testes sensíveis ao contexto que estava ausente em engajamentos anteriores.
Ao testar uma nova integração SAML, a IA identificou o código relevante em todos os repositórios e gerou aproximadamente 350 requisições direcionadas contra esses endpoints. Ela testou ativamente o isolamento de tenants e permissões encadeando IDs de objeto, organização e usuário, validando que os usuários não podiam acessar dados fora de seu escopo.
Importante, o valor não estava atrelado à descoberta de uma única vulnerabilidade crítica. Em vez disso, veio da confiança no próprio processo de teste. A IA demonstrou que entendeu o sistema e pôde explorá-lo de maneiras que se alinhavam com o funcionamento real da API.
Isso eliminou uma grande fonte de atrito que a Balena experimentava com o pentest manual.
“Agora a questão não é quem devemos contratar em seguida. É como usamos a IA melhor e quanto orçamento queremos alocar.”
Resultados
Para a Balena, o impacto do pentest de IA é melhor compreendido como uma mudança de testes orientados por conformidade para uma validação precisa e ciente do sistema.
Em vez de gastar tempo corrigindo mal-entendidos de testadores externos, a equipe pode focar diretamente na melhoria da segurança. Os requisitos de auditoria podem ser atendidos sem a sobrecarga interna de reexplicar a arquitetura ou validar descobertas incorretas.
Ao mesmo tempo, a capacidade de lançar testes sem atrasos legais ou operacionais muda como a segurança se encaixa no desenvolvimento de produtos. Novos recursos, como integrações SAML ou novas geolocalizações, podem ser testados imediatamente, fornecendo validação de segurança rápida e credível.
A transparência também melhora. Em vez de depender de relatórios estáticos, a Balena pode mostrar exatamente o que foi testado por meio de logs de requisição detalhados e rastreamentos de agente.
ROI vs pentest manual
Em comparação com engajamentos manuais anteriores, o pentest de IA entregou resultados de maior qualidade a um custo menor. A maior diferença foi operacional. O pentest manual exigia ciclos de onboarding com chamadas introdutórias, briefings e provisionamento de acesso. Com a IA, essa sobrecarga desaparece completamente.
A eficiência da engenharia também melhorou. Em vez de decifrar relatórios PDF estáticos e reproduzir achados manualmente, os engenheiros podem reutilizar diretamente os scripts exatos gerados pela IA para validar e corrigir problemas.
A profundidade da cobertura também é materialmente diferente. Centenas de milhares de requisições, incluindo queries OData complexas, foram executadas dentro do horário de trabalho padrão. Esse nível de escala e precisão não havia sido alcançado com pentesters humanos.
“Com o teste whitebox de IA, compartilhar achados nunca foi tão fácil. Esse mapeamento direto no nível do código libera nossos engenheiros para analisar lógicas complexas e implementar correções reais, em vez de debater falsos positivos.”
Perspectivas futuras
Balena vê o pentest de IA como uma capacidade que melhora com a iteração.
Hoje, uma parte significativa do orçamento de testes é gasta na IA aprendendo o sistema antes de avançar para caminhos de ataque mais profundos. Com o tempo, o objetivo é reduzir essa fase de descoberta para que mais esforço possa ser focado em análises de alto impacto.
Outra oportunidade reside nos relatórios. Embora os logs e traces brutos forneçam total transparência, seu volume os torna difíceis de consumir. Um resumo conciso das estratégias de ataque, vetores bem-sucedidos e becos sem saída tornaria os resultados mais fáceis de comunicar e de agir.
Olhando para o futuro, Balena está particularmente interessada em um modelo onde os testes se baseiam em execuções anteriores, permitindo que a IA retenha o contexto e continue explorando o sistema em vez de começar do zero.
Trabalhando com Aikido
Além da tecnologia, a colaboração em si se destacou.
“Resultados rápidos, comunicação honesta e zero promessas de vendas vazias. Eles nos deram o tempo necessário para concluir nossa avaliação de fornecedor sem qualquer pressão. Ter resultados acionáveis em dias, além de acesso direto aos seus engenheiros para ajustar a IA, é exatamente o tipo de parceria que queremos.”
.png)

