Aikido

O alarmismo de cibersegurança em torno do Mythos não corresponde ao que vemos na prática

Escrito por
Sooraj Shah

A cobertura recente em torno do mais recente modelo Mythos da Anthropic focou-se quase inteiramente no que ele poderia fazer para os atacantes. Um rascunho de post de blog vazado, visto pela Fortune, descreve o modelo como capaz de “explorar vulnerabilidades de maneiras que superam em muito os esforços dos defensores”. Tanto que a Anthropic afirma que quer agir com cautela e compreender adequadamente os potenciais “riscos de curto prazo do modelo no domínio da cibersegurança” antes de prosseguir. 

O que se seguiu foi previsível: manchetes sobre “o iminente pesadelo cibernético da IA”, fornecedores de cibersegurança alertando sobre a democratização dos ciberataques e uma aceitação geral de que o equilíbrio se inverteu.

Preocupante, não é?

Bem, à primeira vista, sim. Mas o equilíbrio não se inverteu. O enquadramento apocalíptico baseia-se na suposição de que a capacidade do modelo se traduz diretamente em vantagem para o atacante. Mas nossos dados sugerem o contrário. 

A suposição por trás da narrativa do Mythos

De fato, sabemos que os modelos de IA acelerarão os fluxos de trabalho de ataque. Mas a eficácia disso depende muito de um contexto profundo do sistema - algo que os atacantes geralmente não possuem. 

As capacidades de cibersegurança atribuídas a modelos como Mythos se sobrepõem significativamente ao que os sistemas de IA já estão fazendo em ambientes controlados de teste de segurança. Descoberta de vulnerabilidades, raciocínio sobre código, ataques multi-etapas. Nossa própria experiência com 1.000 testes de penetração de IA no mundo real nos dá uma visão de como o desempenho muda sob diferentes condições.

O padrão é consistente. Testes whitebox, onde o código-fonte da aplicação alvo está disponível, revelaram 7x mais problemas críticos e de alta severidade e operaram com aproximadamente o dobro da eficiência dos testes greybox com acesso limitado ao código-fonte. Isso sugere que a eficácia da IA é altamente sensível ao contexto, em vez de apenas à capacidade bruta. 

Na prática, esse contexto vem da combinação de análise estática e dinâmica. Analisar o código ou o comportamento isoladamente oferece apenas uma visão parcial. Quando ambos os sistemas estão disponíveis, eles podem conectar o código escrito ao seu comportamento em execução, e a profundidade dos achados muda. Isso também muda a economia. Menos tentativas (e, portanto, tokens) são necessárias para identificar problemas significativos.

As reflexões atuais em torno do Mythos assumem que os atacantes se beneficiarão mais dos modelos de fronteira mais recentes. Mas, na prática, isso não leva em consideração que os atacantes são aqueles com contexto limitado. Eles estão inferindo detalhes do sistema a partir do exterior, enquanto os defensores já têm acesso a como esses sistemas realmente funcionam.

O contexto é a restrição, e não a capacidade

De fato, muito valor é atribuído à forma como os próprios desenvolvedores do modelo descrevem a capacidade; o mesmo aconteceu quando a Anthropic afirmou que o Claude Opus 4.6 descobriu mais de 500 vulnerabilidades de alta severidade em bibliotecas de código aberto. Essas afirmações mostram o que os modelos podem fazer em condições ideais. Mas pouco se fala sobre como o desempenho muda ao operar sem visibilidade total do sistema. 

A principal variável aqui é o contexto. O acesso ao código-fonte e à lógica interna da aplicação determina o que os agentes de teste podem avaliar de forma significativa. A capacidade por si só não se traduz em resultados. Sem contexto de código estático e dinâmico suficiente, mesmo os modelos mais avançados não conseguem superar modelos de código aberto leves devido a uma compreensão incompleta do sistema que estão investigando.

Considere o recente comprometimento do Axios, um dos pacotes mais amplamente utilizados no registro NPM. O atacante não alterou o código-fonte. Eles comprometeram uma conta de mantenedor, adicionaram uma nova dependência e publicaram uma atualização. O ataque funcionou porque não havia CVE conhecido para corresponder, nenhum padrão de código malicioso para sinalizar, nenhuma assinatura para um scanner detectar. O ataque foi bem-sucedido porque cada ferramenta na cadeia carecia do contexto para ver o que realmente havia mudado. 

Uma organização com visibilidade profunda em sua árvore de dependências - sabendo não apenas quais pacotes ela usa, mas o que esses pacotes fazem, como se comportam e como é uma atualização legítima, teria tido uma base para questionar essa mudança. Sem isso, nenhuma quantidade de velocidade ou capacidade ajuda. É por isso que o atual enquadramento de “IA favorece atacantes” perde o ponto principal. É aqui que a abordagem para testes impulsionados por IA começa a divergir. Dado o contexto completo em todo o código e comportamento em tempo de execução, essas ferramentas agentivas privilegiadas identificam problemas que testes superficiais simplesmente perdem.

No entanto, nada disso significa que a vantagem de contexto do defensor para visibilidade de código e tempo de execução seja permanente. A IA, é claro, também reduzirá o custo de aquisição de contexto; mas a narrativa atual implica que houve uma mudança repentina no equilíbrio. Construir uma compreensão genuína do sistema é um trabalho lento e complexo, e embora os modelos de IA sejam cada vez mais capazes de deduzir certos aspectos do contexto, eles nunca serão capazes de igualar a clareza que vem do acesso ao código-fonte real, credenciais/tokens de API e aplicação e a capacidade de analisar rapidamente a lógica de negócios interna em componentes de aplicação, microsserviços e integrações que uma organização possui internamente.

Em retrospectiva, tudo isso pode parecer óbvio, especialmente à luz da propensão a publicar alarmismo em torno da segurança. Mas às vezes é preciso um escrutínio maior do que nos é apresentado para realmente considerar o impacto real. O mantra geral tem sido que os novos modelos de IA vão inclinar drasticamente a balança, o que é verdade até certo ponto; a IA fornecerá velocidade, amplitude e capacidade aos atacantes, e haverá um impacto prejudicial sentido por aqueles que defendem aplicações, sistemas e infraestrutura.

Mas a nuance é que a eficácia depende em grande parte do contexto, e esse contexto é distribuído de forma desigual. Felizmente para nós, ele está ponderado a favor do defensor. Assim, enquanto os atacantes podem se beneficiar primeiro de modelos de IA de fronteira emergentes como Mythos e Capybara, os defensores já têm a vantagem do conhecimento profundo e estrutural de como seu código realmente funciona. A IA está tornando o contexto de segurança de aplicações mais valioso do que nunca. A questão é se os defensores usarão a vantagem que já possuem. 

Confira a Mythos-Ready checklist da Aikido para aprender como aplicar a vantagem dos defensores e se preparar para ameaças de modelos de IA de fronteira emergentes.

Compartilhar:

https://www.aikido.dev/blog/anthropic-mythos-cybersecurity-risks-overblown

Assine para receber notícias

4.7/5
Cansado de falsos positivos?

Experimente Aikido como 100 mil outros.
Começar Agora
Obtenha um tour personalizado

Confiado por mais de 100 mil equipes

Agende Agora
Escaneie seu aplicativo em busca de IDORs e caminhos de ataque reais

Confiado por mais de 100 mil equipes

Iniciar Escaneamento
Veja como o pentest de IA testa seu aplicativo

Confiado por mais de 100 mil equipes

Iniciar Testes

Fique seguro agora

Proteja seu código, Cloud e runtime em um único sistema centralizado.
Encontre e corrija vulnerabilidades rapidamente de forma automática.

Não é necessário cartão de crédito | Resultados da varredura em 32 segundos.