Abra espaço, Mythos. Chegou qualquer modelo com um bom arcabouço.

Blog

Notícias

Abra espaço, Mythos. Chegou... praticamente qualquer outro modelo com um bom arcabouço

Escrito por

Dania Durnas

Publicado em:

1º de junho de 2026

Mythos não precisa ser tratado como o mais poderoso e imbatível da sala.

Não me interprete mal. Dependendo do benchmark que você está avaliando, Mythos está entre os melhores modelos disponíveis atualmente e geralmente é o melhor em raciocínio. Mas não está muito à frente na corrida.

E quando se trata de casos de uso práticos, aplicar um modelo geral, mesmo um modelo de ponta, a um problema não gera os melhores resultados. Nem é escalável ou custo-efetivo. Quando se trata de encontrar vulnerabilidades, a abordagem utilizada para um modelo importa mais do que os próprios modelos. E o Fable 5, a versão pública do Mythos? Ele nem sequer aborda tópicos de cibersegurança.

Primeiro, vamos analisar por que Mythos não é o modelo para resolver todos os problemas e, em seguida, como um bom arcabouço produz resultados de alta qualidade em escala.

Mythos é cercado de um certo hype

Primeiro, vamos analisar alguns fatos. Mythos é bom, um dos melhores modelos de IA até hoje, e continua a ter um alto desempenho em benchmarks. Mythos se destaca na construção de cadeias de exploração e na geração de provas de conceito, então, desde o seu lançamento, acumulou um longo histórico de descoberta de vulnerabilidades zero-day.

No entanto, embora algum medo e entusiasmo fossem merecidos, a resposta mundial foi desproporcionalmente grande em relação à sua melhoria em comparação com modelos anteriores. Cada novo modelo de fronteira lançado no mercado é sempre melhor que o anterior, mas por uma pequena proporção.

E neste ponto, outros modelos de fronteira também estão, em sua maioria, no mesmo nível, especialmente desde que o GPT-5.5 foi lançado em abril. O Instituto de Segurança de IA do Reino Unido o avaliou em um nível de capacidade cibernética aproximadamente igual ao do Mythos. Na categoria mais difícil de seu conjunto de avaliação, o GPT-5.5 atingiu 71,4%, enquanto o Mythos atingiu 68,6%. Entre Mythos e GPT 5.5, um supera o outro dependendo da tarefa.

Mythos não é perfeito e ainda não é uma solução milagrosa para encontrar todas as vulnerabilidades de segurança por si só. Por exemplo, alguém executou o Mythos contra a base de código da biblioteca cURL e enviou os resultados por e-mail ao seu fundador e mantenedor, Daniel Stenberg. O Mythos encontrou cinco "vulnerabilidades de segurança confirmadas". Mas depois que a equipe de Stenberg as revisou, eles descobriram que três eram falsos positivos, um era um bug não relacionado à segurança e apenas um era uma vulnerabilidade real. Alguns dias depois, Stenberg recebeu 17 vulnerabilidades de pessoas que utilizavam outras ferramentas de IA. Ele disse no LinkedIn, "O Mythos não está nem perto do fim desta corrida", e em seu blog sobre a experiência escreveu que ele pensa que o hype do Mythos é "principalmente marketing".

O Fable 5 foi lançado recentemente pela Anthropic, sendo o Mythos 5 com guardrails (salvaguardas). Esses guardrails fazem com que o modelo pare se encontrar qualquer solicitação relacionada à cibersegurança ou biologia. Portanto, ele não pode ser avaliado (benchmarked) ou utilizado para encontrar vulnerabilidades de forma alguma.

O arcabouço importa mais do que o modelo

Com diferentes modelos agora se destacando em muitas tarefas distintas e os modelos de ponta convergindo em capacidades, a maior variável na otimização da descoberta de vulnerabilidades é o arcabouço.

Um arcabouço é a camada de orquestração que envolve um modelo (ou múltiplos modelos). Isso inclui a lógica que decide qual agente é executado e quando, qual contexto ele recebe, como as descobertas são validadas e quando escalar para um modelo mais robusto. É código, design de fluxo de trabalho e arquitetura de prompt trabalhando juntos, com o modelo servindo como apenas mais um desses componentes.

Arcabouços direcionam os LLMs de serem gerais para serem altamente adequados a um determinado domínio e tarefas. Eles também se aproveitam do não-determinismo em LLMs, o que os leva a encontrar resultados ligeiramente diferentes a cada vez. Com um arcabouço, múltiplos agentes revisam uma base de código, com a expectativa de que nenhum agente encontrará 100% das vulnerabilidades (incluindo agentes executados no Mythos).

No contexto da pesquisa de vulnerabilidades, a pesquisa da Cloudflare descreve um exemplo de como uma configuração de arcabouço sólida geralmente se parece:

Um estágio de reconhecimento que lê o repositório e cria uma fila de tarefas para tudo o que vem a seguir
Um estágio de caça onde muitos agentes são executados em paralelo, cada um procurando por vulnerabilidades
Um estágio de validação onde um agente independente, usando um prompt diferente e sem capacidade de gerar suas próprias descobertas, tenta refutar o que o agente de caça encontrou
Um estágio de rastreamento que acompanha as descobertas confirmadas em todo o repositório para determinar se a entrada controlada pelo atacante pode realmente atingir o bug de fora do sistema
Lógica de deduplicação para consolidar descobertas que possuem a mesma causa raiz

O design do harness é tão impactante que muitas vezes importa mais do que a própria escolha do modelo. Pesquisadores da UCSB executaram o mesmo Claude Opus 4.6 nas mesmas tarefas com diferentes harnesses e descobriram que o melhor harness passou em quatro vezes mais testes do que o pior harness. Para comparação, a diferença entre modelos de ponta como Opus 4.6 e GPT-5.4 em benchmarks de codificação padrão é de apenas cerca de um ponto percentual. Isso significa que as equipes que se preocupam excessivamente com qual modelo usar estão otimizando demais a variável errada.

Niels Provos demonstrou o mesmo conceito na direção oposta. Ele construiu um harness que encontrou uma vulnerabilidade de 18 anos em uma biblioteca popular, então trocou pelo GLM 5.1 de código aberto e obteve resultados comparáveis. Ele mostrou que um harness robusto pode tornar o modelo um componente intercambiável, em vez do principal impulsionador.

A pesquisa da equipe de segurança da Mozilla explica por que investir no design de harness compensa ao longo do tempo. Uma vez que seu pipeline de harness estava sólido, cada novo modelo que eles inseriam melhorava imediatamente a detecção de bugs, a geração de prova de conceito e a análise de impacto sem qualquer reengenharia. Quando o Mythos se tornou disponível para eles, puderam encaixá-lo e se beneficiar imediatamente. Construa o harness corretamente, e o progresso do modelo se torna algo que você absorve gratuitamente, em vez de ter que se esforçar para adotar.

Dinheiro fala

Outro problema com o uso do Mythos para tudo é econômico. Modelos maiores são sempre mais performáticos, mas também são muito mais caros.

Executar o Mythos uma vez custa dinheiro de verdade, cerca de dezenas de milhares de dólares, para fazer uma única varredura completa de um repositório em busca do que podem ser algumas vulnerabilidades. Execute o Opus 4.6, ou mesmo o GPT-5.4 nano, dez vezes pelo mesmo custo de executar o Mythos uma vez, e você geralmente encontrará mais. O custo não escala 1 para 1 com a capacidade. Por exemplo, tanto as entradas quanto as saídas para o GPT 5.4 custam metade das do GPT 5.5, mas o primeiro não tem metade do poder de raciocínio do segundo. Internamente, descobrimos que oito agentes GPT-5.4-mini superam um agente GPT-5.5 em alguns casos, e eles têm aproximadamente o mesmo custo. Modelos mais baratos permitem que você transforme o número de agentes em uma vantagem.

Um homem segura uma nota de dólar na mão e dança com ela. Em seguida, ele arremessa o dólar da mão. Uma paródia de jogar muitas notas por aí.

O modelo menor geralmente produzirá mais falsos positivos do que um modelo de ponta, já que é de fato menos preciso. Mas, neste caso raro, a quantidade importa tanto quanto a qualidade, já que você quer garantir que capture o maior número possível de vulnerabilidades. É aqui que os harnesses podem ajudar a filtrar ruídos extras, onde outros agentes podem verificar as cadeias de exploit e fazer a limpeza, e é muito mais econômico do que executar o Mythos e modelos de ponta para encontrar tudo.

Para os agentes de ameaças, o que eles realmente usarão? Não o Mythos. Primeiro, eles não o têm. E o Fable 5 foi enfraquecido (nerfed) para impedir que esse grupo tivesse acesso. Não, os atacantes vão querer usar o que for executado de forma barata, repetidamente, em escala, e eles não vão esperar na fila. Modelos de peso aberto com harnesses (estruturas) decentes funcionam bem, e é provavelmente isso que eles estão fazendo agora.

E para as organizações, o que é sustentável? Executar um modelo de ponta em cada alteração de código certamente não é. Executar uma orquestração de múltiplos níveis que usa modelos baratos regularmente e modelos caros com precisão... isso sim é.

Não dê atenção ao modelo por trás da cortina

O Mythos foi um momento fascinante em nossa linha do tempo. Ele chamou a atenção de todos sobre o que os modelos podem fazer agora. Mas a descoberta autônoma de vulnerabilidades de alta qualidade e capacidade é acessível por meios alternativos e mais baratos do que estar limitado ao Mythos ou ao Project Glasswing.

Fornecedores presos a um único modelo precisam tornar esse modelo perfeito. Plataformas agnósticas a fornecedores podem escolher a ferramenta certa para o trabalho certo. Um modelo menor pode fazer uma varredura ampla e identificar candidatos, enquanto um modelo mais robusto pode aprofundar-se naqueles que parecem interessantes e exigem maiores capacidades de raciocínio. Para obter os melhores resultados em AppSec e pentest de IA, você deve priorizar sistemas com harnesses sofisticados que usam os modelos certos, em vez de se preocupar demais em ter o modelo mais sofisticado envolvido.

O Mágico de Oz: Um homem está atrás de uma cortina verde operando um grande aparato. O cachorro Toto puxa a cortina para revelar o homem.

Na Aikido, percebemos cedo que quantidade, orquestração e a liberdade de escolher a ferramenta certa para o trabalho superam a busca pelo que está atualmente por trás do maior paywall. Como um provedor de AppSec, vemos nossa responsabilidade em construir a orquestração que permite que a camada de modelos continue evoluindo por baixo. Se você quiser saber mais sobre como nosso pentesting pode ajudar a proteger sua aplicação, fale conosco hoje.

PS. Também escrevemos um checklist Mythos-ready para ajudar as equipes a se prepararem para ameaças de IA agêntica (seja alimentada por Mythos ou por muitos GPT 5.4 minis).

Última atualização em:

18 de junho de 2026

Link de Texto

Assine para receber notícias

4.7/5

Cansado de falsos positivos? 
Experimente Aikido como 100 mil outros.

Começar Agora

Obtenha um tour personalizado

Confiado por mais de 100 mil equipes

Agende Agora

Escaneie seu aplicativo em busca de IDORs e caminhos de ataque reais

Confiado por mais de 100 mil equipes

Iniciar Escaneamento

Veja como o pentest de IA testa seu aplicativo

Confiado por mais de 100 mil equipes

13 de julho de 2026

•

Notícias

Como manter os padrões de qualidade do código com código gerado por IA e «vibe coding»

O Vibe Coding implementa funcionalidades rapidamente e deixa para trás a «dívida de revisão». Veja como as verificações de qualidade do código, baseadas em benchmarks e por regra, proporcionam às equipas uma resposta consistente em todos os PRs e repositórios.

Qualidade de Código

Vibe Coding

1 de julho de 2026

•

Notícias

E mais uma. O GitHub lança a revogação de credenciais de emergência

A revogação de credenciais «Break-glass» já está disponível no GitHub Enterprise. Os exemplos de tarefas duradouras da Trivy da Microsoft demonstram por que razão era necessária uma revogação rápida e completa.

Segurança do GitHub

26 de junho de 2026

•

Notícias

npm agora congela contas de alto impacto após mudanças de conta arriscadas

Uma análise do novo congelamento de conta de 72 horas do npm, o que o aciona, o que ele bloqueia e como funciona em conjunto com a publicação confiável e em fases.

NPM

open source

Fique seguro agora

Proteja seu código, Cloud e runtime em um único sistema centralizado.
Encontre e corrija vulnerabilidades rapidamente de forma automática.

Iniciar Análise

Agendar uma demonstração

Não é necessário cartão de crédito | Resultados da varredura em 32 segundos.