Ataque & Defesa em LLM

Estratégias para reduzir ASR, vazamentos e automações perigosas


Esta coletânea reúne, em um só lugar, o que há de mais útil para quem precisa projetar, avaliar e operar LLMs com responsabilidade: artigos acadêmicos e preprints que fundamentam ataques e defesas; relatórios setoriais e bases públicas de incidentes para análise de risco baseada em evidências; frameworks e normas (OWASP, MITRE, NIST, ISO, EU AI Act) para governança e compliance; panoramas de soluções de segurança; estudos de casos recentes (prompt injection, jailbreaks multi-turn, supply chain, backdoors, TOCTOU, agentes/autonomia); datasets de toxicidade e envenenamento; e benchmarks/leaderboards com métricas práticas de robustez e recusa. O material cobre todo o ciclo de vida — escopo e design, desenvolvimento e experimentação, implantação, operação/monitoramento e governança — com recomendações concretas de controles: validação rígida de I/O, princípio do menor privilégio para tools/recursos, isolamento e sandboxing, pinagem de versões e SBOM/MBOM de modelos e dados, verificação de dependências, políticas de conteúdo, logging audível, red teaming contínuo e avaliação com métricas como ASR, impacto e tempo de detecção/resposta.

Reflexão: segurança em LLMs não é um estado, é um processo sociotécnico. A pergunta certa não é “o modelo é seguro?”, mas “quais riscos residuais aceitamos, como reduzimos o raio de explosão e como medimos continuamente se continuam sob controle?”.

📌 Artigos Acadêmicos

📌 Relatórios e Bases de Incidentes

📌 Casos de Dados Tóxicos no Treinamento

📌 Segurança e Ataques Recentes

📌 Frameworks, Normas e Padrões de AI Security

📌 Benchmarks e Ferramentas de Avaliação