📌 Artigos Acadêmicos
- From ChatGPT to ThreatGPT: Impact of Generative AI in Cybersecurity and Privacy Visão ampla de riscos e oportunidades de GenAI em cibersegurança e privacidade; discute exploração de barreiras éticas por usuários maliciosos.
- Generative AI: a double-edged sword in the cyber threat landscape Revisão dos usos ofensivos (malware polimórfico, automação de ataques) e implicações defensivas para SOCs modernos.
- Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in LLMs Propostas práticas: filtros de vocabulário sensível, detecção de role-play, regras customizadas e níveis de segurança.
📌 Relatórios e Bases de Incidentes
- AI Incident Database (PAI) Repositório de incidentes de IA no mundo real; útil para análises de risco, exemplos e tendências.
- Stanford AI Index – Responsible AI (2024) Panorama com números e indicadores sobre incidentes e segurança em IA.
- ENISA Threat Landscape 2024 Tendências de ameaças na UE; inclui vetores relevantes para GenAI/LLMs.
- MIT AI Incident Tracker Classificação de incidentes por domínio de risco, fatores causais e danos.
- Adversa AI — Top AI Security Incidents (2025) Relatório anual com incidentes reais de IA/LLM: tipologias (agentic AI, supply chain, jailbreak/prompt injection), tendências e recomendações práticas para mitigação.
- AI Incident Database — Discover (filtrado) Vista “Discover” com deduplicação e foco em relatórios de incidentes; permite filtrar por entidades, taxonomias, dano e mais para análise comparativa.
- MIT — AI Incident Tracker Rastreador que classifica incidentes por domínio de risco e fatores causais, com pontuação de severidade do dano e visualizações para explorar correlações.
- RuLES — Can LLMs Follow Simple Rules? (arXiv 2311.04235) Framework programático com 14 cenários para medir obediência a regras simples sob inputs adversariais; útil para avaliar guardrails e conformidade.
📌 Casos de Dados Tóxicos no Treinamento
- LLM-LAT / harmful-dataset (Hugging Face) Conjunto com instruções maliciosas para avaliar e mitigar gerações nocivas.
- OxAISH-AL-LLM / wiki_toxic (Hugging Face) Corpus para estudar toxicidade e filtragem durante pré-treino/afinamento.
- Data Poisoning & API vulns (Traceable.ai) Resumo claro de impactos: degradação, vieses, backdoors e gatilhos.
- MIT Tech Review — GPT-4o e contaminação de tokens em chinês Reporta que muitos dos tokens “longos” em chinês do GPT-4o derivam de spam (pornografia/jogos), sugerindo corpus/tokenizer poluídos e possíveis efeitos em saídas e segurança.
-
Longest Chinese tokens in gpt4o (gist)
Script com
tiktoken(o200k_base) listando tokens chineses mais longos; a amostra impressa mostra muitos termos de pornografia/apostas, servindo como evidência prática do problema.
📌 Segurança e Ataques Recentes
- DeepSeek falha em 50/50 testes de jailbreak Reportagem destacando fragilidades de guardrails sob ataques de prompt injection.
- “PromptLock”: possível ransomware com LLM local Indicativos de uso de LLM local para gerar scripts polimórficos e burlar heurísticas.
- Análise de incidentes recentes de prompt injection Casos práticos e padrões de exploração em aplicações que integram LLMs.
- Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models Mostra como inserir “backdoors indetectáveis” em redes/LLMs obfuscadas (iO), permanecendo indistinguíveis mesmo com acesso a pesos/arquitetura; estende a LLMs via funções esteganográficas, com implicações diretas para supply chain de modelos.
- Hugging Face com ~100 modelos maliciosos (JFrog) Reportagem sobre achados da JFrog: modelos com payloads de execução de código (ex. pickle/PyTorch) e até reverse shell; alerta para riscos de repositórios públicos e necessidade de escaneamento/isolamento ao carregar artefatos.
- MCP Security in 2025 Panorama de segurança do Model Context Protocol: ~43% dos servidores avaliados com falhas de command injection, 30% com fetch irrestrito (SSRF) e 22% com vazamento de arquivos; destaca vetores como disguised tools, rug-pull updates, server spoofing e RADE, com práticas como pin de versões, OAuth e validação rígida de I/O.
📌 Frameworks, Normas e Padrões de AI Security
- OWASP Top 10 – LLM/GenAI (2025) Riscos prioritários e medidas de mitigação para aplicações com LLMs.
- MITRE ATLAS Base de conhecimento sobre táticas e técnicas adversárias contra sistemas de IA.
- NIST AI RMF 1.0 (PDF) Estrutura para gestão de riscos de IA — aplicável a produtos/serviços com LLM.
- EU AI Act (Reg. 2024/1689) Regulamento europeu com obrigações por nível de risco (inclui sistemas generativos).
- ISO/IEC 42001 Sistema de gestão para IA (AIMS): governança, ciclo de vida e avaliação de riscos.
- Midgard AI Ambientes sintéticos e datasets para testes/treinamento — apoio a segurança.
- Databricks AI Security Framework (DASF) Whitepaper que cataloga 62 riscos de IA ao longo de 3 estágios do sistema e recomenda 64 controles acionáveis, mapeando-os a frameworks comuns (p.ex., NIST/OWASP/MITRE) e guiando a criação de um perfil de risco em 4 passos — aplicável a qualquer plataforma.
- OWASP LLM01 — Prompt Injection Risco #1 no LLM Top 10: injeções diretas/indiretas (incluindo multimodal) que alteram o comportamento do modelo e podem levar a exfiltração, abuso de ferramentas e decisões indevidas; mitigações incluem restringir comportamento, validar formato de saída, filtros de entrada/saída, mínimo privilégio, humanos-no-loop e testes adversariais.
- NIST SP 800-53 Rev. 5 — Security & Privacy Controls Catálogo de controles de segurança/privacidade para sistemas e organizações; base para mapear guardrails de LLM a famílias como RA (risco), SA (aquisição/fornecedores), SI (integridade) e SR (cadeia de suprimentos), com perfis/baselines ajustáveis.
- OWASP — AI Security Solutions Landscape Panorama de soluções (open source e proprietárias) para riscos GenAI/LLM, organizado por estágio do ciclo de vida (Scope & Plan, Develop & Experiment, Deploy, Operate, Monitor, Govern) e mapeado aos riscos LLM01–LLM10; diretório filtrável e guia de contribuição.
📌 Benchmarks e Ferramentas de Avaliação
- JailbreakBench Benchmark e pipeline padronizado para ataques/defesas e leaderboard comparável.
- JailbreakBench (GitHub) Código, datasets e artefatos de jailbreak para reprodução e testes.
- Lakera Gandalf — Baseline Desafio gamificado de prompt injection em níveis: o objetivo é extrair a senha secreta enquanto as defesas endurecem a cada fase; útil para awareness, red teaming e geração de dados (ligado aos datasets Gandalf RCT no Hugging Face).
- Lakera — Datasets (Hugging Face) Coleções públicas com ataques/defesas do Gandalf (p.ex., gandalf_ignore_instructions, gandalf-rct, mosscap_prompt_injection), apropriadas para avaliação e pesquisa de robustez.