Project Redline:大模型自动化红队攻击框架
状态:
招募共创
发起人/团队:
AI 安全伦理委员会
核心:
“为了防止 AI 变坏,我们甚至专门造了一个‘坏’ AI。”
技术栈:
Adversarial Attack、LLM Jailbreak、Automated Red Teaming、Cybersecurity
项目简介:
这是一个专门攻击其他 AI 的系统。它自动生成数万种“越狱提示词” (Jailbreak Prompts) 和对抗样本,试图诱导目标模型输出有害信息或泄露隐私。只有通过了 Redline 残酷攻击的模型,才会被允许上线商用。