项目细节
识别和揭示人工智能系统中的故障用例
研究 AI 系统(包括大型语言模型 (LLM) 和高级多智能体框架)在各种条件下如何失效。检查它们对输入变化、对抗性攻击或意外用户操作的敏感性。探索 AI 智能体软件中的输入筛选机制是否能有效缓解这些漏洞。设计实验,在不同场景下对这些系统进行压力测试,揭示可能损害可靠性或安全性的弱点。学生将分析故障模式并提出可靠的解决方案来增强系统弹性。
预防未来人工智能系统中的恶意行为
设想 AI 系统与计算机软件、实验设备或自主流程相连接并对现实世界产生重大影响的场景。评估这些系统可能如何滥用其功能,例如产生有害物质或绕过安全约束。开发和测试检测和防止恶意行为的协议,包括道德保障框架、强大的访问控制和 AI 行为异常检测。学生将评估实现 AI 自主性和保持严格安全边界之间的平衡。
设计面向未来的测试协议
创建全面的测试协议,以预测在日益强大和互联的环境中滥用人工智能系统的可能性。重点是确保协议能够解决极端但可能的风险,包括涉及药物开发或自主决策等实验应用的风险。协议应纳入道德监督、预测故障分析和系统级审计,以识别和减轻潜在危险。学生将贡献创新方法来确保未来人工智能系统的完整性。
要求
对于渴望塑造下一波人工智能创新浪潮的学生,该项目要求至少在以下领域之一打下深厚基础:i) 机器学习和人工智能、ii) 编程或 iii) 统计学。参与者将结合技术专长和创造力来开发新颖的人工智能方法,将自己定位为未来变革性人工智能技术的贡献者。
