报告题目:多模态大模型的安全对齐:挑战与解决方案
时间:2025年6月13日(星期五)14:00-15:00
地点:科研楼18#1004
主办:计算机与网络空间安全学院
参加对象:相关专业教师和学生
报告摘要:随着大语言模型(LLMs)能力的拓展,多模态大模型(尤其是视觉语言模型,LVLMs)在图像理解、辅助问答等任务中展现出显著性能。然而,近年来的研究揭示,这类模型在引入视觉模态后,其原本在文本域建立的安全机制无法自然迁移,导致面对图像相关输入时表现出严重的安全性缺陷,甚至会在“看似安全”的输入组合下输出不当或有害内容,给实际部署带来巨大风险。报告围绕多模态模型的跨模态安全对齐问题展开,结合最新研究工作,总结了当前LVLM安全对齐面临的关键问题,并介绍当前几种代表性解决方案的可行性与局限性。
报告人简介:刘航呈,目前在新加坡南洋理工大学担任博士后研究员,主要研究方向为人工智能安全。研究成果已发表在多个人工智能与信息安全领域的顶级国际会议和期刊上,包括 NeurIPS、ACM CCS、ACM MM、WWW、IEEE TIFS、TCSVT 等。