近日,我院陈志德教授团队的最新研究成果《Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy》被计算机视觉领域国际顶级学术会议 CVPR 2026(The IEEE/CVF Conference on Computer Vision and Pattern Recognition)录用。该成果标志着我校在多模态情感计算、计算机视觉与人工智能交叉研究方向取得了新进展,为紧凑型通用情感AI的研发与轻量化部署提供了全新技术路径。论文第一单位为福建师范大学,我院研究生黄嘉豪为第一作者,我院陈志德教授为通讯作者。
该研究主要聚焦多模态情感语言模型长期面临的低层次感知与高层次交互断层、情感能力碎片化、资源消耗过高的关键挑战。当前情感计算模型大多局限于单一认知层级,难以实现从情绪感知到共情交互的全链路统一,且大参数模型的高算力需求严重制约了轻量化部署。针对上述问题,团队提出认知启发的三级情感任务层级框架,设计出轻量化多模态语言模型Nano-EmoX与P2E(Perception-to-Empathy)渐进式训练框架。

Nano-EmoX具备三大核心优势:一是构建增强型面部编码器与跨模态分层专家融合机制,精准捕捉视觉、语音、文本的细粒度情感线索,显著提升模型跨任务泛化能力;二是以2.2B参数的紧凑型架构,首次统一覆盖感知、理解、交互三级认知层级的6大核心情感任务,实现参数效率与情感智能的最优平衡;三是遵循人类认知规律的P2E训练范式,从基础模态对齐到跨模态融合再到多任务指令调优,逐步培养模型情感智能,有效降低复杂任务学习难度。实验结果表明,Nano-EmoX在零样本场景下性能比肩主流大模型,仅需单张NVIDIA RTX 4090 GPU训练32小时即可完成,兼具高效性与实用性。
据悉,CVPR是国际顶级计算机视觉会议(人工智能计算机视觉三大顶会之一,另外两个为ICCV、ECCV),在中国计算机学会推荐国际学术会议中位列人工智能领域A类会议。本次会议共16092篇投稿进入评审,推荐接收4090篇,接收率为25.42%。
论文地址:https://arxiv.org/abs/2603.02123
