版权归原作者所有,如有侵权,请联系我们

苏金树教授:多模态感知认知智能理论

Engineering前沿
工程院Engineering系列期刊内容精选
收藏

多模态感知认知智能理论是指整合多种感知渠道(如视觉、听觉、触觉、文本等)信息,实现对环境或对象的全面理解与解析,模拟人类多维感知与认知机制的智能计算范式,实现机器对视觉、听觉、触觉等多模态数据的协同理解与推理。

多模态感知智能主要依托深度学习、数据融合和模式识别技术,处理和分析不同模态的数据,研究多模态数据表示、跨模态信息融合、模态间关联挖掘、多模态任务联合优化等,以提升感知系统的准确性和鲁棒性。多模态认知智能主要以多模态数据的协同处理与融合为核心,研究跨模态表示学习、跨模态生成和多模态协同等核心问题。例如,在自动驾驶领域,通过结合摄像头、雷达和激光雷达的数据,可以更精准地识别和预测周围环境中的动态物体等。

多模态感知智能的研究趋势包括:发展更强大的大规模多模态预训练模型,以实现更广泛的应用场景覆盖;提升实时数据处理能力,满足复杂环境下的即时响应需求;注重数据的同步与异构融合,提升系统的整体感知能力和适应性。多模态认知智能将逐步朝着深度神经网络与认知科学深度融合的方向演进,致力于突破模态间的语义鸿沟,实现更接近人类认知水平的智能系统,为自然语言理解、视觉问答、跨模态检索等任务提供重要的理论基础与技术支撑。

该前沿主题2018—2023年间发表的核心论文(注:针对该主题在Web of Science检索得到的被引频次位于前10%的高影响力论文——截至2023年12月)数量及其逐年发表情况见表3.1和表3.2。

内容取自《全球工程前沿2024》

评论
、? !
太师级
2025-06-05
科普647da048606b8
庶吉士级
已经阅读
2025-03-07