供稿/灭火技术与装备研究室 徐琰
一个人形机器人,如果想要正确执行“有点累,帮我去拿一杯提神的饮品”这条指令,最关键的部分之一就是多模理解。

在理解语音指令、拆解任务步骤之后,人形机器人需要识别“视线”里的物体,判断推理出哪瓶饮料是符合指令意思需要拿取的。

我们生活在一个由多种模态信息构成的世界里,比如图像、文字、语音、视频等。我们感受、沟通时,其实都是以多模态的形式在进行。所以,多模态能力对于真正要进入家庭的机器人来说必不可少,多模理解尤为重要。从 2023 年 5 月 6 日首次发布会上展示部分多模态能力,到 8 月 15 日公布最新多模态成果,以及 10 月 24 日再次呈现多模态能力在指令跟随和细节表达上的进步,讯飞星火认知大模型的多模态能力持续迭代,并赋能相关产品在实际中创新应用。以人形机器人背后的多模理解技术引入,分享讯飞研究院在讯飞星火认知大模型研发过程中多模态能力的相关技术方案与思考。
多模理解:松耦合与紧耦合讯飞星火认知大模型的多模理解能力技术结合了松耦合与紧耦合多模理解,二者的区别之一在于是否需要端到端训练。
松耦合多模理解
想让认知大模型具备多模态的理解能力,以图像为例,最直接的方式就是将图像转化为标准的文本信息。

如上图所示,图像输入后,通过一个额外的图文转换器,图像转换成与认知大模型相匹配的对应文本信息,直接利用大模型完成交互,无需端到端训练,这就是松耦合多模理解。
但这种方式存在一定问题。常见的自然图像是一个 2D信号,蕴含着非常丰富的信息,如不同的实体、实体的各种属性、与其他实体和环境的关系,仅通过一个如稠密描述器DenseCaptioner 这样的转换器,难以将所有信息转换为文字形态。

但对于某些特殊的图像,尤其是文档图像来说,松耦合多模理解的方案却能展现出极高的实际应用价值。松耦合在文档图像中得到的信息是全量信息,即通过图文识别与结构化理解技术,提取出图像中蕴含的完整信息。
紧耦合多模理解
紧耦合多模理解通过视觉表征学习构建图像特征编码器,借助桥接器抽取关键信息并实现跨模态对齐,以端到端微调保障多模态对话式任务理解及泛化能力。

从上图中可以看出,图像这种新增模态的编码器与图像特征和文本之间的转换模块,我们称之为桥接器。
这种方案的训练过程共有三个阶段(不包含认知大模型的训练):
阶段一:视觉表征学习。将 2D 的图像信号转换为特征,可以通过一些常用的自监督学习范式来实现。
阶段二:跨模态对齐。需要借助桥接器抽取图像中的有用信息,对齐到文本的语义空间中。这些有用信息包括图像中的实体信息、场景信息、实体与实体 / 场景的关系信息,以及很重要的文字信息。由于不同信息间的差异较大,我们设计了区分性的查询向量来分别进行提起,并加以不同的监督信号。
阶段三:端到端微调。将整个系统变成一个对话系统,需要多种不同指令式的数据来进行端到端微调,类似于认知大模型的 SFT 阶段。这一阶段不仅让模型学会如何利用桥接器抽取到的信息,还能充分利用认知大模型的智慧涌现能力,提高多模任务的泛化能力。
相关技术使得讯飞星火认知大模型的多模理解能力进一步提升,并助力讯飞相关产品增添全新应用。例如人形机器人能够更好理解和服务我们,以及讯飞 AI 学习机所提出的 AI 1 对 1 创意绘画伙伴,聪明的 AI 伙伴“小飞”能够通过对图像的理解对绘本作品的主题、主体、氛围、细节等深入解读,不仅能看懂孩子们画了什么,还能理解孩子想要表达的情感和意义。
多模态大模型与图文识别:通用图文识别模型能否实现?对于多模理解来说,图文识别是其中极为重要的部分。图文识别能从图像中提取文字,文字是非常重要的信息载体之一。对于多模态大模型来说,图像中的文字信息可以辅助大模型对图像内容进行深度理解,提升智慧程度。
与此同时,更强的认知大模型则能够强化图文结构化理解中的解码器能力,使得教育、医疗等需要较多外源知识和推理能力的领域场景中图文识别能力提升。

图文结构化理解任务目前已基本统一为编码器 - 解码器架构,与多模态大模型的架构十分类似。由于认知大模型相比原有的解码器具备更强的推理能力,并且经过海量数据预训练、记忆了大量的知识,如果将认知大模型替换原有解码器中的模型,图文理解的核心效果将会带来明显提升,特别是在教育、医疗等领域场景较为明显。
基于以上,我们可以提出两个重要思考:构建一个图文领域的通用大模型,实现面向不同场景、不同任务、不同语种的统一模型?
将图文识别与多模理解合并在一个模型完成,实现紧耦合统一?
上文中提到的多模理解(图文理解)相关任务,可以借助大模型来提升相关效果;但对于部分图文识别任务来说,使用认知大模型是否显得“大材小用”,仍有待思考。
目前,我们尝试了不同场景统一建模、拓展多语种等丰富场景、搭建不同尺寸的模型等方法,也在落地应用时考虑了兼顾工程效率等问题。
纵观多模态大模型整体发展,虽然在今年内实现了多个领域的技术突破,面临的挑战也仍然十分艰巨。例如感知理解中的幻觉问题,细节感知与生成问题,以及多实体复杂关系的文图生成问题等,都是未来多模态大模型发展需要持续攻克的难点与重点。

多模态能力是通用人工智能赋能各个行业的刚需,大模型的多模态智能也愈发受到更多人关注。我们认为,未来的通用大模型发展趋势之一就是多模态、多语言。从认知智能大模型到多模态智能大模型,认知智能大模型仍然是核心基础,语音、图像、视频等其他模态需要对齐到统一语义空间中,结合插件工具实现多模态协同涌现。
来源:科大讯飞研究院
转载自:应急管理部上海消防研究所