iso standard online
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210467461.4 (22)申请日 2022.04.29 (71)申请人 中山大学·深圳 地址 518107 广东省深圳市光明区公常 路 66号中山大 学深圳校区 申请人 中山大学 (72)发明人 梁小丹 聂云双 林冰倩  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 郑堪泳 (51)Int.Cl. G06V 40/20(2022.01) G01C 21/20(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/74(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于模态对齐的动作提示的视觉语言 导航系统及方法 (57)摘要 本发明提供一种基于模态对齐的动作提示 的视觉语言导航系统及方法, 系统包括动作提示 集产生模块, 输入指令到动作提示集产生模块, 智能体在导航开始前从动作提示库中检索与指 令相关的动作提示集; 模态对齐动作提示的视觉 语言导航模块, 动作提示集通过提示编码模块, 输出提示特征与文本编码模块的输出指令特征 连接在一起; 基于提示的指令特征和视觉编码模 块的输出视觉特征被提供给多层transformer用 来做动作决策。 优化学习模块, 即模态对齐损失 模块和连续一致性损失模块, 实现有效的动作提 示学习; 本发 明重点提出了显式的模态对齐的动 作提示, 以提高智能体导航的准确性和不同环境 中的泛化能力。 权利要求书4页 说明书12页 附图4页 CN 114973402 A 2022.08.30 CN 114973402 A 1.一种基于模态对齐的动作提 示的视觉语言导 航系统, 其特 征在于, 包括: 动作提示集产生模块, 输入指令到动作提示集产生模块, 智能体在导航开始前从动作 提示库中检索与指令相关的动作提 示集; 模态对齐动作提示的视觉语言导航模块, 动作提示集通过提示编码模块, 输出提示特 征与文本编 码模块的输出指令特征连接在一起; 基于提示的指 令特征和视觉编 码模块的输 出视觉特征被提供 给多层transformer用来做动作决策; 优化学习模块, 即模态对齐损 失模块和连续一致性损 失模块, 实现有效的动作提示学 习。 2.根据权利要求1所述的基于模态对齐的动作提示的视觉语言导航系统, 其特征在于, 所述模态对齐动作提 示的视觉语言导 航模块包括: 文本编码模块该模块接收语言信息的输入, 利用多层transformer神经网络分别进行 编码, 获得相应的特 征向量; 提示解码模块, 该模块由两个单模态子提示编码器和一个多模态提示编码器组成, 图 像子提示和文本子提示分别通过对应的单模态自编 码器得到子提示特征, 连接以后输入进 多模态提 示编码器, 获得提 示特征; 视觉编码模块, 该模块接收视觉观察信 息的输入, 通过视觉编码器进行编码, 获取对应 的特征向量。 3.根据权利要求2所述的基于模态对齐的动作提示的视觉语言导航系统, 其特征在于, 所述优化学习模块包括: 模态对齐损失模块, 当动作提示已经有匹配的图像和文本子提示, 利用InfoNCE损失使 得它们在在特征空间中对齐, 动作提 示可以变得 更加具有识别 力; 连续一致性损 失模块, 促使智能体根据其观察, 按顺序关注检索到的提示集中的相关 动作提示。 4.一种应用权利要求3所述系统的视 觉语言导 航方法, 其特 征在于, 包括以下步骤: S1: 在导航的开始, 智能体获取指令, 通过动作提示产生模块从动作提示库中检索与指 令相关的动作提 示集; S2: 通过视觉编码模块和文本编码模块, 对神经网络分别对输入的图像信息和指令信 息进行编码, 分别获得视 觉编码, 指令编码, 状态特 征; S3: 通过提示编码模, 动作提示集中图像子提示和文本子提示分别通过对应的单模态 自编码器得到 子提示特征, 连接以后输入进 多模态提 示编码器, 获得提 示特征; S4: 将上述指令编码和提示编码连接起来获得基于提示的指令特征, 将上述状态特征 与视觉编码连接起 来, 得到状态视 觉特征; S5: 通过模态对齐动作提示的视觉语言导航模块, 状态视觉特征基于自身和基于提示 的指令特征之间的跨模态注意力更新, 将该注意力 分解为两部分, 第一部分对指令编码加 权更新, 用于更新状态特征, 第二部 分对图像和文本子提示特征进 行加权更新, 用于计算顺 序一致性损失, 将状态视觉特征输入另一个 自注意力模块, 以获得状态特征关于视觉特征 的注意力分数, 即基于提 示的动作预测概 率; S6: 通过优化学习模, 结合常用的模仿学习损失和强化学习损失, 以及本发明特有的模 态对齐损失和连续一致性损失, 进行加权求和, 获得总训练目标, 对模型进行更新优化, 提权 利 要 求 书 1/4 页 2 CN 114973402 A 2高智能体导 航性能和泛化能力。 5.根据权利要求4所述的基于模态对齐的动作提示的视觉语言导航方法, 其特征在于, 所述步骤S1包括以下子步骤: S100: 动作提示库的建设, 为了对齐图像和动作短语, 形成动作提示符, 设计两分支方 案来收集图像和文本子提示: 首先, 对于训练数据集中的一个指令 路径实例, 使用一个提前 创建好的视觉物体visual  object/位置location词汇表来查找指令中提及的视觉物体/位 置, 对于每个视觉物体/位置, 分别获得相关 的图像和文本子提示, 使用具有优秀的0 ‑shot 跨模态对齐能力的CLIP, 用于定位物体/位置相关 的图像, 为了适应CLIP的推理过程, 将短 语“a photo of{CLASS} ”中的标记{CLASS}token替换为类别标签是c的可视物体/位置, 在 动作序列中一个图像B属于 c类的概率由以下 方法计算: 其中τ 1为温度temperature参数, sim为余弦相似度, b, wc分别为CLIP生成的图像特征和 短语特征, M为词汇表的尺寸, 然后选择与该短语相似度最大的图像作为图像子提示, 为了 获得文本子提示, 使用简单的最近动词搜索方案, 即找到一个特定的物体/位置词之前最近 的动词, 该动词在预先构建的动词词汇中, 最后, 拥有相同的视觉物体/位置和动作的图像 和文本子提示形成一个对齐的动作提 示; S101: 动作提示集的检索, 在导航的开始, 智能体从动作 提示库中检索与指令相关的动 作提示, 计算提示库中每个与对象/位置相关的动作短语与文本子提示之 间的句子相似度, 用于检索与指令相关的动作提 示集 其中N为该集合的大小。 6.根据权利要求4所述的基于模态对齐的动作提示的视觉语言导航方法, 其特征在于, 所述步骤S2包括以下子步骤: S200: 视觉输入的编码, 对于时间步长t时, 候选视图中的每个图像视图Ot, i, 都将使用 一个预先训练的卷积神经网络CNN或transformer 提取图像特征vt, i, 然后vt, i被视觉编码器 Fv映射为视觉编码: Vt, i=Fv(vt, i; θv) 其中θv为Fv的参数, 一组 代表时间t下的候选 视觉编码; S201: 语言输入的编码, 初始化时, 指令编码X和初 始化后的状态特征s0通过输入指令序 列I和[CLS]和[ SEP]tokens给transformer中的self ‑attention模块获得: 其中Concat( ·)代表连接concaten ation操作, 表示self ‑attention模组的参数, s0 将会在时间步骤t被更新 为st。 7.根据权利要求4所述的基于模态对齐的动作提示的视觉语言导航方法, 其特征在于, 所述步骤S3包括以步骤: 使用 通过提示编码器得到提示编码 该提示编码器由两个单模态子 提示编码器和一个多模态提示编码器组成, 其中图像子提示和文本子提示权 利 要 求 书 2/4 页 3 CN 114973402 A 3

PDF文档 专利 一种基于模态对齐的动作提示的视觉语言导航系统及方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模态对齐的动作提示的视觉语言导航系统及方法 第 1 页 专利 一种基于模态对齐的动作提示的视觉语言导航系统及方法 第 2 页 专利 一种基于模态对齐的动作提示的视觉语言导航系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。