iso standard online
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210999421.4 (22)申请日 2022.08.19 (71)申请人 武汉大学 地址 430072 湖北省武汉市武昌区珞珈山 街道八一路2 99号 (72)发明人 叶茫 陈翠群  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 肖明洲 (51)Int.Cl. G06V 20/30(2022.01) G06V 10/80(2022.01) G06V 10/44(2022.01) G06V 10/54(2022.01) G06V 10/56(2022.01)G06V 10/82(2022.01) G06F 16/583(2019.01) (54)发明名称 基于非对称解耦和动态 合成的素描-照片识 别方法及系统 (57)摘要 本发明公开了一种基于非对称解耦和动态 合成的素描 ‑照片识别方法及系统, 提出了一种 非对称解耦方案, 基于自动编码器将照片模态特 征分解为与素描图相关表征和与素描图无关表 征。 为了获得信息对称的跨模态特征嵌入空间, 本发明提出利用知识迁移技术将素描图表征和 照片模态中的素描图无关表征进行融合, 得到与 照片模态表征信息对称的更新后素描图表征。 最 后, 我们的模 型在对齐后的特征嵌入空间上执行 度量学习, 从而 促进模态不变特征学习。 此外, 本 发明提出从照片模态中生成一种动态可更新和 可学习的辅助素描图(A ‑sketch)模态, 来指导照 片模态的非对称解耦。 本发明在不增加推理时间 的情况下, 极大提高了素描 ‑照片识别任务的检 索准确率。 权利要求书3页 说明书8页 附图1页 CN 115439769 A 2022.12.06 CN 115439769 A 1.一种基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在于, 包括以下步 骤: 步骤1: 针对原 始照片图像, 生成辅助素描图像; 步骤2: 针对步骤1中生成的辅助素描图像, 将照片模态特征分解为与素描图相关表征 和与素描图无关表征; 其中, 与素描图相关表征描述了与素描模态共享的目标对 象轮廓和 结构信息, 与素描图无关表征描述了照片模态特有的表 观细节信息; 步骤3: 针对素描图像, 将步骤1中获得的照片模态中的素描图无关表征与所述素描图 像进行融合, 得到与照片模态 表征信息对称的更新素描图像; 步骤4: 将步骤3中获得更新素描图像与步骤1中原始照片图像进行对比识别, 获得识别 结果。 2.根据权利要求1所述的基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在 于: 步骤1 中, 采用素描生 成网络生成辅助素描图像, 所述素描生成网络为训练好的网络; 训 练过程中利用数据集Scibble上的预训练参数初始化该网络, 然后将该素描生成网络与识 别任务网络进行联合训练, 实现素描生成网络参数 的动态更新, 从而使得生成的辅助素描 更加符合识别任务需要; 所述识别任务网络包括素描相关表示编码器、 素描无关表示编码 器、 图像融合模块和对比识别模块; 其中, 更新素描生成网络所采用的损失函数为: 其中, 表示身份损失, 为交叉熵损失或三元组损失; λi表示超参数; 为风格绑定损 失; as和 分别表示初始A ‑sketch图像和细化后的A ‑sketch图像, R表示辅助素描图片的像 素数, 表示Froben ius范数。 3.根据权利要求1所述的基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在 于: 步骤2中, 利用Vision  Transformer 网络实现模态局部特征间的远距离交互, 挖掘全局 水平的模态特 征表示; 给 定 一 张 素 描 / 照 片图 像 Ii, 首 先 将 其 划分 为 非 重 叠 固 定 大 小图 像 块 则ViT输入序列Xi表示为: 式中, Iclass表示获得最终图像表示的额外可学习参数; U( ·)表示线性投影层, 用于将 图像块转换为一维向量; PE表示图像块的位置编码。 4.根据权利要求1所述的基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在 于: 步骤2中, 基于自动编 码器和生成的辅助素描模态将照 片模态特征分解为与素描图相关 表征和与素描图无关表征; 照片模态特 征分解过程 为: 权 利 要 求 书 1/3 页 2 CN 115439769 A 2其中, 掩码矩阵α 中元素αi,j描述了照 片模态第i行特征 与辅助素描模态第 j列特征 间的相似度, Z( ·)表示相似度计算; 和 分别表示照片模态的与素描图相关表征和与 素描图不相关表征; V+(·)、 V‑(·)、 K(·)和Q(·)分别表示权重 不共享的线性变换层, 用于 将相应特征映射到不同的表征子空间中; E+(·)和E‑(·)分别表示素描图相关表示编码器 和素描图无关表示编码器。 5.根据权利要求4所述的基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在 于: 所述素描相关表示编 码器由两个线性投影层组成, 包含第一线性全连接层、 第二线性全 连接层; 所述第一线性全连接层和第二线性全连接层顺序连接; 所述第一线性全连接层, 用于映射照片表征到不同特征空间; 通过建模照片和辅助素 描表征间的空间相似性关系得到掩码矩阵α, 将其与所述第一线性全连接层的输出进行矩 阵乘, 实现对照片表征的加权修正, 增强照 片特征中与结构相关的表征, 其结果用于所述第 二线性全连接层的输入; 所述第二线性全连接包 含全连接层和dropout层。 6.根据权利要求4所述的基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在 于: 所述素描 无关表示编 码器由两个线性投影层组成, 包含第一线性全连接层、 第二线性全 连接层。 所述第一线性全连接层和第二线性全连接层顺序连接; 所述第一线性全连接层, 用于映射照片表征到不同特征空间; 通过建模照片和辅助素 描表征间的空间相似性关系 得到掩码矩阵α, 将1 ‑矩阵与所述第一线性全连接层的输出进 行矩阵乘, 实现对照 片表征的加权修正, 增强照 片特征中与结构无关的表征, 其结果用于所 述第二线性全连接层的输入; 所述第二线性全连接包 含全连接层和dropout层。 7.根据权利要求1所述的基于非对称解耦和动态合成的素描 ‑照片识别方法, 其特征在 于: 步骤3中, 利用知识迁移方法将步骤1中获得的照片模态中的素描图无关表征与所述素 描图像进行融合; 其中, fs和 分别表示更新前和更新后的素描表征。 μ[ ·]和σ [·]分别表示求均值和标 准差, 用于素描模态特征的标准化; γ和β 分别表示照片模态中与素描不相关表征 的可 学习仿射 参数; ∈表示 一个小量。 8.根据权利要求2 ‑7任意一项所述的基于非对称解耦和动态合成的素描 ‑照片识别方 法, 其特征在于: 所述素描生成网络和所述识别任务网络为训练好的网络, 网络训练的整体 损失函数 包含以下四个部分: 权 利 要 求 书 2/3 页 3 CN 115439769 A 3

.PDF文档 专利 基于非对称解耦和动态合成的素描-照片识别方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于非对称解耦和动态合成的素描-照片识别方法及系统 第 1 页 专利 基于非对称解耦和动态合成的素描-照片识别方法及系统 第 2 页 专利 基于非对称解耦和动态合成的素描-照片识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:42:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。