(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211017228.2
(22)申请日 2022.08.23
(71)申请人 中国地质大 学 (武汉)
地址 430000 湖北省武汉市洪山区鲁磨路
388号
(72)发明人 陈略峰 段文浩 吴敏 李敏
(74)专利代理 机构 武汉知产时代知识产权代理
有限公司 42 238
专利代理师 王佩
(51)Int.Cl.
G06V 20/00(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/77(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多头注意力机制的多阶段深度网络室
内场景识别方法
(57)摘要
本发明提供了一种基于多头注意力机制的
多阶段深度网络室内场景识别方法, 包括以下步
骤: 获取室内场景的数据集, 并将数据集按比例
分为训练集和测试集; 对训练集中的室内场景图
像进行预处理和数据增强处理; 将增强后的图像
输入到3层不同步长的卷积层中进行下采样; 将
提取到的特征信息输入到主干网络中, 利用深度
卷积和多头自注意力机制, 采用多阶段的训练方
式进行深度特征提取, 得到深度特征信息; 将深
度特征信息输入到池化层、 全连接层和分类器
中, 得到训练完成的分类器; 利用训练完成的分
类器对测试集进行测试, 从而确定室内场景类
别。 本发明可以获取更好的局部特征信息和深度
特征信息, 并在减少特征信息的损失的同时实现
室内场景的准确识别。
权利要求书2页 说明书7页 附图2页
CN 115424123 A
2022.12.02
CN 115424123 A
1.一种基于多头注意力机制的多阶段深度网络室内场景识别方法, 其特征在于, 包括
以下步骤:
S1: 获取室内场景的数据集, 并将数据集按比例分为训练集和 测试集;
S2: 对训练集中的室内场景图像进行 预处理和数据增强处 理, 得到增强后的图像;
S3: 将增强后的图像输入到3层不同步长的卷积层网络中进行下采样, 减小图像的大
小, 同时保留更多的特 征信息和 局部信息;
S4: 将S3中提取到的特征信息输入到主干网络中, 利用深度卷积和多头自注意力机制,
采用多阶段的训练方式进行深度特 征提取, 得到深度特 征信息;
S5: 将深度 特征信息依次输入池化层、 全连接层和分类器 中, 得到最终权值和训练完成
的分类器;
S6: 利用训练完成的分类器和最终权值对测试集中的室内场景图像进行测试, 从而确
定室内场景类别。
2.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法,
其特征在于, 步骤S1中, 所述获取室内场景的数据集的步骤, 包括:
利用情感机器人进行常见室内交互环境的场景 图像数据收集, 并与IndoorCVPR_09相
关数据集 合并制作室内场景的数据集。
3.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法,
其特征在于, 步骤S2中, 使用Trivialaugmentation方法对 预处理后的室内场景图像进行数
据增强处 理, 具体包括:
增加一个数据增强函数的集合A作为输入, 集合A的数据增强函数包括旋转、 平移、 翻
转、 均衡、 像素值翻转和亮度, 每 个数据增强函数都有其对应的增强范围{0,1,2 …,N};
从A中随机采样一个数据增强函数, 并从增强范围{0,1,2 …,N}中均匀采样一个值作 为
强度m, 其中N表示任意 正整数, 根据强度m对输入图像进行 数据增强, 并返回增强后的图像。
4.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法,
其特征在于, 步骤S 3中, 所述将增强后的图像输入到3层不同步长的卷积层网络中进 行下采
样的步骤, 包括:
将增强后的图像作为输入图像, 输入到 3层不同步长的卷积层网络中;
第一个卷积层使用3x3, 步长为2的卷积, 输出通道为32, 对输入图像进行一次下采样的
操作, 减小输入图像的大小, 保留更多的特 征信息;
将前一个卷积层的输出作为输入, 使用两层3x3, 步长为1的卷积, 获得更好的局部信
息。
5.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法,
其特征在于, 步骤S4中, 所述主干网络 分为四个阶段来生成不同尺度的特征图, 为了产生分
层表示, 在每个阶段之前添加一个2x2, 步长为2的卷积层, 以减小中间特征的大小, 并将其
投影到更 大的维度;
每个阶段中, 在多头注意力机制前还有一个深度卷积层DW, 深度卷积层用于局部特征
的提取, 同时减少计算量; 多头注意力机制用于动态调整权重值, 得到更多的局部特征信息
以及全局特 征信息。
6.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法,权 利 要 求 书 1/2 页
2
CN 115424123 A
2其特征在于, 步骤S5中, 以一个全局平均池化层、 一个全连接层和一个带有softmax的1000
路分类层结束, 得到最终权值和训练完成的分类 器。
7.根据权利要求1所述的基于多头注意力机制的多阶段深度网络室内场景识别方法,
其特征在于, 步骤S6中, 所述利用训练完成的分类器和最终权值对测试集中室内场景图像
进行测试的步骤, 包括:
将测试集中室内场景图像作为待检测图像输入训练完成的分类 器中;
根据预设的要求调整所述待检测图像的尺寸大小, 生成第一检测图像;
将所述第一检测图像输送至主干网络 中进行深度 特征提取和匹配识别, 生成分类识别
信息以及分类识别 信息对应的分类概 率值;
判断所述分类概率值是否大于预设的分类概率阈值, 若是, 则将所述检测框和分类识
别信息作为识别的分类结果; 若否, 则继续进行其余分类概率值比较, 直至 分类概率值大于
预设的分类概 率阈值, 得到识别结果。
8.一种基于多头注意力机制的多阶段深度网络室内场景识别装置, 其特征在于, 包括
以下模块:
数据集获取模块, 用于获取室内场景的数据集, 并将数据集按比例分为训练集和测试
集;
数据增强模块, 用于对训练集中的室内场景图像进行预处理和数据增强处理, 得到增
强后的图像;
下采样模块, 用于将增强后的图像输入到3层不同步长的卷积层网络中进行下采样, 减
小图像的大小, 同时保留更多的特 征信息和 局部信息;
深度特征提取模块, 用于将下采样模块提取到的特征信息输入到主干网络中, 利用深
度卷积和多头自注意力机制, 采用多阶段的训练方式进行深度特征提取, 得到深度特征信
息;
分类器获取模块, 用于将深度 特征信息依次输入池化层、 全连接层和分类器 中, 得到最
终权值和训练完成的分类 器;
场景识别模块, 用于利用训练完成的分类器和最终权值对测试集中的室内场景图像进
行测试, 从而确定室内场景类别。
9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算
机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的多阶
段深度网络室内场景识别方法的步骤。
10.一种存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被处理器执行
时实现如权利要求1 ‑7中任一项所述的多阶段深度网络室内场景识别方法的步骤。权 利 要 求 书 2/2 页
3
CN 115424123 A
3
专利 基于多头注意力机制的多阶段深度网络室内场景识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:41:16上传分享