(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210471751.6
(22)申请日 2022.04.29
(71)申请人 上海弘玑信息技 术有限公司
地址 201240 上海市闵行区紫星路58 8号2
幢13层055室
(72)发明人 王雷 宋祺 张睿 燕鹏举 周健
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 钟扬飞
(51)Int.Cl.
G06V 30/413(2022.01)
G06V 30/148(2022.01)
G06K 9/62(2022.01)
G06F 40/194(2020.01)
G06F 40/186(2020.01)G06V 30/19(2022.01)
G06V 10/74(2022.01)
(54)发明名称
文档分类方法、 训练方法、 设备和存 储介质
(57)摘要
本申请提供一种文档分类方法、 训练方法、
设备和存储介质, 该方法包括: 获取待处理文档
图片的文本识别结果; 根据所述文本识别结果和
预设的模板库对 所述待处理文档图片进行分类,
输出所述待处理文档图片的分类结果, 其中所述
模板库中包括至少一种类型的文档模板。 本申请
实现了基于文本识别结果和模板库自动识别出
文档图片所属的类型, 解决了常规图片分类方法
无法处理文档图片的弊端, 提升了文档图片归类
处理的业务场景自动化 程度。
权利要求书3页 说明书13页 附图4页
CN 114782973 A
2022.07.22
CN 114782973 A
1.一种文档分类方法, 其特 征在于, 包括:
获取待处 理文档图片的文本识别结果;
根据所述文本识别结果和预设的模板库对所述待处理文档图片进行分类, 输出所述待
处理文档图片的分类结果, 其中, 所述模板库中包括至少一种类型的文档模板 。
2.根据权利要求1所述的方法, 其特征在于, 所述获取待处理文档图片的文本识别结
果, 包括:
采用光学字符识别技术对所述待处理文档图片进行识别, 得到初始识别结果, 所述初
始识别结果中包括: 所述待处 理文档图片中的初始文本行位置和文本内容;
对所述初始文本行位置归一化处理, 得到所述待处理文档图片最终的所述文本行位
置, 其中所述文本行位置与所述文本内容对应。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述初始文本行位置归一化处理,
得到所述待处 理文档图片最终的所述文本行位置, 包括:
确定所述待处 理文档图片中的基点 位置;
计算每个所述初始文本行位置与所述基点 位置之间的横坐标差值和纵坐标差值;
确定所述横坐标差值与所述待处理文档图片横向宽度值之间的第 一比例数值, 确定所
述纵坐标差值与所述待处理文档图片纵向高度值之 间的第二比例数值, 将所述第一比例数
值作为所述文本行位置的横坐标, 将所述第二比例数值作为所述文本行位置的纵坐标。
4.根据权利要求1所述的方法, 其特征在于, 所述根据所述文本识别结果和预设的模板
库对所述待处 理文档图片进行分类, 输出 所述待处 理文档图片的分类结果, 包括:
根据所述文本识别结果, 分别计算所述待处理文档图片与所述模板库中每一个所述文
档模板之间的匹配度;
选取所述匹配度 大于预设阈值的文档模板作为目标文档模板, 将所述目标文档模板的
类型作为所述待处 理文档图片的文档类型。
5.根据权利要求4所述的方法, 其特征在于, 还包括: 当所述目标文档模板为多个时, 从
多个所述目标文档模板中选出与所述待处理文档图片的所述匹配度最大的文档模板, 将所
述匹配度最大的文档模板的类型作为所述待处 理文档图片的文档类型。
6.根据权利要求4所述的方法, 其特征在于, 所述根据所述文本识别结果, 分别计算所
述待处理文档图片与所述模板库中每一个所述文档模板之间的匹配度, 包括:
针对每个所述文档模板, 根据所述文本识别结果, 分别计算所述待处理文档图片中的
每个文本行与所述文档模板中每 个文本行之间的重 叠度和文本相似度;
从所述文本识别结果中选出目标行集合, 所述目标行集合中的目标行对应的所述重叠
度大于第一阈值, 所述目标 行对应的所述文本相似度大于第二阈值;
将所述目标行集合中包含所述目标行的数量, 与 所述文档模板中文本行总数量的比值
作为所述待处 理文档图片与所述文档模板之间的所述匹配度。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述文本识别结果和预设的模板
库对所述待处 理文档图片进行分类, 输出 所述待处 理文档图片的分类结果, 包括:
根据所述文本识别结果, 分别计算所述待处理文档图片与所述模板库中每一个所述文
档模板之间的匹配度;
选取所述匹配度最大的文档模板作为目标文档模板, 将所述目标文档模板的类型作为权 利 要 求 书 1/3 页
2
CN 114782973 A
2所述待处 理文档图片的文档类型。
8.根据权利要求7 所述的方法, 其特 征在于, 所述匹配度的最大值大于预设阈值。
9.一种文档模板的训练方法, 其特征在于, 包括: 获取多个样本文档图片的样本文本识
别结果和当前模板, 其中, 所述多个样本文档图片的文档类别相同, 所述当前模板与所述多
个样本文档图片的文档类别相同;
针对所述多个样本文档图片中的每一个样本文档图片, 计算当前样本文档图片中的第
k个样本文本行与所述当前模板中每个文本行之间的重叠度, 并判断最大重叠度是否大于
第一阈值, 其中k 为正整数;
当所述最大重叠度大于所述第一阈值时, 计算第k个样本文本行与最大重叠度文本行
之间的文本相似度, 所述最大重叠度文本行为所述最大重叠度对应的所述当前模板中的文
本行;
判断所述文本相似度是否大于第二阈值;
当所述文本相似度大于所述第二阈值时, 根据第k个样本文本行和所述最大重叠度文
本行, 更新所述当前模板 。
10.根据权利要求9所述的方法, 其特 征在于, 还 包括:
当所述最大重叠度小于或等于所述第 一阈值时, 或者当所述文本相似度小于或等于所
述第二阈值时, 进行所述当前样本文档图片中的第k+1个样本文本行与所述当前模板中每
个文本行之间训练过程, 依 次遍历所述当前样本文档图片 中的所有样本文本行, 得到训练
后的所述文档模板 。
11.根据权利要求9所述的方法, 其特征在于, 所述根据第 k个样本文本行和所述最大重
叠度文本行, 更新所述当前模板, 包括:
确定第k个样本文本行位置和所述最大重叠度文本行位置的平均文本行位置, 将所述
平均文本行位置作为更新后的文本行位置;
将第k个样本文本行和所述最大重叠度文本行中, 置信度较高的文本内容作为更新后
的文本行的文本内容, 生成更新后的文档模板 。
12.根据权利要求9所述的方法, 其特征在于, 所述获取多个样本文档图片的样本文本
识别结果, 包括:
采用光学字符识别技术对所述多个样本文档图片进行识别, 得到初始识别结果, 初始
识别结果中包括: 所述样本文档图片中的初始文本行位置和文本内容;
对所述多个样本文档图片的所述初始文本行位置归一化处理, 得到所述多个样本文档
图片最终的文本行位置, 其中, 所述文本行位置与所述文本内容对应。
13.根据权利要求12所述的方法, 其特征在于, 所述对所述多个样本文档图片的所述初
始文本行位置归一 化处理, 得到所述多个样本文档图片最终的文本行位置, 包括:
针对每个样本文档图片, 确定所述样本文档图片中的基点 位置;
计算每个所述初始文本行位置与所述基点 位置之间的横坐标差值和纵坐标差值;
确定所述横坐标差值与所述样本文档图片横向宽度值之间的第 一比例数值, 确定所述
纵坐标差值与所述样本文档图片纵向高度值之 间的第二比例数值, 将所述第一比例数值作
为所述最 终的文本行位置的横坐标, 将所述第二比例数值作为所述最终的文本行位置的纵
坐标。权 利 要 求 书 2/3 页
3
CN 114782973 A
3
专利 文档分类方法、训练方法、设备和存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:00:03上传分享