iso standard online
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210466395.9 (22)申请日 2022.04.29 (71)申请人 北京城市网邻 信息技术有限公司 地址 100015 北京市朝阳区酒仙桥北路甲 10号院101号楼1-7层内1层10 3室 (72)发明人 武继龙  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 吕俊秀 (51)Int.Cl. G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) (54)发明名称 一种标签数据处理方法、 装置、 电子设备和 存储介质 (57)摘要 本申请实施例提供了一种标签数据处理方 法、 装置、 电子设备和存储介质, 所述方法包括: 获取待处理标签集合; 所述待处理标签集合包括 多个图像对应的标签; 所述待处理标签集合中的 标签由多标签 分类模型针对所述多个图像生成; 根据所述待处理标签集合中各个标签与其他标 签之间的条件概率, 确定所述各个标签与其他标 签之间的关联性; 根据所述各个标签与其他标签 之间的关联性, 确定所述待处理标签集合中的孤 立标签; 删除所述孤立标签, 得到第一标签集合。 本申请实施例可以根据关联性确定出孤立标签, 删除孤立标签得到第一标签集合, 从而构建更加 合理的标签体系以及图像多 标签数据集合, 有利 于通过深度学习网络得到的图像标签在实际业 务中的应用。 权利要求书2页 说明书13页 附图2页 CN 114972811 A 2022.08.30 CN 114972811 A 1.一种标签数据处 理方法, 其特 征在于, 所述方法包括: 获取待处理标签集合; 所述待处理标签集合包括多个图像对应的标签; 所述待处理标 签集合中的标签由多标签分类模型针对所述多个图像生成; 根据所述待处理标签集合中各个标签与其他标签之间的条件概率, 确定所述各个标签 与其他标签之间的关联性; 根据所述各个标签与其他标签之间的关联性, 确定所述待处理标签集合中的孤立标 签; 删除所述孤立标签, 得到第一标签集 合。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述待处理标签集合中各个标签 与其他标签之间的条件概 率, 确定所述各个标签与其 他标签之间的关联性, 包括: 根据所述待处理标签集合中各个标签与其他标签之间的条件概率, 构建互关联性矩 阵; 对所述互关联性矩阵进行对称性 转换, 得到互关联性对称矩阵; 根据所述互关联性对称矩阵中的元 素, 确定所述各个标签与其 他标签之间的关联性。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述待处理标签集合中各个标签 与其他标签之间的条件概 率, 构建互关联性矩阵, 包括: 针对所述待处理标签集合中的任一标签, 确定所述任一标签分别与其他任一标签共同 对应同一图像的图像数量; 将各个所述任一标签分别与其他任一标签共同对应同一图像的图像数量, 与 所述任一 标签对应的图像总数量进行除法运 算, 得到针对所述任一标签的至少一个条件概 率; 以所述条件概 率为列向量, 构建互关联性矩阵。 4.根据权利要求2所述的方法, 其特征在于, 所述对所述互关联性矩阵进行对称性转 换, 得到互关联性对称矩阵, 包括: 对所述互关联性矩阵进行转置运 算, 得到所述互关联性矩阵的转置矩阵; 计算所述互关联性矩阵的元素, 与 所述转置矩阵中与 所述互关联性矩阵的元素位置对 应的元素之间的元 素平均值, 得到互关联性对称矩阵。 5.根据权利要求4所述的方法, 其特征在于, 所述互关联性对称矩阵中的一列 元素包括 针对同一标签的多个标签条件概率; 所述根据所述互关联性对称矩阵中的元素, 确定所述 各个标签与其 他标签之间的关联性, 包括: 根据所述针对同一标签的多个标签条件概率之和, 计算针对同一标签的标签条件概率 平均值; 根据所述针对同一标签的标签条件概率平均值, 确定所述各个标签与其他标签之间的 关联性; 所述根据 所述各个标签与其他标签之间的关联性, 确定所述待处理标签集合中的孤立 标签, 包括: 当至少一个标签的标签条件概率平均值小于预设概率平均值阈值 时, 将所述至少一个 标签设为孤立标签。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 计算所述第一标签集 合中两个标签之间的词义相似度;权 利 要 求 书 1/2 页 2 CN 114972811 A 2当所述词义相似度的得分大于预设相似度得分阈值 时, 将所述词义相似度对应的标签 设为存在同义关系的同义标签; 合并所述同义标签为 一个标签。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 针对各个图像, 确定图像对应的标签 针对所述图像的置信度; 确定各个图像的目标标签的数量, 所述目标标签为图像对应的标签中, 置信度得分大 于预设置信度阈值的标签; 根据各个图像的目标标签的数量的总和与图像总数量进行除法运算, 得到图像平均标 签数量; 当所述图像平均 标签数量大于预设平均 标签数量阈值 时, 将所述各个图像的目标标签 作为第二标签集 合; 删除所述第二标签集合中的稀有标签, 得到待处理标签集合; 所述稀有标签为对应的 图像数量占比小于预设占比阈值的标签。 8.一种标签数据处 理装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取待处理标签集合; 所述待处理标签集合包括多个图像对应的标签; 所述待处 理标签集 合中的标签由多标签分类模型针对所述多个图像生成; 关联性确定模块, 用于根据 所述待处理标签集合中各个标签与其他标签之间的条件概 率, 确定所述各个标签与其 他标签之间的关联性; 标签确定模块, 用于根据所述各个标签与其他标签之间的关联性, 确定所述待处理标 签集合中的孤立标签; 删除模块, 用于删除所述孤立标签, 得到第一标签集 合。 9.一种电子设备, 其特征在于, 包括: 处理器、 存储器及存储在所述存储器上并能够在 所述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权利要求 1‑ 7中任一项所述的标签数据处 理方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储计算机程 序, 所述计算机程序被处理器执行时实现如权利要求1 ‑7中任一项所述的标签数据处理方 法的步骤。权 利 要 求 书 2/2 页 3 CN 114972811 A 3

PDF文档 专利 一种标签数据处理方法、装置、电子设备和存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种标签数据处理方法、装置、电子设备和存储介质 第 1 页 专利 一种标签数据处理方法、装置、电子设备和存储介质 第 2 页 专利 一种标签数据处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。