iso standard online
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210461219.6 (22)申请日 2022.04.28 (71)申请人 吉林大学 地址 130000 吉林省长 春市前进大街269 9 号 (72)发明人 徐昊 迟杨 史大千 刁晓蕾  李春桃  (74)专利代理 机构 长春市吉利专利事务所(普 通合伙) 22206 专利代理师 王楠楠 李晓莉 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01)G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 基于历时汉字知识图谱的古文字相似度量 化方法 (57)摘要 本发明提出了一种基于历时汉字知识图谱 的古文字相似度量化方法, 属于文字识别技术领 域, 该方法由历时汉字知识图谱构建步骤和古文 字字形相似度计算步骤两部分组成; 本发明构建 知识图谱, 并基于该知 识图谱提出了古文字字形 相似度的自动化度量方法。 在 汉字知识库的设计 上, 本发明首次针对汉字和词汇的特点, 从字 形、 部件、 文字、 词汇、 义项等完整层次进行建模, 从 而构成了汉字之间的关联网络, 并且图谱具有历 时性, 可以关联中国各个历史时期 的文字。 在字 形相似度的计算上, 本发明利用历时汉字知 识图 谱中的知识, 使古文字字形之间的相似性可以被 量化计算。 本发 明提出的方法可以帮助古文字研 究人员高效获取 领域知识。 权利要求书5页 说明书13页 附图5页 CN 114707615 A 2022.07.05 CN 114707615 A 1.基于历时汉字知识图谱的古文字相似度量化方法, 其特征在于: 该方法由历时汉字 知识图谱构建步骤和古文字 字形相似度计算 步骤两部分组成; S1、 历时汉字知识图谱构建 (1)知识库架构设计、 属性和关系设计; 历时汉字知识图谱分为字形、 部件、 古文字、 文字、 词汇、 义项、 同义词集和概念网络八 层; 所述历时汉字知识图谱的八个层次以及 层次之间的关联关系如下: 字形: 每个字形来自于出土文物的拓片图像; 部件: 部件是部首或文字, 是复合文字的组成单位, 所有字形都与组成它的部件相关 联; 古文字: 所有字形都应与各个不同历史时期对应的古文字相关联; 文字: 包括已释字和未释字, 前者又分为现代汉字和丢失字; 各个不同历史时期的古文 字, 如果代表同一个字, 应该关联到同一个文字, 如果该古文字已经被释读, 并且仍在使用, 将其与现代汉字联系起来, 否则, 如果古文字已被释读但已经不使用, 则应与对应的丢失字 关联, 最后, 未释 读古文字应与相应未释字关联; 词汇: 中国历史上的所有单音节词和多 音节词; 义项: 词汇的含义, 所有词汇都应与其相应的义项相关联; 同义词集: 所有义项都与对应的同义词集相关联; 概念网络: 用于将相关的同义词集关联起 来; 同时所述历时汉字知识图谱中还包含文字之间的三种关系, 分别是分化关系、 指事关 系和通假关系; (2)知识库构建和存 储; ①古文字提取: 利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一 个古文字, 将其分类到对应的古文字 字形列表中; ②古文字字体库构建: 在字体文件中, 每个文字具有唯一编码, 使用potrace工具批量 将文字图片转 化为矢量图, 并使用svg2 ttf工具自动生成字体并存 储到ttf字体文件中; ③部件及与部件相关的关系标注: 基于深度学习的图像目标检测算法, 使用 mobilenetv3网络进 行特征提取, 自动识别古文字拓片图像中的部件, 其中文字 之间的分化 关系、 指事关系及通假关系提取自古文字相关书籍和 论文中的 已知记录; 并在识别出 的部 件和对应的文字之 间标注文字与部件之 间的包含关系, 在相关部件之 间标注部件之 间的分 化、 指事或通 假关系; ④自动化校对: 对标注的一致性进行自动化检查, 根据相同部件列表和标准部件字形, 执行python程序, 遍历所有标注的部件, 将所有非标准字形部件改写为对应的标准字形; ⑤自动提取字典数据中的词汇、 义项; ⑥同义、 上位关系提取: 首先根据字典定义的语言规律总结停留词表并去 除定义中的 停留词; 接下来设计规则: 如果去除停留词后该句子为一个词汇并存在于词汇表中, 则抽取 该词汇为同义关键词; 否则, 如果该句字中 “的”与“标点符号句号 ”之间为一个词汇并存在 于词汇表中, 则抽取该词汇为上位关键词; 最后将定义和词汇标签中包含相同同义关键词 或上位关键词的义项分别标注为同义词和上位词; ⑦义项年代标注: 根据百度百科自动标记词典中的例句的作者和朝代, 使知识库初步权 利 要 求 书 1/5 页 2 CN 114707615 A 2整合每个义项出现的时间点; ⑧知识图谱架构设计: 设计知识图谱的实体、 关系和属性, 共九个实体, 九个实体包括 部件、 字形、 文字、 每个历史时期的古文字、 词汇、 义项、 同义词 集, 实体间的关系, 以及每个 实体的属性; ⑨数据融合: 对于标注的所有数据, 运行python程序, 根据字体编码检索所有文字, 将 同一文字在不同数据源、 不同历史时期关联 的数据全部检索出来, 接下来对不同数据来源 描述相同文字的数据进行整合, 对每个文字每一历史时期取所有数据源数据的并集, 并合 并重复的数据, 如果数据以字符串形式描述, 运行python程序判断两个义项的定义之间的 余弦相似值, 将相似度高于90%阈值的两个义项设置为相同义项, 进 行合并; 如果数据以图 片形式描述, 如果两个字形的图片相似度阈值超过80%, 则将两个字形合并为同一个字形; ⑩数据存储: 使用关系型数据库存储历时汉字知识图谱, 根据知识图谱架构设计了数 据库表, 每个实体对应一张数据库 表, 数据库 表包括多 行和多列, 数据库表的行和列形成单 元格, 其中每个单元格包括至少一个值或者不包括值; 每张表包含该实体的唯一主键和全 部属性, 知识图谱中的关系使用关联表表示, 为每两个具有关系的实体数据库表建立一张 关联表, 关联表包含两列分别为两个实体表的主键, 从而通过这种设计使数据库能够查询 知识图谱的实体、 属性和关系; S2、 古文字 字形相似度计算 (1)基于拓片图像分类的象形文字 字形相似度计算; 采用深度残差神经网络来获取古文字图像的高维向量, 具体设共有n个古文字和m个文 字图像, 图像集合为X(x1,x2,…xm), 文字集合为C(c1,c2,…cn); 网络任务是将每个图像x分 类到对应的文字c, p(c|x, σ )用于表 示图像属于文字的概率, 其中σ 是神经网络的参数; 网络 输入是图像x, 而输出是|C|维向量, 每个维度表示每个文字c的概率p; 在训练步骤中, 提供 了每个字形的图像及其对应的汉字标签; 采用最小化交叉熵损失函数训练深度残差神经网 络, 用以获得深度残差神经网络的最优神经网络参数σ; 然后直接将|C|维向量输出用作图像嵌入 给定包含属于字形g的所有图像的集合 ImageSet, 将表示g 的字形向量 设置为g的图像集合中所有图像向量 的平均值, 如公式 (1)所示; 其中 表示第i个字形gi的向量; ImageSeti表示第i个字形gi的图像集合; |ImageSeti| 表示集合中图像的数量; 表示第j个图像xj的向量; 在得到字形嵌入 后, 使用余弦相似度得到字形对之间的相似度, 这里乘以一个超参 数α, 当两个字形共享相同或相关的部首时, α =1, 否则, α 将被 设置为大于0且小于1的值, 公 式(2), 其中, 两个字形共享相同或相关的部首也 就是两个字属于分化、 指事或通用关系;权 利 要 求 书 2/5 页 3 CN 114707615 A 3

PDF文档 专利 基于历时汉字知识图谱的古文字相似度量化方法

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于历时汉字知识图谱的古文字相似度量化方法 第 1 页 专利 基于历时汉字知识图谱的古文字相似度量化方法 第 2 页 专利 基于历时汉字知识图谱的古文字相似度量化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。