(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210461219.6
(22)申请日 2022.04.28
(71)申请人 吉林大学
地址 130000 吉林省长 春市前进大街269 9
号
(72)发明人 徐昊 迟杨 史大千 刁晓蕾
李春桃
(74)专利代理 机构 长春市吉利专利事务所(普
通合伙) 22206
专利代理师 王楠楠 李晓莉
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/02(2006.01)G06F 40/30(2020.01)
G06F 16/36(2019.01)
G06F 40/284(2020.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于历时汉字知识图谱的古文字相似度量
化方法
(57)摘要
本发明提出了一种基于历时汉字知识图谱
的古文字相似度量化方法, 属于文字识别技术领
域, 该方法由历时汉字知识图谱构建步骤和古文
字字形相似度计算步骤两部分组成; 本发明构建
知识图谱, 并基于该知 识图谱提出了古文字字形
相似度的自动化度量方法。 在 汉字知识库的设计
上, 本发明首次针对汉字和词汇的特点, 从字 形、
部件、 文字、 词汇、 义项等完整层次进行建模, 从
而构成了汉字之间的关联网络, 并且图谱具有历
时性, 可以关联中国各个历史时期 的文字。 在字
形相似度的计算上, 本发明利用历时汉字知 识图
谱中的知识, 使古文字字形之间的相似性可以被
量化计算。 本发 明提出的方法可以帮助古文字研
究人员高效获取 领域知识。
权利要求书5页 说明书13页 附图5页
CN 114707615 A
2022.07.05
CN 114707615 A
1.基于历时汉字知识图谱的古文字相似度量化方法, 其特征在于: 该方法由历时汉字
知识图谱构建步骤和古文字 字形相似度计算 步骤两部分组成;
S1、 历时汉字知识图谱构建
(1)知识库架构设计、 属性和关系设计;
历时汉字知识图谱分为字形、 部件、 古文字、 文字、 词汇、 义项、 同义词集和概念网络八
层; 所述历时汉字知识图谱的八个层次以及 层次之间的关联关系如下:
字形: 每个字形来自于出土文物的拓片图像;
部件: 部件是部首或文字, 是复合文字的组成单位, 所有字形都与组成它的部件相关
联;
古文字: 所有字形都应与各个不同历史时期对应的古文字相关联;
文字: 包括已释字和未释字, 前者又分为现代汉字和丢失字; 各个不同历史时期的古文
字, 如果代表同一个字, 应该关联到同一个文字, 如果该古文字已经被释读, 并且仍在使用,
将其与现代汉字联系起来, 否则, 如果古文字已被释读但已经不使用, 则应与对应的丢失字
关联, 最后, 未释 读古文字应与相应未释字关联;
词汇: 中国历史上的所有单音节词和多 音节词;
义项: 词汇的含义, 所有词汇都应与其相应的义项相关联;
同义词集: 所有义项都与对应的同义词集相关联;
概念网络: 用于将相关的同义词集关联起 来;
同时所述历时汉字知识图谱中还包含文字之间的三种关系, 分别是分化关系、 指事关
系和通假关系;
(2)知识库构建和存 储;
①古文字提取: 利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一
个古文字, 将其分类到对应的古文字 字形列表中;
②古文字字体库构建: 在字体文件中, 每个文字具有唯一编码, 使用potrace工具批量
将文字图片转 化为矢量图, 并使用svg2 ttf工具自动生成字体并存 储到ttf字体文件中;
③部件及与部件相关的关系标注: 基于深度学习的图像目标检测算法, 使用
mobilenetv3网络进 行特征提取, 自动识别古文字拓片图像中的部件, 其中文字 之间的分化
关系、 指事关系及通假关系提取自古文字相关书籍和 论文中的 已知记录; 并在识别出 的部
件和对应的文字之 间标注文字与部件之 间的包含关系, 在相关部件之 间标注部件之 间的分
化、 指事或通 假关系;
④自动化校对: 对标注的一致性进行自动化检查, 根据相同部件列表和标准部件字形,
执行python程序, 遍历所有标注的部件, 将所有非标准字形部件改写为对应的标准字形;
⑤自动提取字典数据中的词汇、 义项;
⑥同义、 上位关系提取: 首先根据字典定义的语言规律总结停留词表并去 除定义中的
停留词; 接下来设计规则: 如果去除停留词后该句子为一个词汇并存在于词汇表中, 则抽取
该词汇为同义关键词; 否则, 如果该句字中 “的”与“标点符号句号 ”之间为一个词汇并存在
于词汇表中, 则抽取该词汇为上位关键词; 最后将定义和词汇标签中包含相同同义关键词
或上位关键词的义项分别标注为同义词和上位词;
⑦义项年代标注: 根据百度百科自动标记词典中的例句的作者和朝代, 使知识库初步权 利 要 求 书 1/5 页
2
CN 114707615 A
2整合每个义项出现的时间点;
⑧知识图谱架构设计: 设计知识图谱的实体、 关系和属性, 共九个实体, 九个实体包括
部件、 字形、 文字、 每个历史时期的古文字、 词汇、 义项、 同义词 集, 实体间的关系, 以及每个
实体的属性;
⑨数据融合: 对于标注的所有数据, 运行python程序, 根据字体编码检索所有文字, 将
同一文字在不同数据源、 不同历史时期关联 的数据全部检索出来, 接下来对不同数据来源
描述相同文字的数据进行整合, 对每个文字每一历史时期取所有数据源数据的并集, 并合
并重复的数据, 如果数据以字符串形式描述, 运行python程序判断两个义项的定义之间的
余弦相似值, 将相似度高于90%阈值的两个义项设置为相同义项, 进 行合并; 如果数据以图
片形式描述, 如果两个字形的图片相似度阈值超过80%, 则将两个字形合并为同一个字形;
⑩数据存储: 使用关系型数据库存储历时汉字知识图谱, 根据知识图谱架构设计了数
据库表, 每个实体对应一张数据库 表, 数据库 表包括多 行和多列, 数据库表的行和列形成单
元格, 其中每个单元格包括至少一个值或者不包括值; 每张表包含该实体的唯一主键和全
部属性, 知识图谱中的关系使用关联表表示, 为每两个具有关系的实体数据库表建立一张
关联表, 关联表包含两列分别为两个实体表的主键, 从而通过这种设计使数据库能够查询
知识图谱的实体、 属性和关系;
S2、 古文字 字形相似度计算
(1)基于拓片图像分类的象形文字 字形相似度计算;
采用深度残差神经网络来获取古文字图像的高维向量, 具体设共有n个古文字和m个文
字图像, 图像集合为X(x1,x2,…xm), 文字集合为C(c1,c2,…cn); 网络任务是将每个图像x分
类到对应的文字c, p(c|x, σ )用于表 示图像属于文字的概率, 其中σ 是神经网络的参数; 网络
输入是图像x, 而输出是|C|维向量, 每个维度表示每个文字c的概率p; 在训练步骤中, 提供
了每个字形的图像及其对应的汉字标签; 采用最小化交叉熵损失函数训练深度残差神经网
络, 用以获得深度残差神经网络的最优神经网络参数σ;
然后直接将|C|维向量输出用作图像嵌入
给定包含属于字形g的所有图像的集合
ImageSet, 将表示g 的字形向量
设置为g的图像集合中所有图像向量
的平均值, 如公式
(1)所示;
其中
表示第i个字形gi的向量; ImageSeti表示第i个字形gi的图像集合; |ImageSeti|
表示集合中图像的数量;
表示第j个图像xj的向量;
在得到字形嵌入
后, 使用余弦相似度得到字形对之间的相似度, 这里乘以一个超参
数α, 当两个字形共享相同或相关的部首时, α =1, 否则, α 将被 设置为大于0且小于1的值, 公
式(2), 其中, 两个字形共享相同或相关的部首也 就是两个字属于分化、 指事或通用关系;权 利 要 求 书 2/5 页
3
CN 114707615 A
3
专利 基于历时汉字知识图谱的古文字相似度量化方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:00:03上传分享