专利 基于历时汉字知识图谱的古文字相似度量化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210461219.6 (22)申请日 2022.04.28 (71)申请人吉林大学地址 130000 吉林省长春市前进大街269 9 号 (72)发明人徐昊　迟杨　史大千　刁晓蕾　李春桃　 (74)专利代理机构长春市吉利专利事务所(普通合伙) 22206 专利代理师王楠楠　李晓莉 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01)G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称基于历时汉字知识图谱的古文字相似度量化方法 (57)摘要本发明提出了一种基于历时汉字知识图谱的古文字相似度量化方法，属于文字识别技术领域，该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成；本发明构建知识图谱，并基于该知识图谱提出了古文字字形相似度的自动化度量方法。在汉字知识库的设计上，本发明首次针对汉字和词汇的特点，从字形、部件、文字、词汇、义项等完整层次进行建模，从而构成了汉字之间的关联网络，并且图谱具有历时性，可以关联中国各个历史时期的文字。在字形相似度的计算上，本发明利用历时汉字知识图谱中的知识，使古文字字形之间的相似性可以被量化计算。本发明提出的方法可以帮助古文字研究人员高效获取领域知识。权利要求书5页说明书13页附图5页 CN 114707615 A 2022.07.05 CN 114707615 A 1.基于历时汉字知识图谱的古文字相似度量化方法，其特征在于：该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成； S1、历时汉字知识图谱构建 (1)知识库架构设计、属性和关系设计；历时汉字知识图谱分为字形、部件、古文字、文字、词汇、义项、同义词集和概念网络八层；所述历时汉字知识图谱的八个层次以及层次之间的关联关系如下：字形：每个字形来自于出土文物的拓片图像；部件：部件是部首或文字，是复合文字的组成单位，所有字形都与组成它的部件相关联；古文字：所有字形都应与各个不同历史时期对应的古文字相关联；文字：包括已释字和未释字，前者又分为现代汉字和丢失字；各个不同历史时期的古文字，如果代表同一个字，应该关联到同一个文字，如果该古文字已经被释读，并且仍在使用，将其与现代汉字联系起来，否则，如果古文字已被释读但已经不使用，则应与对应的丢失字关联，最后，未释读古文字应与相应未释字关联；词汇：中国历史上的所有单音节词和多音节词；义项：词汇的含义，所有词汇都应与其相应的义项相关联；同义词集：所有义项都与对应的同义词集相关联；概念网络：用于将相关的同义词集关联起来；同时所述历时汉字知识图谱中还包含文字之间的三种关系，分别是分化关系、指事关系和通假关系； (2)知识库构建和存储； ①古文字提取：利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一个古文字，将其分类到对应的古文字字形列表中； ②古文字字体库构建：在字体文件中，每个文字具有唯一编码，使用potrace工具批量将文字图片转化为矢量图，并使用svg2 ttf工具自动生成字体并存储到ttf字体文件中； ③部件及与部件相关的关系标注：基于深度学习的图像目标检测算法，使用 mobilenetv3网络进行特征提取，自动识别古文字拓片图像中的部件，其中文字之间的分化关系、指事关系及通假关系提取自古文字相关书籍和论文中的已知记录；并在识别出的部件和对应的文字之间标注文字与部件之间的包含关系，在相关部件之间标注部件之间的分化、指事或通假关系； ④自动化校对：对标注的一致性进行自动化检查，根据相同部件列表和标准部件字形，执行python程序，遍历所有标注的部件，将所有非标准字形部件改写为对应的标准字形； ⑤自动提取字典数据中的词汇、义项； ⑥同义、上位关系提取：首先根据字典定义的语言规律总结停留词表并去除定义中的停留词；接下来设计规则：如果去除停留词后该句子为一个词汇并存在于词汇表中，则抽取该词汇为同义关键词；否则，如果该句字中 “的”与“标点符号句号 ”之间为一个词汇并存在于词汇表中，则抽取该词汇为上位关键词；最后将定义和词汇标签中包含相同同义关键词或上位关键词的义项分别标注为同义词和上位词； ⑦义项年代标注：根据百度百科自动标记词典中的例句的作者和朝代，使知识库初步权　利　要　求　书 1/5 页 2 CN 114707615 A 2整合每个义项出现的时间点； ⑧知识图谱架构设计：设计知识图谱的实体、关系和属性，共九个实体，九个实体包括部件、字形、文字、每个历史时期的古文字、词汇、义项、同义词集，实体间的关系，以及每个实体的属性； ⑨数据融合：对于标注的所有数据，运行python程序，根据字体编码检索所有文字，将同一文字在不同数据源、不同历史时期关联的数据全部检索出来，接下来对不同数据来源描述相同文字的数据进行整合，对每个文字每一历史时期取所有数据源数据的并集，并合并重复的数据，如果数据以字符串形式描述，运行python程序判断两个义项的定义之间的余弦相似值，将相似度高于90％阈值的两个义项设置为相同义项，进行合并；如果数据以图片形式描述，如果两个字形的图片相似度阈值超过80％，则将两个字形合并为同一个字形； ⑩数据存储：使用关系型数据库存储历时汉字知识图谱，根据知识图谱架构设计了数据库表，每个实体对应一张数据库表，数据库表包括多行和多列，数据库表的行和列形成单元格，其中每个单元格包括至少一个值或者不包括值；每张表包含该实体的唯一主键和全部属性，知识图谱中的关系使用关联表表示，为每两个具有关系的实体数据库表建立一张关联表，关联表包含两列分别为两个实体表的主键，从而通过这种设计使数据库能够查询知识图谱的实体、属性和关系； S2、古文字字形相似度计算 (1)基于拓片图像分类的象形文字字形相似度计算；采用深度残差神经网络来获取古文字图像的高维向量，具体设共有n个古文字和m个文字图像，图像集合为X(x1,x2,…xm)，文字集合为C(c1,c2,…cn)；网络任务是将每个图像x分类到对应的文字c， p(c|x, σ )用于表示图像属于文字的概率，其中σ 是神经网络的参数；网络输入是图像x，而输出是|C|维向量，每个维度表示每个文字c的概率p；在训练步骤中，提供了每个字形的图像及其对应的汉字标签；采用最小化交叉熵损失函数训练深度残差神经网络，用以获得深度残差神经网络的最优神经网络参数σ；然后直接将|C|维向量输出用作图像嵌入给定包含属于字形g的所有图像的集合 ImageSet，将表示g 的字形向量设置为g的图像集合中所有图像向量的平均值，如公式 (1)所示；其中表示第i个字形gi的向量； ImageSeti表示第i个字形gi的图像集合； |ImageSeti| 表示集合中图像的数量；表示第j个图像xj的向量；在得到字形嵌入后，使用余弦相似度得到字形对之间的相似度，这里乘以一个超参数α，当两个字形共享相同或相关的部首时， α ＝1，否则， α 将被设置为大于0且小于1的值，公式(2)，其中，两个字形共享相同或相关的部首也就是两个字属于分化、指事或通用关系；权　利　要　求　书 2/5 页 3 CN 114707615 A 3

专利 基于历时汉字知识图谱的古文字相似度量化方法

专利基于历时汉字知识图谱的古文字相似度量化方法