专利 文本检错模型训练方法、文本检错方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210461630.3 (22)申请日 2022.04.28 (71)申请人北京金山数字娱乐科技有限公司地址 100085 北京市海淀区西二旗中路33 号院5号楼1 1层002号 (72)发明人赵硕丰　李长亮　 (74)专利代理机构北京智信禾专利代理有限公司 11637 专利代理师何定润 (51)Int.Cl. G06V 30/148(2022.01) G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 30/19(2022.01) (54)发明名称文本检错模型训练方法、文本检错方法及装置 (57)摘要本申请提供文本检错模型训练方法、文本检错方法及装置，其中所述文本检错模型训练方法包括：获取测试集，其中，测试集包括多个无标签的测试文本，将各测试文本分别输入预先训练的标签确定模型，获得各测试文本对应的错误标签，根据各测试文本以及各测试文本对应的错误标签，生成目标样本集，利用目标样本集对初始文本检错模型进行迭代训练，得到训练后的文本检错模型，通过根据各测试文本以及各测试文本对应的错误标签，生成目标样本集，扩充了初始文本检错模型的训练数据，提高了训练得到的文本检错模型的准确性，进一步提高了基于文本检错模型进行文本检错的准确性。权利要求书3页说明书20页附图9页 CN 114782958 A 2022.07.22 CN 114782958 A 1.一种文本检错模型训练方法，其特征在于，包括：获取测试集，所述测试集包括多个无标签的测试文本；将各测试文本分别输入预先训练的标签确定模型，获得所述各测试文本对应的错误标签；根据所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集；利用所述目标样本集对初始文本检错模型进行迭代训练，得到训练后的文本检错模型。 2.根据权利要求1所述的方法，其特征在于，所述标签确定模型的训练方式，包括：获取初始样本集，所述初始样本集包括多个样本文本以及各样本文本对应的错误标签；提取第一样本文本，将所述第一样本文本输入初始标签确定模型，获得所述第一样本文本的第一预测错误信息，其中，所述第一样本文本为所述初始样本集中的任一样本文本；根据所述第一预测错误信息和所述第一样本文本对应的错误标签，计算第一损失值；若所述第一损失值大于第一预设阈值，则调整所述初始标签确定模型的模型参数，并返回执行所述提取第一样本文本，将所述第一样本文本输入初始标签确定模型，获得所述第一样本文本的第一预测错误信息的步骤；若所述第一损失值小于或等于所述第一预设阈值，则停止训练，获得训练后的标签确定模型。 3.根据权利要求2所述的方法，其特征在于，所述根据所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集的步骤，包括：在所述初始样本集中，添加所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集。 4.根据权利要求2所述的方法，其特征在于，所述获取初始样本集的步骤，包括：获取多个样本文本；分别对所述多个样本文本进行图片转换，获得所述多个样本文本分别对应的样本图片；识别各样本图片的文本内容；针对任一样本图片，将该样本图片的文本内容与该样本图片对应的样本文本进行对比，确定该样本图片的文本内容对应的错误标签；根据所述各样本图片的文本内容以及各样本图片的文本内容对应的错误标签，生成初始样本集。 5.根据权利要求2所述的方法，其特征在于，所述获取初始样本集的步骤，包括：获取多个样本文本；利用预设音频转换工具，将所述多个样本文本分别转换为对应的样本音频；识别各样本音频的文本内容；针对任一样本音频，将该样本音频的文本内容与该样本音频对应的样本文本进行对比，确定该样本音频的文本内容对应的错误标签；根据所述各样本音频的文本内容以及各样本音频的文本内容对应的错误标签，生成初始样本集。权　利　要　求　书 1/3 页 2 CN 114782958 A 26.根据权利要求2所述的方法，其特征在于，所述获取初始样本集的步骤，包括：获取多个样本文本；将所述多个样本文本和预设错误数据库进行匹配，对所述多个样本文本分别进行随机错字替换，生成各样本文本分别对应的错字替换文本；针对任一样本文本，将该样本文本与该样本文本对应的错字替换文本进行对比，确定该错字替换文本对应的错误标签；根据各错字替换文本以及各错字替换文本对应的错误标签，生成初始样本集。 7.根据权利要求2所述的方法，其特征在于，所述初始文本检错模型通过对所述初始标签确定模型进行裁剪得到。 8.根据权利要求1 ‑7所述的方法，其特征在于，所述利用所述目标样本集对初始文本检错模型进行迭代训练，得到训练后的文本检错模型的步骤，包括：从所述目标样本集中提取第二样本文本，将所述第二样本文本输入初始文本检错模型，获得所述第二样本文本的第二预测错误信息，其中，所述第二样本文本为所述目标样本集中的任一文本；根据所述第二预测错误信息和所述第二样本文本对应的错误标签，计算第二损失值；若所述第二损失值大于第二预设阈值，则调整所述初始文本检错模型的模型参数，并返回执行所述从所述目标样本集中提取第二样本文本，将所述第二样本文本输入初始文本检错模型，获得所述第二样本文本的第二预测错误信息的步骤；若所述第二损失值小于或等于所述第二预设阈值，则停止训练，获得训练后的文本检错模型。 9.一种文本检错方法，其特征在于，包括：获取待处理文本；将所述待处理文本输入利用如权利要求1 ‑8任一项所述方法训练得到的文本检错模型，得到所述待处理文本的检错结果。 10.一种文本检错模型训练装置，其特征在于，包括：测试集获取模块，被配置为获取测试集，所述测试集包括多个无标签的测试文本；错误标签生成模块，被配置为将各测试文本分别输入预先训练的标签确定模型，获得所述各测试文本对应的错误标签；目标样本集生成模块，被配置为根据所述各测试文本以及所述各测试文本对应的错误标签，生成目标样本集；模型生成模块，被配置为利用所述目标样本集对初始文本检错模型进行迭代训练，得到训练后的文本检错模型。 11.一种文本检错装置，其特征在于，包括：待处理文本获取模块，被配置为获取待处理文本；检错结果生成模块，被配置为将所述待处理文本输入利用如权利要求1 ‑8任一项所述方法训练得到的文本检错模型，得到所述待处理文本的检错结果。 12.一种计算设备，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令权　利　要　求　书 2/3 页 3 CN 114782958 A 3

专利 文本检错模型训练方法、文本检错方法及装置

专利文本检错模型训练方法、文本检错方法及装置