iso standard online
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210461630.3 (22)申请日 2022.04.28 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 赵硕丰 李长亮  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 何定润 (51)Int.Cl. G06V 30/148(2022.01) G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 30/19(2022.01) (54)发明名称 文本检错模 型训练方法、 文本检错方法及装 置 (57)摘要 本申请提供文本检错模 型训练方法、 文本检 错方法及装置, 其中所述文本检错模 型训练方法 包括: 获取测试集, 其中, 测试集包括多个无标签 的测试文本, 将各测试文本分别输入 预先训练的 标签确定模型, 获得各测试文本对应的错误标 签, 根据各测试文本以及各测试文本对应的错误 标签, 生成目标样本集, 利用目标样本集对初始 文本检错模 型进行迭代训练, 得到训练后的文本 检错模型, 通过根据各测试文本以及各测试文本 对应的错误标签, 生成目标样本集, 扩充了初始 文本检错模 型的训练数据, 提高了训练得到的文 本检错模型的准确性, 进一步提高了基于文本检 错模型进行文本 检错的准确性。 权利要求书3页 说明书20页 附图9页 CN 114782958 A 2022.07.22 CN 114782958 A 1.一种文本检错模型训练方法, 其特 征在于, 包括: 获取测试集, 所述测试集包括多个无 标签的测试文本; 将各测试文本分别输入预先训练的标签确定模型, 获得所述各测试文本对应的错误标 签; 根据所述各测试文本以及所述各测试文本对应的错 误标签, 生成目标样本集; 利用所述目标样本集对初始文本检错模型进行迭代训练, 得到训练后的文本检错模 型。 2.根据权利要求1所述的方法, 其特 征在于, 所述标签确定模型的训练方式, 包括: 获取初始样本集, 所述初始样本集包括多个样本文本以及各样本文本对应的错误标 签; 提取第一样本文本, 将所述第一样本文本输入初始标签确定模型, 获得所述第一样本 文本的第一预测错 误信息, 其中, 所述第一样本文本为所述初始样本集中的任一样本文本; 根据所述第一预测错 误信息和所述第一样本文本对应的错 误标签, 计算第一损失值; 若所述第一损 失值大于第一预设阈值, 则调整所述初始标签确定模型的模型参数, 并 返回执行所述提取第一样本文本, 将所述第一样本文本输入初始标签确定模型, 获得所述 第一样本文本的第一预测错 误信息的步骤; 若所述第一损 失值小于或等于所述第一预设阈值, 则停止训练, 获得训练后的标签确 定模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述各测试文本以及所述各测试 文本对应的错 误标签, 生成目标样本集的步骤, 包括: 在所述初始样本集中, 添加所述各测试文本以及所述各测试文本对应的错误标签, 生 成目标样本集。 4.根据权利要求2所述的方法, 其特 征在于, 所述获取初始样本集的步骤, 包括: 获取多个样本文本; 分别对所述多个样本文本进行图片转换, 获得所述多个样本文本分别对应的样本图 片; 识别各样本图片的文本内容; 针对任一样本图片, 将该样本图片的文本内容与该样本图片对应的样本文本进行对 比, 确定该样本图片的文本内容对应的错 误标签; 根据所述各样本图片的文本 内容以及各样本图片的文本 内容对应的错误标签, 生成初 始样本集。 5.根据权利要求2所述的方法, 其特 征在于, 所述获取初始样本集的步骤, 包括: 获取多个样本文本; 利用预设音频转换工具, 将所述多个样本文本分别转换为对应的样本音频; 识别各样本音频的文本内容; 针对任一样本音频, 将该样本音频的文本内容与该样本音频对应的样本文本进行对 比, 确定该样本音频的文本内容对应的错 误标签; 根据所述各样本音频的文本 内容以及各样本音频的文本 内容对应的错误标签, 生成初 始样本集。权 利 要 求 书 1/3 页 2 CN 114782958 A 26.根据权利要求2所述的方法, 其特 征在于, 所述获取初始样本集的步骤, 包括: 获取多个样本文本; 将所述多个样本文本和预设错误数据库进行匹配, 对所述多个样本文本分别进行随机 错字替换, 生成各样本文本分别对应的错字替换文本; 针对任一样本文本, 将该样本文本与该样本文本对应的错字替换文本进行对比, 确定 该错字替换文本对应的错 误标签; 根据各错字替换文本以及各错字替换文本对应的错 误标签, 生成初始样本集。 7.根据权利要求2所述的方法, 其特征在于, 所述初始文本检错模型通过对所述初始标 签确定模型进行裁 剪得到。 8.根据权利要求1 ‑7所述的方法, 其特征在于, 所述利用所述目标样本集对初始文本检 错模型进行迭代训练, 得到训练后的文本检错模型的步骤, 包括: 从所述目标样本集中提取第二样本文本, 将所述第二样本文本输入初始文本检错模 型, 获得所述第二样本文本的第二预测错误信息, 其中, 所述第二样本文本为所述目标样本 集中的任一文本; 根据所述第二预测错 误信息和所述第二样本文本对应的错 误标签, 计算第二损失值; 若所述第二损 失值大于第二预设阈值, 则调整所述初始文本检错模型的模型参数, 并 返回执行所述从所述目标样本集中提取第二样本文本, 将所述第二样本文本输入初始文本 检错模型, 获得 所述第二样本文本的第二预测错 误信息的步骤; 若所述第二损 失值小于或等于所述第二预设阈值, 则停止训练, 获得训练后的文本检 错模型。 9.一种文本检错方法, 其特 征在于, 包括: 获取待处 理文本; 将所述待处理文本输入利用如权利要求1 ‑8任一项所述方法训练得到的文本检错模 型, 得到所述待处 理文本的检错结果。 10.一种文本检错模型训练装置, 其特 征在于, 包括: 测试集获取模块, 被 配置为获取测试集, 所述测试集包括多个无 标签的测试文本; 错误标签生成模块, 被配置为将各测试文本分别输入预先训练的标签确定模型, 获得 所述各测试文本对应的错 误标签; 目标样本集生成模块, 被配置为根据 所述各测试文本以及所述各测试文本对应的错误 标签, 生成目标样本集; 模型生成模块, 被配置为利用所述目标样本集对初始文本检错模型进行迭代训练, 得 到训练后的文本检错模型。 11.一种文本检错装置, 其特 征在于, 包括: 待处理文本获取模块, 被 配置为获取待处 理文本; 检错结果生成模块, 被配置为将所述待处理文本输入利用如权利要求1 ‑8任一项所述 方法训练得到的文本检错模型, 得到所述待处 理文本的检错结果。 12.一种计算设备, 其特 征在于, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指令权 利 要 求 书 2/3 页 3 CN 114782958 A 3

PDF文档 专利 文本检错模型训练方法、文本检错方法及装置

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本检错模型训练方法、文本检错方法及装置 第 1 页 专利 文本检错模型训练方法、文本检错方法及装置 第 2 页 专利 文本检错模型训练方法、文本检错方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。