iso standard online
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210461630.3 (22)申请日 2022.04.28 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 赵硕丰 李长亮 (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 何定润 (51)Int.Cl. G06V 30/148(2022.01) G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 30/19(2022.01) (54)发明名称 文本检错模 型训练方法、 文本检错方法及装 置 (57)摘要 本申请提供文本检错模 型训练方法、 文本检 错方法及装置, 其中所述文本检错模 型训练方法 包括: 获取测试集, 其中, 测试集包括多个无标签 的测试文本, 将各测试文本分别输入 预先训练的 标签确定模型, 获得各测试文本对应的错误标 签, 根据各测试文本以及各测试文本对应的错误 标签, 生成目标样本集, 利用目标样本集对初始 文本检错模 型进行迭代训练, 得到训练后的文本 检错模型, 通过根据各测试文本以及各测试文本 对应的错误标签, 生成目标样本集, 扩充了初始 文本检错模 型的训练数据, 提高了训练得到的文 本检错模型的准确性, 进一步提高了基于文本检 错模型进行文本 检错的准确性。 权利要求书3页 说明书20页 附图9页 CN 114782958 A 2022.07.22 CN 114782958 A 1.一种文本检错模型训练方法, 其特 征在于, 包括: 获取测试集, 所述测试集包括多个无 标签的测试文本; 将各测试文本分别输入预先训练的标签确定模型, 获得所述各测试文本对应的错误标 签; 根据所述各测试文本以及所述各测试文本对应的错 误标签, 生成目标样本集; 利用所述目标样本集对初始文本检错模型进行迭代训练, 得到训练后的文本检错模 型。 2.根据权利要求1所述的方法, 其特 征在于, 所述标签确定模型的训练方式, 包括: 获取初始样本集, 所述初始样本集包括多个样本文本以及各样本文本对应的错误标 签; 提取第一样本文本, 将所述第一样本文本输入初始标签确定模型, 获得所述第一样本 文本的第一预测错 误信息, 其中, 所述第一样本文本为所述初始样本集中的任一样本文本; 根据所述第一预测错 误信息和所述第一样本文本对应的错 误标签, 计算第一损失值; 若所述第一损 失值大于第一预设阈值, 则调整所述初始标签确定模型的模型参数, 并 返回执行所述提取第一样本文本, 将所述第一样本文本输入初始标签确定模型, 获得所述 第一样本文本的第一预测错 误信息的步骤; 若所述第一损 失值小于或等于所述第一预设阈值, 则停止训练, 获得训练后的标签确 定模型。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述各测试文本以及所述各测试 文本对应的错 误标签, 生成目标样本集的步骤, 包括: 在所述初始样本集中, 添加所述各测试文本以及所述各测试文本对应的错误标签, 生 成目标样本集。 4.根据权利要求2所述的方法, 其特 征在于, 所述获取初始样本集的步骤, 包括: 获取多个样本文本; 分别对所述多个样本文本进行图片转换, 获得所述多个样本文本分别对应的样本图 片; 识别各样本图片的文本内容; 针对任一样本图片, 将该样本图片的文本内容与该样本图片对应的样本文本进行对 比, 确定该样本图片的文本内容对应的错 误标签; 根据所述各样本图片的文本 内容以及各样本图片的文本 内容对应的错误标签, 生成初 始样本集。 5.根据权利要求2所述的方法, 其特 征在于, 所述获取初始样本集的步骤, 包括: 获取多个样本文本; 利用预设音频转换工具, 将所述多个样本文本分别转换为对应的样本音频; 识别各样本音频的文本内容; 针对任一样本音频, 将该样本音频的文本内容与该样本音频对应的样本文本进行对 比, 确定该样本音频的文本内容对应的错 误标签; 根据所述各样本音频的文本 内容以及各样本音频的文本 内容对应的错误标签, 生成初 始样本集。权 利 要 求 书 1/3 页 2 CN 114782958 A 26.根据权利要求2所述的方法, 其特 征在于, 所述获取初始样本集的步骤, 包括: 获取多个样本文本; 将所述多个样本文本和预设错误数据库进行匹配, 对所述多个样本文本分别进行随机 错字替换, 生成各样本文本分别对应的错字替换文本; 针对任一样本文本, 将该样本文本与该样本文本对应的错字替换文本进行对比, 确定 该错字替换文本对应的错 误标签; 根据各错字替换文本以及各错字替换文本对应的错 误标签, 生成初始样本集。 7.根据权利要求2所述的方法, 其特征在于, 所述初始文本检错模型通过对所述初始标 签确定模型进行裁 剪得到。 8.根据权利要求1 ‑7所述的方法, 其特征在于, 所述利用所述目标样本集对初始文本检 错模型进行迭代训练, 得到训练后的文本检错模型的步骤, 包括: 从所述目标样本集中提取第二样本文本, 将所述第二样本文本输入初始文本检错模 型, 获得所述第二样本文本的第二预测错误信息, 其中, 所述第二样本文本为所述目标样本 集中的任一文本; 根据所述第二预测错 误信息和所述第二样本文本对应的错 误标签, 计算第二损失值; 若所述第二损 失值大于第二预设阈值, 则调整所述初始文本检错模型的模型参数, 并 返回执行所述从所述目标样本集中提取第二样本文本, 将所述第二样本文本输入初始文本 检错模型, 获得 所述第二样本文本的第二预测错 误信息的步骤; 若所述第二损 失值小于或等于所述第二预设阈值, 则停止训练, 获得训练后的文本检 错模型。 9.一种文本检错方法, 其特 征在于, 包括: 获取待处 理文本; 将所述待处理文本输入利用如权利要求1 ‑8任一项所述方法训练得到的文本检错模 型, 得到所述待处 理文本的检错结果。 10.一种文本检错模型训练装置, 其特 征在于, 包括: 测试集获取模块, 被 配置为获取测试集, 所述测试集包括多个无 标签的测试文本; 错误标签生成模块, 被配置为将各测试文本分别输入预先训练的标签确定模型, 获得 所述各测试文本对应的错 误标签; 目标样本集生成模块, 被配置为根据 所述各测试文本以及所述各测试文本对应的错误 标签, 生成目标样本集; 模型生成模块, 被配置为利用所述目标样本集对初始文本检错模型进行迭代训练, 得 到训练后的文本检错模型。 11.一种文本检错装置, 其特 征在于, 包括: 待处理文本获取模块, 被 配置为获取待处 理文本; 检错结果生成模块, 被配置为将所述待处理文本输入利用如权利要求1 ‑8任一项所述 方法训练得到的文本检错模型, 得到所述待处 理文本的检错结果。 12.一种计算设备, 其特 征在于, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指令权 利 要 求 书 2/3 页 3 CN 114782958 A 3
专利 文本检错模型训练方法、文本检错方法及装置
文档预览
中文文档
33 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助3元下载(无需注册)
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助3元下载
本文档由 SC 于
2024-02-24 01:00:04
上传分享
举报
下载
原文档
(1.6 MB)
分享
友情链接
NY-T 3664-2020 手扶式茎叶类蔬菜收获机质量评价技术规范.pdf
GB-T 2424.1-2015 环境试验 第3部分:支持文件及导则 低温和高温试验.pdf
2022-2023 年中国信创生态及信创PC市场发展研究报告.pdf
GB-T 32808-2016 阀门 型号编制方法.pdf
GB-T 15846-2006 集装箱门框密封条.pdf
GB-T 35299-2017 信息技术 开放系统互连 对象标识符解析系统.pdf
中兴网络设备安全配置基线.doc
GB-T 2102-2022 钢管的验收、包装、标志和质量证明书.pdf
GB-T 20274.3-2008 信息安全技术 信息系统安全保障评估框架 第3部分:管理保障.pdf
T-CEC 601—2022 电力建设监理企业安全生产标准化实施规范.pdf
GB-T 35580-2017 建设项目水资源论证导则.pdf
GB-T 9711-2017 石油天然气工业 管线输送系统用钢管.pdf
GB-T 34978-2017 信息安全技术 移动智能终端个人信息保护技术要求.pdf
炼石图解-网络数据安全风险评估实施指引V1.0.pdf
DB4403-T 339-2023 城市级实景三维数据规范 深圳市.pdf
GB-T 29529-2013 泵的噪声测量与评价方法.pdf
GB-T 38635.1-2020 信息安全技术 SM9标识密码算法 第1部分:总则.pdf
GB-T 28726-2012 气体分析 氦离子化气相色谱法.pdf
T-ZSA 123—2022 磁悬浮飞轮储能本体技术规范.pdf
T-CCTAS 18—2021 固化剂混合料设计与施工技术指南.pdf
1
/
33
评价文档
赞助3元 点击下载(1.6 MB)
回到顶部
×
微信扫码支付
3
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。