iso standard online
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211165509.2 (22)申请日 2022.09.23 (71)申请人 上海市疾病预防控制中心 地址 200050 上海市长 宁区中山西路1380 号 (72)发明人 付晨 夏天 夏寒 张诚 道理  毛丹 刘星航 林维晓  (74)专利代理 机构 上海璀汇知识产权代理事务 所(普通合伙) 31367 专利代理师 程琼胤 (51)Int.Cl. G06Q 50/26(2012.01) G06K 9/62(2022.01) G16H 10/00(2018.01) (54)发明名称 一种公共卫 生数据获取及处 理系统 (57)摘要 本发明公开了一种公共卫生数据获取及处 理系统, 包括1、 以下阶段: 数据准备阶段、 特征工 程阶段以及模 型评估与评价阶段, 所述数据准备 阶段包括以下步骤: S1, 选择以糖尿病作为项目 实例, 启动项目; S2, 选择业务信息系统及数据资 源中心获取糖尿病随访场景的业务数据; S3, 对 已获得的已明确数据可靠性的数据赋予可靠性 标签; S4, 收集可靠性标签并归类, 将可靠性数据 单独归类, 与未处理数据分离; S5, 筛选后的数据 提取部分可靠性标签; S6, 提取目标数据中的数 据类型、 数据结构以及数据形式, 并检查数据缺 失值、 异常值以及重复值; 具有可 以对数据进行 分类描述, 减少后续分析时间的好处。 权利要求书1页 说明书3页 CN 115511683 A 2022.12.23 CN 115511683 A 1.一种公共卫生数据获取及处理系统, 其特征在于, 包括以下阶段: 数据准备阶段、 特 征工程阶段以及模型评估与评价阶段, 所述数据准备阶段包括以下步骤: S1, 选择以糖尿病作为项目实例, 启动项目; S2, 选择业 务信息系统及数据资源中心获取糖尿病随访场景的业 务数据; S3, 对已获得的已明确数据可靠性的数据赋予可靠性标签; S4, 收集可靠性标签并归类, 将可靠性数据单独归类, 与未处 理数据分离; S5, 筛选后的数据提取部分可靠性标签; S6, 提取目标数据中的数据类型、 数据结构以及数据形式, 并检查数据缺失值、 异常值 以及重复值; S7, 提取部分重点特征, 计算统计值, 包括最大值、 最小值、 平均值、 标准差, 通过散点 图、 条形图、 折线图这些 可视化图展示; S8,观察及了解可视化图的分布情况, 判断取值是否符合某一分布规律以及是否有集 中或离中趋势; S9, 统计各个标签 类别的数据量, 检查各 标签类别中的数据量是否失衡。权 利 要 求 书 1/1 页 2 CN 115511683 A 2一种公共卫生数据获取及 处理系统 技术领域 [0001]本发明涉及数据分析处理技术领域, 尤其涉及一种公共卫生数据获取及处理系 统。 背景技术 [0002]随着信息技术的发展和大数据时代的到来, 越来越多的科学研究开始青睐使用已 有的数据开展研究, 同时, 横跨多学科、 多领域的融合研究逐渐增多, 需要在研究中使用多 个学科领域和来源的数据, 在研究开展 前, 应对拟纳入研究的数据可靠性进行评估, 并根据 评估结果采取相应措施, 以提高研究结果的真实性与准确性, 数据可靠性是指数据完整、 一 致、 准确、 值得信赖和可靠的程度, 以及这些特性在数据全生命周期内被维护的程度, 数据 的可靠性会因为数据中存在偏差而降低, 常见 的数据偏差主要包括选择偏差、 信息偏差和 混杂偏差等, 甚至还包括对数据的编造和篡改等情况, 如果在科学研究中使用了可靠性较 低的数据, 则研究结果将偏离真实情况, 使得研究成果的价值大大降低, 在大数据时代, 数 据可靠性评估是非常重要的, 其关乎研究 的成败和成果的价值, 在开展 科学研究前, 采用科 学的方法对拟纳入研究的数据可靠性进行准确的评估, 是大数据时代科学研究的必要步 骤。 [0003]现有技术中的公共卫生领域内, 数据可靠性评估方法主要分为基于规则的评估方 法、 基于内容的评估方法和基于统计的评估方法三类: [0004]基于规则的评估方法主要通过设置规则库, 并利用规则库中的规则对数据进行校 验, 通过校验结果评估数据的可靠性, 基于规则的评估方法虽然 可以对全量数据进 行评估, 可以发现一些信息偏差造成的数据可靠性问题, 但是评估的深度较浅, 对符合检验规则的 数据编造、 篡改也无能为力, 此外, 规则库的制定需要对数据所在的业务领域相当熟悉, 使 这种方法在评估跨行业数据的可靠性时存在较高的实施门槛。 [0005]基于内容的评估方法主要通过其它来源数据, 对待评估的数据内容进行交叉验 证, 从而对数据的可靠性进行评估, 常用的其它来源数据包括电话/上门回访收集的数据、 查阅原始病史获得的数据等。 基于内容的评估方法可以提供深层次的评估, 对于信息偏差 具有更好的评估效果, 也可一定程度上提供选择偏差和混杂偏差的线索, 但是获取其它来 源的数据通常需要耗费大量的时间、 精力和经济成本, 有时还可能存在其他来源数据不可 及的情况, 使得这种方法很难对全量数据进行可靠性评估, 一般需要与抽样的方法结合使 用, 评估得 出的数据可靠性可能存在偏差 。 [0006]基于统计的评估方法主要通过对待评估数据整体统计结果和 分布情况的计算与 分析来整体评估数据的可靠性。 例如血压值的末位数字是否符合 随机分布、 数据中男女人 数比例是否与全人群的男女人数比例存在显著偏差等。 基于统计的评估方法对选择偏差与 信息偏差有着良好的评估效果, 也可对全量数据进行评估, 但这种 方法对于待评估数据的 数据量有着一定的要求, 同时也只能得出整体数据的可靠性评估结果, 无法针对每条数据 形成独立的评估结果。说 明 书 1/3 页 3 CN 115511683 A 3

.PDF文档 专利 一种公共卫生数据获取及处理系统

文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种公共卫生数据获取及处理系统 第 1 页 专利 一种公共卫生数据获取及处理系统 第 2 页 专利 一种公共卫生数据获取及处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 03:56:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。