数据确认数据科学中,数据确认(英語:data validation)是一个流程,确保数据清洗后的数据是健壮的(fitness)、一致的(consistency) 。这种流程称为“确认规则”、“确认约束”、“检查流程”[1] 。这不同于证实或证否算法正确实现了规格或属性的正确性。[2] 数据确认的类别数据类别检查如Excel数据表中的某列是由24个数字组成的序列号(serial number),不应该被Excel软件自动识别为数值,这会导致表示精度问题。 值域与约束性检查如检查输入值在最小/最大的阈值之间;或与正则表达式定义的规格一致(consistency)。 代码及交查引用检查代码与交叉引用确认是检查搜否与可能的外部规则、需求、或特定组织、上下文环境、基本假设相一致。这些确认提供的数据是否与已知的查询表或目录信息服务相一致。 例如,用户提供的国家代码应该与当前所在国家/地区相一致。 结构化检查是指把其他种类的确认与复杂的流程组合起来。 一致性检查确保数据是符合逻辑的。例如,订单交付日期不应该早于运输日期。 确认的类型
确认后动作
确认与保全参见参考文献
外部链接
|
Index:
pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve