“ 编者按:政府数据发布,是一项很严肃的事。数据的发布代表着政府过去工作的阶段性成果。数据一旦公布,将面临社会公众对数据的真实性、逻辑性、严谨性进行验证或评判。因此,政府在发布数据的过程中,必须充分的评估数据在来源、处理、汇总等各个环节的准确性,进而确认结果的准确性或公允性或逻辑自洽性。武汉疫情的数据披露,是政府应对包括公共事件在内的常规性、临时性数据披露的样本,武汉疫情数据披露过程中引起社会各种反映的情形,对后续具有较强的提示或借鉴意义。本文以武汉疫情为契机,通过对政府数据披露过程中面临的痛点进行总结,提出应对的解决办法。”

一场疫情,既让民众看到了大数据的威力,无论你走到哪里、路过哪里、和谁擦肩而过,都可以很简便的就查询出来;也让社会看到了数据标准缺失、数据多源导致的数据混乱,以至于出现武汉市一场新闻发布会上某领导就同一数据出现多个不同的数据值的尴尬局面。

    一、政府数据发布、采集的痛点
由于政府系统是乐鱼官网国内最大的数据发生源,也是最大的数据发布源,民众通过数据来评判政府的行政管理水平或效率已经成为一种习惯。在大数据意识逐渐普及的当下,政府发布的数据,如果出现前后矛盾,同一指标多个数据值,口径或标准混乱,无疑会损伤政府信用。以武汉疫情为例,政府数据的采集和发布,存在以下三个方面的痛点:

(一)多源的数据,到底哪个为真?
1月26日晚,湖北省召开新型肺炎疫情防控工作新闻发布会,会上时任武汉市市长周先旺介绍新型肺炎疫情防控工作有关情况时表示,武汉市常住人口1100多万,户籍人口990多万,流动人口将近500万,目前大约有近500多万人离开了这座城市,还有900多万留在武汉。
    2月16日,武汉市为落实疫情防护的“五个百分百”举措,部署开展为期3天的集中拉网式大排查,至2月19日,3天期限满时,新闻披露了15个区的排查情况。报道显示,15个区中,共有11个区(江岸、江汉、硚口、武昌、洪山、蔡甸、东西湖、黄陂、新洲、武汉开发区、东湖风景区)披露了户数和人数等具体数据,9个区共有3465398户,8673179人。另外还有4个区(汉阳、青山、江夏、东湖高新区)没有披露户数和人数的具体数据。
    根据武汉市统计局公布的数据,至2018年末,武汉市共有883.73万户籍人口(数据来源;武汉市统计局2018年度国民经济统计公报)。数据比较之后发现,2月19日披露的9个区人口数量仅比2018年末的户籍人口少16.41万人。而根据武汉市《2018年统计年鉴》,本次清查没有公布户数和人口数据的汉阳、青山、江夏三个区(东湖高新区在统计年鉴中不单独列数),户籍数合计为642417户,户籍人口合计1668910人。把这三个区的户籍人口数加上清查公布的9个区人口数,合计达到1034.21万,超过前任市长公布的990万户籍人口44.2万,只比统计局公布的2018年末的武汉市常住人口数少73.89万人。
 
           表1  武汉市2月19日公布的清查户数、人口数与统计年鉴的对比

注:清查数来源于公开新闻报道,2017年度数据来源于《武汉统计年鉴(2018)》。《武汉市统计年鉴》中关于武汉开发区、东湖高新区、东湖风景区的数据没有单列,包含在其他区的数据中,然后在后续说明中予以列示,本文结合本次清查,把数据列示到具体的区,因此,本表中相关区2017年度的数据是减去上述开发区或风景区后的数据。

由于武汉市披露的各区人口数据只披露到2017年度,本文列示数据虽然不是2019年末的数据,但武汉市统计局在《国民经济统计公报》中披露的2018年末的户籍人口为883.73万,根据武汉市统计局相应年份的统计公报数据进行计算,2016、2017、2018年户籍人口的增长速度分别为0.6%、2.4%、3.5%。因此,合理估计得到,假设2019年末的户籍人口的增长速度为4%,则武汉市的户籍人口数约为919.1万人,要达到前市长在新闻发布会上说的990万户籍人口数,则2019年度户籍人口增长速度必须达到12.03%,这种增速在全国大中城市中,可能性非常小,不符合逻辑与常识。
    看到这里,乐鱼官网看到了两个人口统计口径:户籍人口、常住人口,如果加上公安部门时常说的管理人口,乐鱼官网在人口数据上,存在三个口径,两个数据源,每个源头的数据都不一样,每一个源头的数据都可以通过互联网公开查询得到。在城市化进程仍然在继续的当下,像武汉这样的中心城市,人口数量只会随着时间的推移而逐渐增加。从政府披露的数据情况看,无论是采用2018年度的人口数据,还是所说的2019年度990万户籍人口数据,其数据的连贯性、逻辑性、自洽性都出现了问题。

    (二)临时披露的数据,以什么为标准?
在政府日常工作之外,偶尔会出现类似于疫情数据、灾情数据等临时需要披露的数据信息。这种临时数据,由于事情突发性强、数据汇总难而容易出现错误。2月20日,武汉市披露19日的新增确诊病例数615,远远大于全省的349。数据一发布即引起社会集体懵圈,不知道如何解读数据。
就湖北省与武汉市疫情数据发布出现的问题,2月21日,在武汉的中央指导组副组长陈一新公开表示:“亟需解决疫情数据不精准、标准不统一等问题”。陈副组长的公开讲话,道出了涉及数据发布的第二大痛点,即:临时的数据,以什么为标准?
类似武汉披露的疫情数据出现前后标准不一致,导致数据让社会误读的现象其实在过往的工作中,经常会出现,尤其是面对突发事件的时候。这种情况,一是在数据统计标准方面,没有事先设定好;二是在数据披露的时候,没有根据标准的调整而对数据进行追溯调整后一起发布。

    (三)数据采集和处理,还得用纸笔和手工?
    现在是大数据时代,在数据的采集和处理方面与过去相比较起来,无论是技术还是设备都已经远超4G时代以前的社会,运用大数据技术对数据进行匹配已经没有技术问题。但乐鱼官网看到,无论是本次疫情的核心区武汉市还是其他地区,许多核心数据仍然采用的是较为原始的手工录入和处理。
    根据武汉某区官网报道,“由于核酸采样检测复杂,不同批次的样品可能会送到不同的检测单位,检测结果按批次下发,数据分散,不便于查询,双阴率比对率一直很低。为了提高检测人员“双阴率”查询速度,连日来,……对各类检测数据进行分类整理,梳理核查,形成“一人一档”的采样结果文档,为“双阴”查询提供便利。”

    在同一篇报道中,还有“一名阳性人员由于年龄大,在登记表上留下的电话和地址都不准确,疾控中心联系不上本人,寻求街道帮助”。从报道的情况来看,核心人员(阳性)的资料不准确,无疑采用的是手工填报,手写的字迹可能存在潦草,给后端数据处理的人造成了辨识障碍。



二、解决之道建议

    政府数据的采集和发布,过去主要习惯依赖对数据采集和处理的负责单位,即数据提供方的身份(统计局?工信局?公安局?……)进行,只要是xx局的数据,拿来即用。但由于事权和职责的不同,其数据会有比较大的差距,比如公安局发布的管理人口数据,远大于统计局发布的户籍人口数据和常住人口数据,虽然后者的数据来源,仍然是公安部门。对于不同的场景所需要发布的数据可能存在不同,政府在数据选择的同时,要有对应的措施进行解决。


    (一)要树立起数据即信用的观念,确保数据的严肃性。

    政府披露的数据,代表某个时间节点之前,政府社会管理工作或社会发展情况的阶段性结论。政府的信息公开中,数据公开是最重要的环节和信息之一,数据公开的具体数值、公开的时间节点等都是民众关心的核心。过往出现的“数据打架”、虚假数据等现象,使百姓对政府产生了怀疑和不信任,降低了政府的公信力。

    因此,政府全员要树立起数据及信用的观念,将观念贯彻落实于每一项具体工作中,政府发布的数据,从数据采集、整理、汇总、发布等各个环节都要确保其标准的一致性。


    (二)将统计局明确为数据处理技术指导的唯一机构,确保数据处理的专业性。

    政府数据的采集和发布,其关键点在于数据的采集和整理汇总。数据采集和处理属于一项专业性很强的工作,在县市级及以上政府序列中,统计局是这个领域当仁不让的专业机构,其统计专业人才在设计和规范统计标准、理顺数据报送层级、清洗和整理数据等领域,均比其他政府机构工作人员专业。

    政府在各种数据采集和处理过程中,让统计局的专业人员参与指导,既可以确保职能部门在数据采集和整理过程中的技术不出错,也可以帮助职能部门利用统计技术,分析本部门的工作得失。


    (三)重大社情的临时数据要及时制定标准,确保数据的规范性

    类似于本次疫情事件的数据采集和发布,应及时制定标准,并由本地区最高级别的领导小组进行统一发布。在数据采集标准的制定上,要留有余地,以应对更高级别的数据采集与汇总标准。换言之,在类似于疫情等各类突发事件发生的当时,即由统计专业人员和职能专业人员一道,共同制定全面的数据采集标准,建立完整的事件对象数据库。比如,本次疫情中,如果地方职能部门在数据采集的开始,即建立起个人的基本信息(籍贯、居住、家庭成员、职业、工作地址……等)+疫情信息(活动轨迹、感染时间、症状记录、治疗记录、治愈时间、死亡时间……等)的完整数据库,无论上级对数据发布的标准做怎样的调整,都可以随时拿出汇总或详细数据,及时上报。


    (四)充分利用现代信息科技手段,确保数据采集过程的一致性

    当下社会已经是信息技术高度发达的时代,各种信息和数据的采集完全可以通过现代化的工具和技术进行。可以借鉴的经验是,全国经济普查是全国全社会进行的最广泛的底层数据采集行为,从2013年开始,国家统计局系统已经采用了专业的PDA(平板电脑)数据采集工具进行数据采集,从而使数据从一线数据采集者迅速的通过互联网上传到指挥节点。当下的社会,智能手机普及率几乎100%,每个工作人员的智能手机均可以成为数据在线采集录入的工具。一个疫情或灾害或其他事件的数据采集系统,一个两人的软件工程师团队,按统计师设计的数据采集标准,花一天的时间基本就可以完成,包括APP或者微信小程序端口。政府在数据采集方面,应充分利用现代化手段对数据进行采集和处理,确保数据的一致性。

        图1  电子数据终端采集和手工采集过程的对比


尾注:

数据源:一般是指数据发生的源头,或数据汇总上报的源头,也有指数据的原始来源。

数据标准:数据标准化是企业或组织对数据的定义、组织、监督和保护进行标准化的过程。数据标准化分为开发、候选、批准、驳回、归档几个过程。

户籍人口:是指公民依《中华人民共和国户口登记条例》已在其经常居住地的公安户籍管理机关登记了常住户口的人。这类人口不管其是否外出,也不管外出时间长短,只要在某地注册有常住户口,则为该地区的户籍人口。户籍人口数一般是通过公安部门的经常性统计月报或年报取得的。

常住人口:指全年经常在家或在家居住6个月以上,也包括流动人口在所在的城市居住就称常住人口。中国第三次人口普查规定,常住人口不仅指常住在普查区内并登记了常住户口的人,而且还包括普查期间无户口或户口在外地而住本地1年以上的人,但不包括在本地登记为常住户口而离开本地1年以上的人。常住人口指实际经常居住在某地区一定时间(半年以上,含半年)的人口。

管理人口:一般指某个区域内某个时间节点的实际人口保有总量,包含居住在当地的户籍人口、常住人口、暂住人口(比如出差或办事、临时居住等)。



 

数据来源:

1、武汉市长周先旺:大约有近500万人离开了武汉 还有900多万留在武汉,经济观察报,2020年1月26日

https://baijiahao.haidang-city.com/s?id=1656804996825966899&wfr=spider&for=pc

2、3天大排查期限已至,武汉15个区交卷!环球网,2020年2月20日,https://baijiahao.haidang-city.com/s?id=1659008276907440144&wfr=spider&for=pc

3、武汉开展3天集中拉网式大排查 要求“不漏一户、不漏一人”, 中央广电总台央视新闻客户端,2020年2月18日

http://news.cri.cn/wifihezuo/20200218/bba3161b-8d48-aa14-c7f8-1db6f5955e40.html

4、《2018年武汉市国民经济和社会发展统计公报》,武汉市统计局官网

http://tjj.wuhan.gov.cn/details.aspx?id=4368

5、《武汉市统计年鉴-2018》,武汉市统计局官网

http://tjj.wuhan.gov.cn/Attachment/201901/201901041649116279.pdf

6、中央指导组副组长陈一新:亟需解决疫情数据标准不统一等问题,搜狐新闻网,2020年2月21日

https://www.sohu.com/a/374702870_161795

7、“一人一档” 为“双阴”查询提供便利,汉阳区政府官网,2020-02-21

http://www.hanyang.gov.cn/hyyw/newsdetail-88001.html

8、湖北卫健委订正2月19日疫情数据,确诊数增加426,新浪网,2020年2月21日

http://mil.news.sina.com.cn/2020-02-22/doc-iimxxstf3406601.shtml

9、湖北和武汉数据调整,人民日报锐评:疫情数据真实是底线要求

http://www.whb.cn/zhuzhan/rd/20200222/327100.html


      欢迎关注乐鱼官网数据公众号