首页 时政 国际 港澳 台湾 财经 法治 社会 纪检 体育 科技 军事 文娱 图片 视频 论坛 博客 微博
新华网 > > 正文

新华网数据新闻部:从《打虎拍蝇记》看“以数维新”

2015年08月17日 15:14:14 来源: 《中国传媒科技》杂志

    记者|刘胜男

    自习近平总书记在十八届中央政治局常委与中外记者见面时表示必须下大气力解决贪污腐败起,在新华网等门户网站推出的各类关于十八大的网络调查中,反腐倡廉就始终居于关注排行榜前列。

    新华网数据新闻部曾做过一个反腐大数据的静态数据图,“考虑到可视化的交互数据能够让用户有更多的探索、产生更多种可能,制作一个反腐主题的大型交互数据新闻酝酿已久”。随着反腐工作继续推进,最多的一个月里落马官员达到92人。新华网愈发意识到反腐数据中蕴含着丰富的信息和极高的新闻价值,因此有了《打虎拍蝇记》。

    且看新华网数据新闻部副主任、《打虎拍蝇记》的监制马轶群如何“以数维新”——从数据的角度去思考如何做新闻,用数据的思维去寻找关联,发现趋势,为新闻报道注入一种新的视野。

    全面、权威 把落马贪官

    一“网”打尽

    《打虎拍蝇记》共集纳了十八大以来700余名落马官员数据。筹备期间,制作团队查阅了中纪委网站795篇新闻稿件,检索了 3130 篇文档,总字数达到3760000,此外,还筛选了 1900 张图片,最终整理出包含每个贪官姓名、性别、年龄段、学历、级别、部门、首次通报时间、落马原因、落马地点以及照片,共10余个项目的数据包。

    分析调研 多维度建模和表现

    时机对了,数据有了,如何从数据角度做好新闻呢?实际上,在数据新闻策划制作的初期阶段,确立新闻点、挖掘数据、规划模型,这三者往往是需要齐头并进、不断适应和调整的。数据新闻毕竟要用数据做支持新闻点,用模型表现结论。

    新闻的多维属性给多维度的新闻报道方式留下了需求和空间。在新闻数据的建模方式上,制作团队借鉴了Data Mining中“数据立方体”(data cubic) 的概念,将新闻事件结构为一个立方体,这个立方体由数据和信息组成,包含不同的维度和角度,维度的选择和组合符合新闻传播的需要和叙事特点。

    那么《打虎拍蝇记》的数据维度是如何制定的呢?因为数据维度之间具有着强相关性,这种相关可能是正相关(/ /),也可能是负相关的(/ \)。为了呈现反腐工作的真实成绩,表明落马贪官的特点和趋势,提高产品的可读性和传播力,制作团队对落马贪官的特点和影响范围、网民关注度、媒体报道重点等问题进行了深入分析。《打虎拍蝇记》中,落马官员的年龄比例和级别比例呈现强烈的正相关关系,级别越高,年龄就越大——国级副国级主要由40后构成,省部级和厅局级落马官员中50后是主体,而县处级中主要是60后群体。然而,单独一个维度过于单薄,两个以上维度结合在一起才能更好的说明问题,因此最终决定将数据进一步整合为“时间和地域”、“年龄和级别”四个两两交叉关联的数据维度。于是《打虎拍蝇记》中对时间、地域、落马官员数量三个维度进行整合,相互关联,形成一幅跨越时间和空间的图景。

    其中,时间和地域维度集中展现了中纪委通报的落马官员数量在2012年至2014年间,每个月份的数量变化及各省份落马官员比例的变化,峰值变化用曲线表现,而省份比例的变化在地图上呈现,颜色越深的地域代表落马官员越多。这是两个现实可感的数据维度之间的组合,展现了反腐工作成果的现实图景(见图1)。

    通过交互可以看到,2013年8月9月的时候,达到了一个小高潮,而这时正是十八大后第一轮巡视即将结束的时候。2014年4月,这个月落马官员人数达到了92人,在时间轴的曲线图上呈现峰值,而地图上可以看到山西的颜色呈深红色,代表这一月山西落马人数最多(见图2)。

    年龄和级别维度的组合从一个更为抽象的角度对落马官员的个人资料数据进行了分析和挖掘,通过动态的聚类效果展现了落马官员级别、年龄的比例关系,并通过可视化的方式探索了级别和年龄两个维度之间相互的关联度。图3是从2014年以来的落马官员统计,可以看到国级副国级的四位官员,34位省部级官员以及人数众多的中间级别的厅局级贪腐官员。

    最后一部分是为网民提供的交互式查询,可以从地域、时间、级别、年龄等九个属性中选择若干属性进行组合式个性化查询,用户可从多个维度查看并比较2012年以来落马官员的数据,以最直观的形式了解当前的反腐工作成果(见图4)。

    多维度数据表现需要注意的问题是如何维持整体感和统一性。用恒定的基础视觉元素进行整个交互页面的统一。《打虎拍蝇记》以蜂窝形状为最基本的视觉元素,用来表示每一个落马官员,从而使整个页面不同的功能区在视觉上达到统一(见图5)。

    可视化交互

    让数据的新闻价值最大化

    在《打虎拍蝇记》的规划初期,制作团队利用R语言对数据进行预先的分析,找出落马官员数据之间的数值关系、时间趋势及离群异常点,根据数据分析结果进行项目设计和规划;在图形交互方面,使用d3进行开发,主要使用数据与图像元素之间的映射关系表现数据(如图形颜色表现年龄、图形大小表示级别、图形的位置表示时间顺序及群落关系等)。基于以上技术,网民可以从报道中可以看到“打虎拍蝇”何时是高潮,何时何地最集中,哪个年龄段和级别占比最大,交互式查询了实现选择若干属性进行组合式个性化查询,从而得出不同研究角度的结论,将所有交互数据的使用价值最大化。

    该数据新闻作品已成为2012至2014年间中央高强度反腐重要成果的总结和展示。

[责任编辑: 高海英 ]
新华炫闻客户端下载
010020111200000000000000011199861345260171