大数据:重构社会生活
作者: 记者 甘晓
2013.12.04 来源: 中国科学报
编者按:3D打印、移动互联、机器人、量子通信、大数据、干细胞、纳米技术……日新月异的当代科技一方面冲击着我们的大脑,另一方面已在影响乃至改变我们的生活。这些前沿科技领域在国内外的进展如何?中国科学家身处其中发挥了何种作用?公众从正在酝酿的科技变革中汲取了怎样的便利与实惠?未来又将如何发展?本报从今天开始,推出年终专稿“新科技改变生活”系列报道,系统梳理、展示这些技术领域的研用现状以及它们对社会生活带来的冲击、改变及重构。
经常上网的你大概对这样的场景并不陌生:当你习惯性地浏览网页时,却惊讶地发现广告栏里竟然出现了前几天在购物网站里搜索过的商品。“是谁干的?他怎么知道我想要买什么?”第一次遇见这样的状况,被看穿的感觉一定不好受。然而,这恰恰是大数据时代带给我们的一个“惊喜”。
这些年,在信息技术领域红极一时的“大数据”,正不知不觉地加紧渗透到我们的生活中。它前所未有地丰富了我们的生活并产生了极大的便捷,同时也对公众的个人隐私构成威胁。
任何新技术的应用似乎都难以避免一种窘境:在机遇与风险之间寻找平衡。信息技术领域同样如此。未来,大数据应用将在解决现实问题上产生更多亮点,也必将遇到信息安全方面更为严峻的挑战。
全方位渗透生活
早在1980年,美国未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。不过,直到2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。
今天,“大数据”已经在各行各业衍生出形形色色的数据应用。中国工程院院士李国杰曾表示:“推动大数据研究的动力主要来自企业的经济效益”。IBM、谷歌、亚马逊、Facebook等跨国巨头正是发展大数据技术的主要推动者。
2008年推出的“谷歌流感趋势”,至今看来仍不失为一个典型的大数据应用范例。谷歌设计人员认为,人们输入的搜索关键词代表了他们的即时需要。他们编入了“温度计”、“肌肉疼痛”、“发烧”、“喷嚏”等与流感有关的关键词,当用户输入这些关键词时,系统便会开始跟踪分析,创建流感图表和地图。
为了验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制与预防中心的报告作对比,结果证实两者存在很大的相关性。
中科院软件研究所副研究员张敏告诉《中国科学报》记者:“这正是大数据的应用方式之一,即发现统计规律。”她认为,大数据的应用方式还包括分析个体规律和集成形成知识。
在国内,购物网站对大数据应用显得极为积极。中科院软件所的几名研究人员曾帮助淘宝网进行广告排序的改进。他们抓取了淘宝网近900万条广告点击数据,通过分析广告类目、展现位置、商品价格、图片内容等因素对用户行为的影响,建立了用户偏好模型。
“我们基于这些用户偏好分析,帮助淘宝网建立了新的广告排序算法,在线上测试中将广告收益提高了5.5%。”该所副研究员杨达对《中国科学报》记者说。
电商平台的偏好,仅仅是大数据应用的冰山一角。在医疗、商业、教育、金融、军事、科研等领域,大数据技术也正在如火如荼地应用着。
连接虚拟与现实
今年7月,华东师范大学一名女生收到来自学校勤助中心的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?如有困难,可电话、短信或邮件我。”
事实上,这名女生因为减肥减少了饭卡支出,触发了学校对于饭卡消费数据的监控系统。这个监控系统通过对饭卡消费数据分析,了解学生的经济状况,推测如果花销显著少于正常情况,校方是否应采取必要的干预措施。
这名女生把短信截图发到微博上,立即引来一片赞扬声:“负责的学校,让冰冷的数据有了人性之美。”
这一案例也成为业内人士一直津津乐道的一个观点:大数据技术应用不能仅在数据上下功夫,还需要更多地与现实生活相结合。
大数据被寄予厚望的地方或许恰恰在于此——其创造价值的过程本身就是一场“商业和科学革命”。因而,数据处理与分析等基础技术的突破已经不是当前的最大障碍,关键在于如何从商业、社会的角度充分理解数据。
“数据背后是网络,网络背后是人,研究网络数据实际上是研究人组成的社会网络。”在2012年5月召开的第424次香山科学会议上,李国杰提出建立一门大数据研究的“网络数据科学”,重点研究数据背后的社会网络。
就在他提出建立这门新型交叉学科之前的两个月,美国联邦政府宣布了“大数据研究和发展倡议”计划,拟用2亿美元提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。
《大数据时代》一书的中文译者周涛认为,大数据分析和利用与提升国家竞争力及国民幸福程度密切相关,数据储备和数据分析能力将成为未来新型国家最重要的核心战略能力。
周涛称:“包括与国家安全、社会稳定相关的尖端武器制造与性能模拟实验,群体事件以及谣言的预警和干预;与国家科技能力相关的等离子即高能粒子实验分析,纳米材料及生物基因工程;与国民经济繁荣相关的经济金融态势感知与失稳预测,精准营销与智能物流仓储等。”
面向2020年,中国也将在战略高度上将信息科技发展作为主战场之一,在新科技革命进程中,加速人、机、物三元世界的融合发展。
挑战信息安全
通过立法和各种有效手段保护个人隐私刻不容缓
回到文章开头,被大数据应用猜到购物喜好的尴尬大概源于对个人隐私泄露的不安。的确,目前大数据应用面临的挑战之一便是对个人隐私信息的担忧。
张敏回忆起前些年看过的一个科幻故事,描写的是当时的作者畅想的现代生活:主人公早晨醒来打开一部类似手机的机器,机器自动弹出了主人公将要前往地点的路线及相关信息,不仅如此,主人公最喜欢的餐厅和电影也被自动推送出来。
“你能相信吗,有一台机器比你自己还了解你。”张敏感叹。不过在她看来,这样美好的未来对于个人隐私也是相当危险的。
“棱镜计划”是谈论大数据时不得不提的事件。根据美国中情局前职员爱德华·斯诺登提供的信息,美国情报机构在2007年开始的“棱镜”窃听计划中,对美国9家互联网公司的数据进行挖掘工作,从音频、视频、图片、邮件、文档以及连接信息中分析个人的联系方式与行动。该计划一经曝光,便受到国际社会的谴责。
然而,《大数据时代》作者舍恩·伯格在评论斯诺登事件时曾表示,令他惊奇的并不是“棱镜计划”本身,而是大家对这个计划如此惊奇,大多数人竟然仍以小数据的经验和视野来看待它。
从大数据应用创新的角度来看,“棱镜计划”无疑是一个非常出色的案例,同样暴露了大数据应用对个人隐私的威胁。
大数据时代如何保护个人隐私是一个共同关心的问题。在前不久召开的中国计算机学会青年计算机科技论坛上,南京大学计算机系教授仲盛介绍,传统互联网对个人信息保护的方式之一便是“去识别”,即去掉姓名等关键信息。那么,大数据时代,“去识别”还能保护隐私吗?
例如,一家医院在提供医疗服务时发现张家村有两名45岁的男性患有某种疾病,其中一名未婚。在这条信息里,病人的个人信息虽然被去除了,但只要知道张家村有谁满足45岁和未婚两个条件,依然能知道究竟是谁患病。
仲盛指出,正是数据集成暴露了个人隐私。“即使每一个机构发布的数据都是安全的,但把它们结合在一起便什么都知道了。”他说。
从技术而言,科学家至今还没有最有效的办法为个人隐私“上保险”。大数据时代的信息安全恐怕需要新的社会规则来规范使用数据的行为。
2013年年初,世界经济论坛发表《解除个人信息的价值:从收集到使用》的报告,甚至建议所有数据收集都应当使用密码,以达到“限制使用数据”的目的。
大数据的应用对公众信息安全来说无疑增加了一个新的维度。李国杰在接受媒体采访时曾表示:“如何通过立法和各种手段真正保护个人的隐私,这是国家需要高度重视的一个新的安全问题。”