一种新的范式:数据密集型科学
作者:刘润生
2013年04月15日 来源:学习时报
科技进步的方式正在发生根本性变革。在大数据时代,数据密集型科学如今已经与理论科学、实验科学和计算科学比肩,共同成为一种根本的研究范式,这为产业界、学术界和政府机构之间开展合作带来了新机遇。
数据洪流
由于研究方法的转变以及多种快速发展的技术相互融合,科技进步的方式正在发生根本性变革。
首先,科学数据体量十分庞大,今后20年还会继续增加。媒体频繁使用“数据洪流”来描述数据的急剧增长,而且这种现象不仅出现在科学领域,同样也出现在社交媒体、商业和金融领域。计算模型受到更多应用,各种网络普通适用,数据传感器商品化,这些都是科学数据的规模超出过去想象的关键因素。
其次,一些科学数据在生成并经过分析后,需要存储、管理、注解、归档和共享。过去研究人员历来在本地存储数据。这种方式不仅不可靠,难以持久,并且随着科学研究日益全球化和跨学科化,其有效性也日渐降低。研究人员日益需要使用彼此的数据,追求研究成果的可重复性,并通过将分散的多学科数据集加以综合来增加科研价值。因此,有必要提供新的数据存储、共享、获取和管理服务,而这将超出研究人员在本地创建和维护数据的能力范围。
第三,科学数据的数量与可用性对先进分析方法产生了迫切需求。面对庞大的数据集,研究人员将需要强大的数据可视化引擎、复杂的系统建模工具和前沿的机器学习算法。
管理大数据
创建云计算是为了应对互联网带来的大数据挑战。为了支持全球范围的互联网搜索、电子商务、社交网络和电子邮件,一些公司不得不建起庞大的云数据中心网络。每个云数据中心都包含数十万个服务器,它们使用计算机可视化等先进的管理技术向数百万并发用户提供24小时服务。由于这些中心汇总的是海量数据,它们也成了海量数据的分析基地。由于受大公司和初创公司的需求推动,以“现用现付”方式访问云数据中心的市场应运而生,并快速增长。
研究人员发现,云计算资源能够高效地满足科学数据分析的某些新兴计算需求。通过云计算,研究人员能访问更多的处理器,使用更多的存储空间,操作常用的科学应用软件,而无需购置、安装或维护这些系统。通过这种方式,科学家能够成本有效地存储、共享和访问大型数据集,而在此之前,这些数据集可能是孤立地存储在本地主机中。
多学科合作
对于数据密集型研究而言,随着科研界对云计算的使用向前发展,产业界、学术界和政府之间的合作方式和机制将同技术一样重要。
学术研究人员将继续作为领域专家而担当独特的角色,他们要实施数据创建和采集技术,建立复杂的仿真和系统模型,部署各种传感器网络,并对产生的数据进行分类和分析。不过,在数据共享和多学科研究合作这些优势的推动下,研究人员将需要花费更多时间来制定并遵守数据共享标准。
由于受到商业需求和机遇的推动,云计算技术行业正在大力扩建基础设施,并确定能够维持云计算发展的经济和商业模式。未来20年,产业界很可能是大部分大规模云计算资源的主要业主和运营商。产业界将需要寻找与学术界合作的合适赢利机制,而这些机制可能根本不同于商业部门所使用的机制。
政府科研管理机构将继续担当资助者和政策制定者的独特角色。在云计算时代,合作研究和多学科研究将日益普遍,政府机构需要更加积极地开展协调,制订数据标准,倡导公共元数据,确保广泛、公平存取,推动公共资助的研究成果向公众开放。
云计算模式
云计算通常有三种模式:一是“基础架构即服务”模式,程序员对虚拟机操作系统的配置有全部的访问权限;二是“平台即服务”模式,提供更高级的编程模型和数据库服务;三是“软件即服务”模式,用户能够访问全部软件服务。这三种模式都能很好地应用于数据密集型科学。
一些新出现的科学家将着眼于“研究即服务”的模式来发挥云计算的优势。随着科学家们创建高度定制化的应用程序来开展各学科独有的深入研究,有些科学家将会选择通过云计算提供研究服务和咨询服务,以此作为一种业务。
总之,数据密集型科学已经兴起,而不断成熟的云计算服务框架将为处理数据的研究人员提供重要能力。通过对云计算的开发与采用,产业界、学术界和政府将在科学家采用云计算资源方面发挥各自独特且相互倚重的重要作用。