数学与计算

共享资源可实现更好的协作:云中的大科学

字号+ 作者:admin 来源:小丑鱼-分享科普知识 2019-11-15 12:10

全球监测计划和大规模研究设施产生的大量数据给科学家们带来了新的机遇和挑战。数分钟内即可捕获的结果可能需要数年才能完全理解。 为了帮助研究人员查看和分析不断增长的信息量,目前正在开发基于云的平台,以将分布式访问与共享的高功率计算资源相结合。这些工具为包括公民科学在内的大规

  全球监测计划和大规模研究设施产生的大量数据给科学家们带来了新的机遇和挑战。数分钟内即可捕获的结果可能需要数年才能完全理解。

共享资源可实现更好的协作:云中的大科学

  为了帮助研究人员查看和分析不断增长的信息量,目前正在开发基于云的平台,以将分布式访问与共享的高功率计算资源相结合。这些工具为包括公民科学在内的大规模合作项目打开了大门,并为将公共资助的研究提供给更广阔的世界提供了可管理的途径。

  凯瑟琳·琼斯,基于在STFC的卢瑟福·阿普尔顿实验室在英国牛津郡,导致软件工程小组在阿达洛夫莱斯中心 - 一个集成的,跨学科的,数据密集型科学 中心 支持国家设施,例如同步加速器和高功率激光器。

  琼斯(Jones)扮演着密切的角色, 致力于为研究人员提供通过云访问工具和数据 的途径- 一种称为“数据分析即服务”的方法。她说:“传统上,使用我们设施的研究人员会随身携带数据,但是随着数据量的增加,您需要考虑其他解决方案。”

  我们的经验鼓励我们思考简单易行的途径,而不是使解决方案过于复杂

  凯瑟琳·琼斯

  Jones和她的同事使用STFC的内部云设施,为研究人员提供了访问虚拟机的权限,这些虚拟机旨在简化处理大量科学成果的工作。琼斯解释说:“虚拟机针对的是特定的科学技术。” “每当用户旋转一次时,他们就可以访问其数据以及进行该分析所需的例程以及适当数量的计算资源。”

  基于云的工具需要测试和文档,以确保平台不仅满足研究人员的即时需求,而且可以长期提供强大的解决方案。换句话说,是可以服务,支持和转让的产品。

  目前,该系统支持科学家在STFC的ISIS中子散裂设施中使用一种特定的实验技术进行研究,并计划将其进一步推广。尽管每个人都有其特定的需求,但该模型可以应用于不同的研究社区。收集详细的需求对于了解多个实验室中的机器学习和AI需求至关重要。

  基于云的数据分析方法的好处包括简化的管理和维护。例如,使用虚拟机可以更轻松地进行软件升级和应用版本控制,以便可以重新运行科学模型,并在将来重现其结果。

  在配置工作环境方面也有优势。Jones说:“ 由于云设置更加灵活,因此将计算资源与分析进行匹配更加容易,” “这是一种更具弹性的资源配置机制。”这里的希望是,研究人员将有更多的时间花在分析上,而不必担心引擎盖下的硬件。

  不同领域,不同要求

  正如琼斯指出的那样,不同的科学领域在处理大数据需求方面可能有不同的要求。约翰·沃特金斯,谁 是 头 的 位于中心的生态环境信息学 和 水文 (CEH),给出了一个例子。

  他说:“对于粒子物理学而言, 挑战可能更多地在于数据量和对特定数据流的分析。” “但是,利用环境科学,您经常 评估各种各样的数据。这需要从多个来源获取,并且在性质上可能非常非常不同。”

  Watkins的同事Mike Brown(CEH应用程序开发负责人)指的是所谓的大数据Vs(包括数量,种类,速度和准确性的列表),以强调与为科学家提供技术服务相关的多重挑战。轻松访问数据和分析工具。

  这不仅是提供易于使用的界面,还在于使研究人员之间的对话具有共同的目标

  约翰·沃特金斯

  Brown和Watkins的主要目标是将了解数据的环境科学家与开发前沿分析方法的数值技术专家联系起来。解决方案再次是在云中提供协作设施-这次是通过NERC资助的一个名为DataLabs 的项目 。

  “这不只是提供易于使用的界面,它也对启用对话框UE 研究者之间有一个共同目标,”沃特金斯评论。“提供诸如Jupyter 笔记本电脑或R-Shiny应用程序之类的协作工具 是随着时间的推移实现这一目标的一种方式。”

  为了将 DataLabs 项目分解为用户故事, 该方法帮助团队捕获了平台的关键功能并迅速试用了其思想, Watkins和Brown与Tessella的专家合作 。“在头12个月的目标是建立一个验证的概念表明,所有不同的元素可以一起工作,并将为社会是有益的,”在项目经理杰米·唐宁说, Tessella 谁一直支持 该计划的 核心合作伙伴。

  如今,该小组从头到尾都具备了必要的要素,并且第一个案例研究表明,Data Labs刚刚起步。例如,研究人员现在正在使用基于云的环境来运行更详细的CEH土地覆盖模型。性能上的飞跃(从1 km跳升到25 m分辨率), 以及显着减少的执行时间,是对以前基于物理工作站的方法可能实现的巨大改进。

  数字双胞胎

  其他领域也将从中受益。开发DataLabs 的经验 为推出类似的协作平台(例如支持国家基础设施数据和分析工具(DAFNI)的解决方案)提供了跳板。这是一个旨在将高级研究模型与已建立的国家基础系统(用于对关键基础架构进行建模)相集成的项目。

  “由牛津大学牵头,由EPSRC资助,该计划希望在未来10年内,能够在未来50年的家庭水平上对英国进行建模,” Tessella 的高级分析师Nick Cook解释说 。在这里,该公司参与了DAFNI的功能和实施路线图的概念化。

  该项目的早期目标之一是创建一个英国城市(例如埃克塞特)的“数字孪生”,换句话说,用虚拟的方式描述一个人口数十万的城市及其交通基础设施,公用事业服务和环境。例如,这个数字双胞胎将帮助规划人员确定在新的公路或铁路网络上进行投资的位置,并确定住房,学校和医生手术的最佳地点。

  库克警告说,这种超大规模系统方法只有以可靠,可重复和出处的方式执行,才能成功。“当用户发表他们的发现时,他们需要能够证明以类似方式产生的结果如何应用高能物理学或生命科学研究的科学最佳实践–对他们的结果产生信任感,也许持怀疑态度或敌对的观众。”他强调说。

  DAFNI正在密切关注 DataLabs 所做的工作,以此作为在其自己的云中提供接口和虚拟研究空间的方式。两项建议都要求以可追溯的方式存储结果,以保持数据的完整性,并防止篡改,无意损坏或恶意使用数据。在这一领域,有一天可能会看到数字分类帐或区块链发挥重要作用,尤其是在处理关键的国家基础设施的敏感特性时。

  更多思考

  基于云的大型科学解决方案除了支持协作式数字处理外,还更容易提供和共享知识和专业知识,例如通过网络研讨会和讲习班。

  如今,我们中越来越多的人具有在云中进行操作,在工作中进行项目协作以及在家中观看电影和共享照片的经验。流行的在线平台变得更易于使用,并且更加符合我们的需求。但是随着期望的提高,我们对接口的功能以及我们希望看到的功能的要求也会随之提高。

  琼斯说:“如果您没有Google之类的巨头的资源,这可能是一个挑战,但这一切都是好的,因为我们的经验鼓励我们思考简单易行的途径,而不是使解决方案变得过于复杂。”

  再见USB

  总而言之,进行实验并能够通过USB记忆棒将完整数据集传输回PC的日子已经过去了。尽管云存储和在线数据访问已成为挑战,这并不会让许多人感到惊讶,但细节在于魔鬼。做到正确,平台可以为科学界做更多的事情-提供可扩展的计算资源,简化维护和升级,并实现多学科协作以刺激研究进展。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。转载请注明seohttp://www.swlxs.com

相关文章