数学与计算

大数据,小实验室

字号+ 作者:admin 来源:小丑鱼-分享科普知识 2019-11-17 23:26

大型实验室习惯于处理海量数据,但是随着数据密集型研究变得越来越普遍,Paul Kassebaum认为物理学家应该拥有更好,更直观的工具来管理它。 欧洲核子研究组织的大型强子对撞机是世界上最大的科学仪器之一。它每秒捕获5万亿位数据,而这家位于日内瓦的实验室聘请了一群专门的专家来管理数据流。相

  大型实验室习惯于处理海量数据,但是随着数据密集型研究变得越来越普遍,Paul Kassebaum认为物理学家应该拥有更好,更直观的工具来管理它。

  欧洲核子研究组织的大型强子对撞机是世界上最大的科学仪器之一。它每秒捕获5万亿位数据,而这家位于日内瓦的实验室聘请了一群专门的专家来管理数据流。相反,此处显示的仪器(称为时间拉伸定量相位成像显微镜)可安装在台式机上,并由一组人管理。但是,它也能够捕获大量数据:每秒0.8万亿位。

大数据,小实验室

  这两个例子说明了物理学中无处不在的“大数据”已经变得多么普遍。曾经仅限于由国际团队管理的大型机器的挑战现在开始在单个研究人员使用的小型设备中出现。因此,更多的物理学家需要戴上“数据科学家”的帽子。

  获得必要的技能通常被认为是一项艰巨的任务,它激发了一些物理学家在数周的时间里参加密集的训练营,以学习由零散,陌生的工具组成的字母汤。但是,物理学家已经拥有处理大数据所需的许多概念理解。他们所需要的只是当问题变得超出被认为是“大问题”的程度(有些武断)时,他们已经在继续使用的计算工具。物理学家不必为此担心太多的计算结构。

  产生资料

  这两个原则是MATLAB(我公司MathWorks生产的软件)的大数据和机器学习功能背后的动力。在美国物理学会的2018年3月会议上,我与一系列演讲者一起参加了名为“在您的物理学工具箱中放置大数据”的会议,以解释这些原理在实践中如何使用时延定量相位成像(TS-QPI)显微镜作为案例研究。

  Bahram Jalali是加利福尼亚大学洛杉矶分校(UCLA)的光子学专家,他当时的博士生Claire Lifan Chen和博士后Ata Mahjoubfar建造了TS-QPI显微镜,旨在对10 mL血液样本中的每个细胞进行成像并确定这些细胞中哪些是癌性的。一次将样品中的细胞一次通过流式细胞仪,速度约为每秒100,000个血细胞;如果细胞可以首尾相连地堆叠,则相当于每秒成像约1 m个细胞。为了以如此高的速度捕获清晰的图像,其成像系统以每秒3600万帧的速度运行-相当于20部高清胶片。因此,单个小血液样本会生成10到50 TB的数据。

  使他们的TS-QPI系统能够以如此快的速度运行的物理基础设施本身就很有趣。该系统创建一系列激光脉冲,其持续时间以飞秒为单位。透镜,衍射光栅,反射镜和分束器将这些激光脉冲分散到一系列多频“彩虹”闪光中,以照亮通过细胞仪的细胞。每个单元的空间信息都在脉冲频谱中编码,然后在通过波导发送光信号时有意地分散光信号,从而对不同波长的光谱分量施加不同的延迟,并充分拉伸信号以使其成为使用标准的电子模数转换器将其数字化。

  处理和探索数据

  Jalali,Mahjoubfar和Chen总共从样本中的每个单元中提取了200多个数值。这些数据分为三类:表征细胞大小和形状的形态特征;与细胞密度相关的光学相位特征;与细胞内细胞器大小相关的光损耗特征。结果是一个庞大的数据集。幸运的是,MATLAB可以智能,透明地将这些数据分解为小块,从而可以进行合并整个数据集的操作。这意味着即使大型数据集,通用表达式(如A + B)仍然可以使用。

  另一个有用的技巧是将数据定义为MATLAB“高层”数组,而不是内存中数组。与内存数组不同,高大数组通常保持未评估状态,直到您请求使用“聚集”功能执行计算。这种所谓的延迟评估使您可以快速处理大型数据集。当您最终使用collect请求输出时,MATLAB会在可能的情况下合并排队的计算,并采用最少的数据传递次数。更好的是,为小型内存数据编写的所有后续代码都将自动在大数据版本上运行:无需更改代码,也不需要特殊技术。

  加州大学洛杉矶分校的研究人员试图建立一种可监督的机器学习模型,该模型可以将细胞分为健康细胞还是癌性细胞。

  为了生成细胞数值度量的高位数组,Jalali和他的同事使用了适用于Python的MATLAB API,将专用的开源细胞图像分析包与MATLAB的图像处理工具箱支持的更通用的工作流程集成在一起。由于以相同的方式处理每张图像以提取其特征,因此他们可以使用并行for循环“ parfor”,通过MATLAB的Parallel Computing Toolbox在其16核处理器上同时运行其图像处理迭代。这将完成分析所需的时间从八天减少到大约半天。

  整合机器学习

  机器学习有两种风格。一种是无监督学习,其中一种算法在输入数据中找到隐藏的模式或固有结构。另一个是监督学习,其中对已知的输入和输出数据进行“训练”算法,然后使用结果模型基于新数据为输出生成合理的预测。在他们的工作中,加州大学洛杉矶分校的研究人员试图开发一种监督的机器学习模型,该模型可以将细胞分类为健康细胞还是癌细胞。MATLAB的主要好处是能够在短时间内测试各种机器学习模型,因此,他们俩使用该软件的“统计和机器学习工具箱”来比较三种分类算法–朴素贝叶斯,支持向量机(SVM) )和逻辑回归(LR)–选择最有用的方法。

  Jalali的小组还探索了深度学习方法以创建其预测模型。深度学习是机器学习的一种特殊形式。通过深度学习工作流程,可以从图像中自动提取相关功能。此外,深度学习执行“端到端学习”,即为网络提供原始数据和要执行的任务(例如分类),并自动学习如何执行此操作。

  尽管Jalali的实验室从头开始训练他们的网络,但大多数深度学习应用程序都使用“转移学习”。在这种方法中,想法是从现有的经过预先训练的网络(例如AlexNet或GoogLeNet)开始,然后通过提供包含与您的问题相关的类的新数据来对其进行微调。在对网络进行了一些调整之后,您可以要求网络执行新任务,例如对癌细胞或正常细胞进行分类,而不是对狗和猫进行分类(这是AlexNet的一组课程中的一个真实示例)。这需要更少的数据-您可能最终要处理数千个图像,而不是数百万个图像-从而减少了时间。Jalali,Mahjoubfar和Chen的所有机器学习模型的执行准确率均超过85%。然后,他们通过将第三方深度学习软件包与MATLAB无缝结合,对接收器的运行特性进行了全局优化,从而将其深度学习模型的准确性提高了95%以上:在各种辨别阈值设置下,真实正值与虚假率的关系。

  UCLA团队的工作-发明了新型的癌症检测显微镜,然后在MATLAB中使用专用工具来处理其数据-很好地说明了如何将数据科学技术和工作流程集成到小型实验室中。曾经在专家团队之间分发的工具,或者仅在少数研究人员的工具带中发现的工具,如今甚至对于那些跳过了新手训练营而直接致力于使大数据为他们工作的科学家也可以使用。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。转载请注明seohttp://www.swlxs.com

相关文章