数学与计算

文本挖掘可以帮助合理设计新材料

字号+ 作者:admin 来源:小丑鱼-分享科普知识 2019-11-27 17:47

发现具有特定性能的新材料可能是一个缓慢而低效的过程,需要经过训练有素的专家进行无数次(通常是反复试验)的实验。因此,材料科学家现在正在寻求机器学习来帮助他们完成任务。 在这方面,科学文献是真正的宝库科学家发表论文已有100多年的历史,并且每周都有数十篇论文发表。但是,显然,论

  发现具有特定性能的新材料可能是一个缓慢而低效的过程,需要经过训练有素的专家进行无数次(通常是“反复试验”)的实验。因此,材料科学家现在正在寻求机器学习来帮助他们完成任务。

文本挖掘可以帮助合理设计新材料

  在这方面,科学文献是真正的宝库–科学家发表论文已有100多年的历史,并且每周都有数十篇论文发表。但是,显然,论文是以文本的形式发表的,因此,无论是通过传统的统计分析还是在大多数现代的机器学习应用程序(受“监督”)下,都很难对这些集体知识进行分析,也就是说,需要对其进行培训。实际上,这些程序需要训练数据的“手工标记”输入(例如,定义材料成分的参数)和特定的输出(例如,材料的电子特性)。至少需要数百种材料来构建训练数据。

  劳伦斯·伯克利国家实验室和加州大学伯克利分校的研究人员现在发现,一种称为Word2vec的无监督机器学习算法,旨在处理文本和自然语言,可以通过简单地“阅读”以下材料的摘要来学习重要的材料科学概念。超过300万种期刊文章。他们说,该算法可以识别科学论文中未报告的材料特性,并且这种文献挖掘技术甚至可以在将来用于设计新材料。

  信息密集词嵌入

  由Anubhav Jain和Gerbrand Ceder领导的研究小组发现,已出版文献中有关物质特性的信息可以有效地编码为信息密集的单词嵌入(单词的数字表示或数学矢量),而无需任何人工标记或随后的标记监督。

  研究人员说,以保留其句法和语义关系的方式将这样的嵌入物分配给文本主体中的单词是自然语言处理(NLP)的主要技术之一。这些词嵌入通常使用Word2vec之类的机器学习算法构建,该算法利用有关文本中作品共现的信息。当在相关文本上进行培训时,这些技术应产生代表单词“铁”的向量,例如,与“钢”的向量相比,与“有机”的向量更接近。

  研究人员从1922年至2018年期间在材料科学,物理和化学领域发表的论文中收集了330万篇摘要。然后,他们对这些摘要进行了处理,以删除与无机材料科学无关的论文(由单独的机器学习分类器确定)。剩下的150万个摘录使用了大约50万个单词的词汇来编写。

  定位每个单词

  然后,他们使用Word2vec分析了文本,Word2vec接受了大型文本语料库,并使用人工神经网络对其进行了处理,以将词汇表中的每个单词映射到一个数字矢量,每个数字矢量都有200个“维度”。在此上下文中,维仅表示每个单词由200个数字的序列表示。

  “这里的关键思想是出现在相似上下文中的单词具有相似的含义,” Jain解释道。这些单词在多维空间内形成簇,然后Word2vec可以根据在原始文本中采用单词的模式,准确估算单词的含义或它们之间的功能关系。

  研究人员发现,该算法能够获得单词嵌入,从而捕获元素周期表的基础结构和金属的晶体结构,而无需任何有关材料科学的知识。它只是通过分析摘要中单词的位置以及它们与其他单词的共现来做到这一点。

  Ceder说:“我们发现,在“词嵌入空间”中朝不同方向移动对应于调整各种已知的原子特性,例如增加原子序数或增加电负性。“我们还能够使用简单的矢量加法和单词嵌入法相减来预测某些材料的磁性,晶体结构和对称性。”

  一个例子:文本语料库中的许多词代表材料的化学组成, 可以通过点积(一种在高维上执行乘法的方法)确定与LiCoO 2(一种著名的锂离子阴极化合物)最相似的五种材料)的标准化词嵌入。

  “根据我们的模型,最接近LiCoO 2的成分是LiMn 2 O 4,LiNi 0.5 Mn 1.5 O 4,LiN i0.8 Co 0.2 O 2,LiN i0.8 Co 0.15 Al 0.05 O 2和LiNiO 2,研究的第一作者Vahe Tshitoyan说:“所有这些都是锂离子阴极材料。”

  单词联想

  嵌入还产生与诸如“化学元素”,“氧化物”和“晶体结构”之类的概念相对应的词联想,仅举三个例子。例如,他们可以产生以下解决方案:“ NiFe”是“铁磁性的”,而“ IrMn”是“?”的,其中最适合“?”的响应是“反磁性”。该结果支持了2013年使用Word2vec进行的第一个此类实验中的观察结果。

  “尽管该算法不能以100%的精度执行,但它以无人监督的方式学习的事实令人兴奋,” Jain告诉《物理世界》。“例如,我们能够使用化学元素的词嵌入来高精度预测Elpasolite矿物的形成能,这意味着这些材料的化学知识已嵌入词向量中。”

  通过识别“空白”发现新材料

  研究人员并没有止步于此:他们还表明,通过确定功能性化合物研究文献中的“缺口”,可以将其方法用于发现新材料。为此,他们通过训练机器学习模型来预测材料名称中出现“热电”一词的可能性。然后,他们在文字中进行搜索,以查找尚未报道具有热电特性但名称与热电一词具有高语义关系的材料,因此它们本身可能就是热电。

  为了测试他们的方法,他们“回到过去”并仅使用2008年之前发布的摘要对模型进行了重新训练,以便他们可以将其预测与未来10年的实际科学发现进行比较。

  团队成员John Dagdelen表示:“我们的模型可以预测出过去十年中发现的一些最佳热电材料,这要比材料研究界实际发表的第一份报告要早几年。”

  “我们的发现暗示,NLP算法不仅可以用于提取文本中已经存在的知识,还可以对未知的属性进行成功的预测。我们希望这将激励科学界和NLP界更加紧密地合作,并找到更多的方法来利用研究文献中存储的所有知识。”

  旨在分析全文和“词汇之外”的材料

  该小组报告了其在《自然》(Nature) 10.1038 / s41586-019-1335-8中的工作,目前计划在科学文章的全文而不是摘要上训练模型。“我们怀疑这里将需要更复杂的NLP算法,例如上下文相关的算法,” Tshitoyan说。

  另一个有趣的未来方向是找到预测词汇以外材料的方法,即,材料在文本中完全没有提及。因此,本研究中描述的方法可用于发掘现有材料以前无法识别的特性,然后可以在特定应用中加以利用。谁知道,使用机器学习算法很可能会找到下一个重要的超导体或拓扑绝缘体。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。转载请注明seohttp://www.swlxs.com

相关文章