数学与计算

神经网络从稀疏数据集中提取信息

字号+ 作者:admin 来源:小丑鱼-分享科普知识 2019-12-02 15:13

凝聚态理论家Gareth Conduit开发了一种可以从不完整数据中学习的算法。他的下一个挑战:将其转变为业务 您是如何想到公司的? 几年前,我在一家酒吧与一位材料科学博士学位的学生聊天,他开始告诉我他的小组面临的一些数学问题。他们正在尝试使用神经网络来预测新材料随成分变化的特性,我向他们展

  凝聚态理论家Gareth Conduit开发了一种可以从不完整数据中“学习”的算法。他的下一个挑战:将其转变为业务

  您是如何想到公司的?

  几年前,我在一家酒吧与一位材料科学博士学位的学生聊天,他开始告诉我他的小组面临的一些数学问题。他们正在尝试使用神经网络来预测新材料随成分变化的特性,我向他们展示了如何使用一种称为协方差矩阵的工具来计算新材料满足各种要求的总体概率,例如强度,成本,密度等-一次即可。通过这样做,我们能够设计出几种新的金属合金,这些合金目前正在劳斯莱斯进行测试。

  从那时起,我开始研究对材料特性获得更深刻见解的方法。某些物理定律,例如电导率与导热率成正比,或者材料的拉伸强度与其硬度成三倍,这一事实对于预测材料的行为非常有力。但是,由于我们将神经网络设置为始终从组成推断到属性,因此我们没有利用属性与属性的关联。因此,我更改了算法,以便神经网络可以捕获其他信息,并且我们使用它来设计可用于3D打印过程(称为直接金属沉积)的材料。我们只有10个实验数据点,说明材料可以进行3D打印的程度,但是我们能够获取少量的数据,并将其与庞大的有关可焊接不同合金的数据库合并,这是一个类似的特性。由此产生的推断指导了我们对新材料的设计。

  接下来发生了什么?

  直接金属沉积项目使我意识到,将稀疏数据库(例如用于3D可打印性的数据库)与完整数据库(例如用于可焊性的数据库)合并可能会带来新的机遇,因此下一步是开发更全面的数据库这样做的方法。这种方法的数学灵感来自多体量子力学,其中一种称为Dyson公式的东西被用来计算非相互作用粒子的格林函数和一个自能项,该相互作用函数是针对相互作用粒子的格林函数。捕获一个粒子与另一个粒子相互作用的效果。我们可以进行类比,其中相互作用粒子的格林函数就像是对整个材料特性的预测,非相互作用粒子的格林函数就像一个“空”数据单元,对于它,我们只是天真地猜测其值是多少。然后我们的神经网络使用我们知道的数量来指导我们不知道的数量的外推。这使我们能够将稀疏的实验数据集与完整的一些第一性原理计算机模拟和分子动力学模拟合并。

  我们还注意到,数据中的“噪音”通常隐藏着很多信息。同样,我们从多体物理学,低温固态系统中发生的临界现象的物理学以及重归一化群论中知道这一点,在重归一化群论中,一个物理量的大范围波动可能与均值有关不同物理量的期望值。物理学家已经开发了很多数学来捕获该知识,如果我将其移植到我们的神经网络中,我们可以使用一个数量的不确定性来告诉我们另一个数量的平均值。这对于解释材料的微观结构和相行为很有帮助。

  这些技术有许多可能的用途,尽管我以剑桥大学的研究员身份从事过其中的一些工作,但首先与劳斯莱斯公司合作,后来与三星公司合作设计新的电池材料,并与BP合作设计新润滑剂–我最终决定,我需要组建一家分拆公司,以真正推动它们前进。

  分拆过程是怎样的?

  最初,我与大学的商业化部门Cambridge Enterprise联系。他们向我介绍了几个当地的商业天使。我把他们每个人带出去吃晚饭,弄清他们认为机会是什么,并试图了解他们想与谁合作,最后选择了一个叫Graham Snudden的天使。与Graham的合作帮助我了解了我们的业务计划,他还向我介绍了他的Ben Pellegrini的前雇员,他后来成为了我的衍生公司Intellegens的联合创始人兼首席执行官。Ben具有在小型公司工作的经验,并且曾在软件领域工作,这是我自己的技能的补充领域,也是我们业务战略的绝对核心。

  Ben Pellegrini:当我第一次遇到Gareth时,他是通过大学计算机中心上的终端提示符运行算法的。他总是非常热情,非常聪明,我可以看出他的所作所为确实有兴趣和价值,但是很难–我不得不见过他几次,才知道他在四处移动数据,他正在产生有趣的结果。最大的问题是如何将该工具从专业用户可以在命令行使用的工具转变为临床实验室或材料公司的普通工程师或科学家可以使用的工具。这是我喜欢的挑战。

  您是如何获得资金的?

  BP:在头六个月里,我住在厨房里,而Gareth在晚上为Intellegens做工作。然后,我们从Innovate UK那里获得了一些资金,以使我们能够进行概念验证项目,另外还从Cambridge Enterprise和Graham(如Gareth所说)是当地的天使投资者那里获得了一些资金。我们也很幸运,因为我们可以在进行过程中运行顾问式项目来产生收入。

  您从事过哪些项目?

  GC:我们一直在努力设计新药。基本问题是,如果您向患者注射药物,哪些蛋白质会对其产生反应?药物会激活它们还是抑制它们?体内大约可以测试10,000种蛋白质,您可以测试大约一千万种药物,因此,如果您想象一个巨大的矩阵,其中每一列是不同的蛋白质,每一行是不同的药物,那么数据集的完成度仅为0.05%,因为无法对许多药物-蛋白质组合进行实验测试。这是最终的稀疏数据集。

神经网络从稀疏数据集中提取信息

  但是,我们确实了解每种药物和每种蛋白质的化学结构。那是一个完整的数据集。我们的目标是将完整的化学知识数据集与稀疏的蛋白质活性数据集结合起来,并使用它来预测蛋白质的活性。我们可以利用蛋白质与蛋白质的相关性以及蛋白质与药物化学结构的相关性来做到这一点。这与我们用于3D打印的材料非常相似,其中可焊性是一个完整的数据集,而3D可打印性是一个稀疏的数据集。

  该业务现在已进入许可机器学习作为产品的阶段。对于药物发现,Alchemite是通过Optibrium销售的,并且Big Pharma已经对其进行了热情的收购。对于材料发现,Intellegens正在向客户直接授权全栈解决方案,并且现在已经完成了第一笔销售。

  BP:我们也在与从事基础设施工作的人们交谈,试图了解在维护桥梁或设备等方面的差距。例如,在运输网络中,您可能有也可能没有网络中特定点的有关因素的数据,例如天气,地理,拓扑,道路组成和行人使用情况,因此最终将获得非常大的稀疏数据集。我们也在进行患者分析,试图根据稀疏的历史患者数据集预测最佳治疗方案。同样,我们可能会或可能不会为所有患者提供相同的数据,但是我们拥有多个数据点,并且尝试从所有数据点中学习,我们似乎在建议可能的治疗途径方面具有优势。

  我想指出的是,目前在人工智能和深度学习方面有很多炒作,这对我们来说是一把双刃剑。它引起了我们的极大兴趣,但是我们拥有一个特殊的,甚至可能是独一无二的,由学术驱动的工具集,它可以以新的方式解决问题,有时可能会因基于AI的语音识别或图像识别而变得迷茫。

  您的技术有何不同?

  主要区别在于我们从不完整数据中训练模型的能力。训练AI或神经网络的常用方法需要大量高质量的训练数据才能为未来的预测提供良好的模型。相比之下,我们算法的驱动力在于,我们没有足够的数据供AI学习相关性并自行建立模型。我认为这是我们的独特卖点。每个人都在谈论“大数据”,有时您会听到人们对此抱怨–“哦,我有大数据,我有太多数据要处理。”但是,当您认真研究特定用例并以某种方式查看它,您意识到实际上,他们的问题是他们没有足够的数据,而他们永远都不会。到那时,我们可以说,鉴于您没有足够的数据,我们可以使用我们的技术从您拥有的数据中学习,

  您从创办Intellegens中学到的最令人惊讶的事情是什么?

  BP:这是我第一次与学者紧密合作,这很有趣(很好)。我以前在软件初创公司工作过,所以我习惯于与熟悉商业软件的工具和流程的经验丰富的软件人员打交道。在源代码控制,发布管理和文档方面,学术软件有时需要更多的技巧才能使其成为商业上稳定的产品。这听起来可能很无聊,但是如果您要销售产品并提供支持,它就变得至关重要。

  GC:得知合同的签订过程在很大程度上取决于口口相传,我感到很惊讶。我在会议上进行演讲,之后有潜在的客户来找我,然后一位客户向我们介绍下一位,就像垫脚石一样。

  我也没有完全理解人们可能想与我们这样的公司打交道的不同原因。有些人确实想引进最新技术,以使其公司具有竞争优势。其他人则希望与使用最前沿的技术相关联。有些人对与企业家合作很感兴趣,因为他们个人想买进一家小公司的冒险和兴奋。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。转载请注明seohttp://www.swlxs.com