训练AI的方式从根本上有缺陷？

2020-11-30 15:25

机器学习模型在实验室中调整和调整到近乎完美的性能，但在现实环境中往往会失败，这已经不是什么秘密了。这通常被归结为人工智能接受训练和测试的数据与它在现实中遇到的数据不匹配，这个问题被称为数据转移。例如，经过训练，能够在高质量的医学图像中发现疾病迹象的人工智能，将难以识别繁忙的诊所中廉价相机捕捉到的模糊或裁剪的图像。

现在，谷歌的7个不同团队的40名研究人员发现了机器学习模型常见失败的另一个主要原因。这被称为“不规范”，它可能是一个比数据转移更大的问题。领导这项研究的Alex D‘amour说：“我们对机器学习模型的要求比我们目前的方法所能保证的要多。”

D’amour最初的调查如同滚雪球般滚来滚去，数十名谷歌研究人员最终着眼于一系列不同的人工智能应用，从图像识别到自然语言处理（NLP）再到疾病预测。他们发现，不规范的要求是所有这些项目表现不佳的原因。问题在于机器学习模型的训练和测试方式，没有简单的解决办法。

粗略地说，建立一个机器学习模型需要在大量的例子上训练它，然后在一堆它还没有见过的类似的例子上测试它。当模型通过测试时，就完成了。

谷歌的研究人员指出，这个标准太低了。训练过程可以产生许多不同的全部通过测试的模型，但是这些模型会有一些小差异，取决于诸如在培训开始之前随机值的神经网络中的节点、训练数据、被选中或者代表的方式、培训运行的数量等等。如果这些微小的、随机的差异不影响模型在测试中的表现，它们通常会被忽视。但事实证明，在现实世界中，它们会导致巨大的表现差异。

换句话说，如今用来构建大多数机器学习模型的过程无法区分哪些模型在现实世界中可行，哪些模型不可行。

为了解决这一问题，一种选择是在培训和测试过程中设计一个额外的阶段，在这个阶段中可以同时生产多个模型，而不是只生产一个。然后，这些相互竞争的模型可以在具体的现实任务中再次进行测试，以选择最适合这项工作的模型。

那需要做很多工作。苏黎世联邦理工学院的机器学习研究员Yannic Kilcher说，但是对于像谷歌这样建造和部署大型模型的公司来说，这样做是值得的。谷歌可以提供50种不同版本的NLP模型，应用程序开发人员可以选择最适合他们的一个，他说。

D ‘Amour和他的同事们还没有解决这个问题，但正在探索改进培训过程的方法。他表示：“我们需要更好地明确我们对模型的要求。”“因为最终的结果往往是，我们只是在模型在实际应用中失败之后才发现这些要求。”

如果人工智能想要在实验室之外产生和在实验室内部一样大的影响，那么进行修复是至关重要的。在谷歌从事医疗人工智能领域工作的合著者凯瑟琳海勒（Katherine Heller）表示，当人工智能在现实世界中表现不佳时，人们就不太愿意使用它了：“在杀手级应用方面，我们已经失去了很多信任，这是我们希望重新获得的重要信任。”