访谈:Ilya | 2023年11月长篇访谈
转载自:天空之城城主公众号 源地址:https://mp.weixin.qq.com/s/7uowRd_V0Ze54VBbuMmynQ
前言:
今日,OpenAI大神,联合创始人兼首席科学家Ilya的最新访谈视频发布。这是很久以来Ilya再次出来做了长篇访谈,和之前一些短暂露面里的惜字如金不同,Ilya在这个访谈里干货满满,涉及了AI研究的最新进展以及OpenAI的策略等等。
以下是城主摘的部分Highlight:
- 神经网络的训练过程几乎可以看作是求解神经方程,其中每个数据点都是一个方程,每个参数都是一个变量。
- OpenAI从一开始的目标就是确保通用人工智能,即能够真正完成人类所做的大部分工作、活动和任务的人工智能,造福全人类。OpenAI的目标并没有随着时间的推移而演变,战术却随着时间的推移而演变。
- 在某些时候,我们意识到如果你训练一个大型神经网络,一个非常非常大的Transformer来越来越好地预测文本,就会发生一些非常令人惊讶的事情。这个认识也是一点点慢慢到来的。
- 对我个人而言,最大的觉醒时刻是从GPT-2过渡到GPT-3,这一步骤中的功能和能力的提升是巨大的。
- 我想也许最令人惊讶的是,最令人惊讶的是,如果我必须选择一个,那就是当我与之交谈时, 我感到被理解了。
- 我们有一些自上而下的想法,我们认为应该可行,但我们并不能 100% 确定。所以我们需要有好的自上而下的想法。在这些自上而下的想法的指导下,也有很多自下而上的探索。它们的结合告诉我们下一步该做什么。
- 事情正在发生的(最)重大变化无疑是这些模型变得越来越可靠。可靠性的意思是当你提出的问题并不比模型成功解决的其他问题难多少时,你就非常有信心它将继续取得成功。
- 7B,13B等规模的模型研究并不是浪费,大模型会比小模型更好,但并非所有应用程序都能证明大模型的成本是合理的。
- 完成一些大型而复杂的任务的模型如果是开源的,它们将产生难以预测的后果。
- 总有一天,你会拥有可以自主进行科学研究的模型,比如构建、交付大型科学项目。至于这种能力的模型是否应该开源就变得更加复杂。
- 我们有人工神经元、生物神经元、生物智能的统一大脑架构、人工智能的统一神经网络架构。那么,我们应该何时开始将这些系统视为数字生活呢?我认为,当这些系统变得可靠且高度自治时,这种情况就会发生。
- 我们将拥有比人类聪明得多的计算机、数据中心,这似乎一点也不令人难以置信。我所说的“更聪明”并不是指拥有更多的记忆力或拥有更多的知识,而是指对我们正在研究和研究的同一主题有更深入的了解。这意味着比人学得更快。
- 我希望任何这种超级智能的实例都能对人类产生温暖的感情。这就是我们正在做的超级对齐项目。亲和人类社会的人工智能,这是我们的目标。
以下是本次Ilya访谈的天空之城文字整理版
主持人:
OpenAI,这是一家我们现在都熟知的公司,然而一年前,它 只有100名员工,却正在改变世界。他们的研究正在引领通用人工智能的发展。自去年11月ChatGPT吸引了消费者的关注以来,他们的发展势头并未有任何放缓的迹象。本周,我们有幸与OpenAI的联合创始人兼首席科学家Ilya Sutskever进行了深入的交谈,我们讨论了人工智能研究的现状、我们将在哪些方面达到极限、通用人工智能的未来,以及如何实现超级一致性。
伊利亚,欢迎来到播客。
非常高兴来到这里。
Ilya自己在深度学习领域的研究经历
主持人:
我们从最初的深度学习开始讨论。在AlexNet出现之前,深度学习中没有任何东西真正有效。然后考虑到当时的环境,你们下了一个非常独特的赌注。是什么促使你朝这个方向发展?
Ilya:
在那个黑暗时代,人工智能并不是一个人们抱有希望的领域,人们根本不习惯任何形式的成功。由于没有取得任何成功,因此引发了很多争论,不同的思想流派对机器学习和人工智能应该如何发展有不同的争论。有人热衷于老式人工智能的知识表示。有些人是贝叶斯主义者,他们喜欢贝叶斯非参数方法。有人喜欢图形模型,有人喜欢神经网络。这些人被边缘化,因为神经网络不具备无法证明关于他们的数学定理的特性。如果你不能证明某件事的定理,那就意味着你的研究不好。
但是,我从一开始就被神经网络所吸引,因为我觉得这些都是小大脑,谁在乎你是否能证明关于它们的任何定理,因为我们正在训练 小大脑,也许它们会变成,也许它们有一天会做某事。
我们之所以能够做到AlexNet,是两三个因素的结合。第一个因素是,这是在GPU开始用于机器学习之后不久。人们有一种直觉,认为这是一件好事,但当时人们并不像今天那样确切地知道GPU的用途。他们想,让我们玩一下那些又酷又快的计算机,看看我们能用它们做什么。它特别适合神经网络。所以这绝对对他们有帮助。
**我非常幸运,因为意识到神经网络的原因是因为它们太小了。**就像如果你尝试用神经网络解决视觉任务一样,它有大约一千个神经元,它能做什么?它什么也做不了。你的学习有多好以及其他一切并不重要。但如果你有一个更大的神经网络,它将做出前所未有的事情。
主持人:
是什么让你有这样的直觉?
我认为当时认为尽管你的观点是这样的,但很多人脑在某种意义上都是以这种方式或不同的生物神经回路工作的,这是相当逆向的。但我只是很好奇,是什么让你很早就有直觉认为这是一个好的方向?
Ilya:
看看大脑,特别是那里,如果你喜欢的话,所有这些事情都会很容易发生。如果你允许自己,如果你现在允许自己接受这个想法,那么这个想法就会被很好地接受。
当时人们还在谈论它,但他们还没有真正接受它或内化这样的想法:也许人工神经元在某种意义上与生物神经元没有什么不同。所以现在无论你想象动物用大脑做什么,你也许都可以组装一些。类似大小的人工神经网络。也许如果你训练它,它也会做类似的事情。所以这就导致了这一点。
这会让你开始想象,好吧,就像想象神经网络正在完成的计算一样。你几乎可以想象,如果你有一张高分辨率图像,并且你有一个神经元来处理一大组像素, 那么神经元能做什么?如果你有很多神经元,那么它们实际上可以做一些事情并计算一些东西。因此,我认为这是一种基于深思熟虑的观点和技术实现的结合。
技术实现的关键在于,如果你有一个大型训练集来指导神经网络的行为,且训练集足够大,那么你就能有效地约束大型神经网络。此外,如果你找到了训练神经网络的算法,那么我们所做的就是将训练集转化为满足训练集要求的神经网络。**神经网络的训练过程几乎可以看作是求解神经方程,其中每个数据点都是一个方程,每个参数都是一个变量。**因此,这是一个多方面的问题。我们需要意识到,更大的神经网络可以实现一些前所未有的功能。
如果你有一个大型数据集和计算能力来求解神经方程,那么这就是梯度下降,但它并不仅仅是梯度下降。梯度下降的方法已经存在很长时间了,关键在于如何运用一些技术见解来使其发挥作用。因为在过去,人们普遍认为,你无法训练这些神经网络,这是一种绝望的情况。所以这不仅仅是尺寸的问题。即使有人确实认为训练一个大型神经网络会很酷,他们也没有技术能力将这个想法变成现实。你不仅需要对神经网络进行编码,还需要正确地完成许多其他事情,只有这样,它才会起作用。
另一个幸运的事情是我与Alex Krizhevsky一起工作,他非常喜欢GPU,并且可能是第一个真正掌握为GPU编写高性能代码的人之一。这就是为什么我们能够从两个GPU中提取出大量的性能,做出一些前所未有的成果。
总的来说,这是一个复杂的过程。一个大型神经网络,特别是一个具有多层的卷积神经网络,比我们以前做过的任何事情都要大,可以做出一些前所未有的事情。因为大脑本身就是一个巨大的神经网络,我们可以快速地看到 事物,所以我们的神经元没有太多的时间。然后,我们需要计算和技术知识,实际上我们可以训练这样的神经网络。但这并没有广泛传播,大多数机器学习领域的人无法训练这样的神经网络,即使他们愿意。
主持人:
从尺寸的角度来看,你们有什么特定的目标吗?或者,这是否是受生物学启发的,或者这个数字来自哪里,或者是我们能达到的最大目标?
Ilya:
(目标)绝对是我们能做到的最大规模,因为请记住,我们有一定数量的计算资源,我们可以有用地使用这些资源,然后看看它能做什么。
OpenAI研究目标和思路的演变
主持人:
如果我们像思考OpenAI的起源和组织目标一样,最初的目标是什么?随着时间的推移,这个目标是如何演变的?
Ilya:
目标并没有随着时间的推移而演变,战术却随着时间的推移而演变。
因此,**OpenAI从一开始的目标就是确保通用人工智能(我们指的是自主系统),即能够真正完成人类所做的大部分工作、活动和任务的人工智能,造福全人类。**这就是从一开始的目标。最初的想法是,也许最好的方法就是开源大量技术。后来我们也尝试将其作为非营利组织来做,这似乎非常明智。这就是目标。非营利组织就是这样做的方法。
那么,发生了什么变化呢?在OpenAI的某个时刻,我们意识到,而且我们可能是最早意识到要在人工智能领域取得真正进展的人之一,你需要大量的计算。现在很多意味着什么?正如现在所清楚看到的那样,对计算的需求确实是无穷无尽的,但我们意识到我们需要很多。非营利组织不是实现这一目标的途径,也无法与非营利组织一起建立一个大型集群。
这就是我们的目标,我们转变为这种不寻常的结构,称为CapProfit。据我所知,我们是世界上唯一一家CapProfit公司,但我们的想法就是这样。投资者投入了一些资金,但即使公司表现出色,他们也只能在原始投资的基础上获得一定的乘数。原因和合理性在于,我们正在开发的技术,人工通用智能(AGI),可能具备完成人类所有任务的能力。
这引发了一个争议性的问题:这是否意味着所有人都可能因此失业?我不能确定,但这并非不可能。如果这是真的,那么这种观点就有其合理性。如果开发这种技术的公司不能无限创造利润,而是以创造无限利润为激励,那么这种观点就更有意义。然而,我并不确定在人工智能的竞争环境下,事情是否真的会这样发展。这可能会导致多家公司的出现,这对我所提出的观点可能会产生一些不可预见的影响,但这仍然是我的看法。
主持人:
我记得在Y Combinator等地方,我曾经参观过办公室,甚至在那里共享过一些空间。当时有一系列不同的努力正在进行,包括正在被操纵的机械臂,以及一些与视频游戏相关的工作,这些都是最前沿的技术。那么,研究议程的演变以及推动其沿着基于Transformer模型和其他形式学习的道路发展的因素是如何看待的呢?
Ilya:
自从我们创立OpenAI以来,我们的想法一直在演变。
在创立的第一年,我们做了一些相对传统的机器学习工作。我之所以称之为传统,是因为世界已经发生了巨大的变化,许多在2016年或2017年大家都知道的事情已经完全被遗忘。那个时 代几乎就像石器时代一样。在那个时代,机器学习的世界看起来非常不同,它更加学术化,目标、价值观和目的也更加学术化。他们的目标是发现少量知识并与其他研究人员分享,最终获得科学认可。这是一个非常有效的目标,也是非常容易理解的。我从事人工智能已经20年了,我花在人工智能上的时间有一半以上都花在这个框架上。
然而,我意识到这并不是产生巨大影响的方法。因为如果你想象AGI应该是什么样子,它一定是某种使用大量计算的大型工程项目,对吗?即使你不知道如何构建它,你也知道这是你想要努力实现的理想。因此,你希望以某种方式转向更大的项目,而不是小项目。因此,当我们尝试第一个大型项目时,我们训练了一个神经网络来玩实时策略游戏以及最好的人类游戏。这是Dota 2项目,由Jakub Pachocki和Greg Brockman两个人推动。他们成功地推动了这个项目。这是我们第一次尝试大型项目。但这对我们来说并不是完全正确的公式,因为神经网络有点太小了。这只是一个狭窄的领域,只是一个游戏。
我们一直在寻找。**在某些时候,我们意识到,嘿,如果你训练一个大型神经网络,一个非常非常大的Transformer来越来越好地预测文本,就会发生一些非常令人惊讶的事情。这个认识也是一点点慢慢到来的。**我们正在探索生成模型。我们正在探索有关下一个单词预测的想法。这些想法也与压缩有关。我们正在探索它们。
Transformer出来了。我们真的很兴奋。我们当时想,这是最伟大的事情。我们现在要做Transformer。它显然比之前的任何东西都要优越。我们开始做Transformer。我们做了GPT-1。GPT-1开始显示出非常有趣的生命迹象。这导致我们开发了GPT-2。然后最终是GPT-3。GPT-3的出现确实令许多人大为震惊,这 项技术的吸引力无疑是巨大的。目前,每个人都在尝试一个特定的公式,即在越来越多的数据上训练一个越来越大的Transformer。
**对我个人而言,最大的觉醒时刻是从GPT-2过渡到GPT-3,这一步骤中的功能和能力的提升是巨大的。**然后,OpenAI发布了一些非常有趣的文章,围绕着不同的知识领域、专业领域、思想链或模型,研究了一些可以突然以紧急形式完成的其他事情。
随着时间的推移,这些模型中的突发行为对我来说最令人惊讶的是什么?这个问题很难回答,因为我离它太近了,我已经看到了它每一步的进展。尽管我很愿意,但我发现很难回答这个问题。如果我必须选择一个,**我想对我来说最令人惊讶的事情可能是整个事情完全有效。**这很难。我不确定我知道如何表达我在这里的想法,因为如果你看到很多神经网络做了令人惊奇的事情,那么,显然神经网络是有效的。但多年来我亲眼目睹了神经网络根本不起作用的世界是什么样子。然后将其与我们今天的情况进行对比,事实是他们在工作并且做了这些令人惊奇的事情。我想也许最令人惊讶的是,最令人惊讶的是,如果我必须选择一个,那就是当我与之交谈时,我感到被理解了。
主持人:
有一句非常好的说法,我正在努力记住,也许是亚瑟·克拉克或一位科幻作家,这实际上是说,先进技术有时是这样。和魔法没有区别。
Ilya:
我完全赞同这个观点。现在确实感觉其中一些模型有一些神奇的时刻。