OpenAI联合创始人：ChatGPT-4的推理能力还未达到预期

2023-03-28 11:12 来源：中国电子报许子皓、沈丛整理

3月23日凌晨，英伟达创始人兼CEO黄仁勋与OpenAI联合创始人兼首席科学家伊尔亚·苏茨克维针对ChatGPT进行了深入探讨。伊尔亚·苏茨克维指出，与之前的版本相比，ChatGPT-4最大的提升在于更强大的神经网络功能，它能通过逻辑推理对未来进行预测。但ChatGPT-4目前的推理能力还没有达到预期水平，如果能进一步扩大数据库，保持目前的商业运转模型，其推理能力将会得到进一步提升。

黄仁勋认为，ChatGPT是AI界的“iPhone时刻”，但这一时刻的到来并非一蹴而就。

黄仁勋：ChatGPT和OpenAI是否已经打破了过去计算机编辑图像的模式？

伊尔亚·苏茨克维：我认为ChatGPT和OpenAI不是打破了计算机图像的编辑，而是在用另外一种处理方式。大部分人都是用传统的思维模式去处理数据集，但是我们的处理方式更先进，是“超越式”的。曾经，我们也认为这是一件艰难的事情，甚至觉得几乎不可能完成，但如果我们能做好，就是让人类生活有了更大进步。

黄仁勋：扩大数据规模能够提高AI的表现能力，更多的数据、更大的数据集能够帮助生成式AI获得更好的结果。你觉得在GPT-1、GPT-2、GPT-3的演变过程中，是否符合这样的“摩尔定律”？

伊尔亚·苏茨克维：OpenAI的目标之一是解决扩大数据集的问题。刚开始面临的问题是如何提升数据的高精准度。因此，我们在做OpenAI的项目时，通过让它做一些策略性的游戏来提升精准度。作为一个AI模型，它需要不断重复基于人类反馈的强化学习过程。

我们的工作原理，就是通过不断培训神经网络体系，让神经网络去预测下一个单词。预测的单词和过去的单词之间，能够达成一定的逻辑上的一致。从神经网络来看，它更像是根据方方面面来得出一个结论。但我们的模型还没有达到这样的效果。人们的反馈很重要，越多的反馈能使AI更可靠。

黄仁勋：相较于以前的版本，GPT-4有哪些的升级？未来在哪些方面、哪些领域可能有更多的升级？

伊尔亚·苏茨克维：GPT-4基于ChatGPT的性能，做了很多改善。对GPT-4的训练大概是6～8个月之前开始，GPT-4与之前GPT版本最重要的区别是GPT-4有更强大的神经网络预测功能，能够更精确地去预测下一个单词是什么，意味着能够对人们说的话有更精准的理解。

这与人们此前常说的直觉有很大不同，GPT-4采用的是推理能力。比如，在一篇推理小说中，小说中有各种不同的人物和情节，有密室、有谜团，人们在读推理小说的过程中，完全不清楚接下来会发生什么。但是能通过小说中不同的人物和情节，来预测结局。GPT-4也是如此，能够像推理小说一样预测结果。

黄仁勋：语言模型是如何学习到推理和逻辑的？GPT-4现在有哪些缺陷，在后续的版本中将如何进一步完善？

伊尔亚·苏茨克维：虽然要想清楚语言模型的定义逻辑和推理并不容易，但是未来可通过将逻辑和推理定义得更精准，来获得更确切的答案。

神经网络是有一些缺陷，如果用神经网络去打破之前固有的思维模式，那么就需要考虑这个神经网络能够走多远的问题。

当前，神经网络依旧面临着一些挑战。比如，让神经网络去打破固有的思维模式，但这也就意味着人们要思考神经网络到底能走多远，也就是神经网络到底有多大潜力。目前GPT-4的推理能力确实还没有达到预期的水平，未来希望GPT-4的推理和逻辑能够达到更高的水平。未来如果能更进一步地扩大数据库，推理能力会进一步提高，我对此也很有信心。

黄仁勋：多模态学习如何能够加深GPT-4的理解能力？为什么多模态学习定义了ChatGPT和OpenAI？

伊尔亚·苏茨克维：多模态学习可以从两个维度来看：

第一，多模态在视觉和图像识别上特别有帮助。因为整个世界是由图片形成的，人们和其他动物都是视觉动物，人脑1/3的灰质都是用来处理图像的，GPT-4也能够去理解这些图像。

第二，随着人们对于世界认知的不断加深，通过图片或文字对世界的理解是一样的。他可能一生之中只会说10亿个单词，先通过计算人一生中有多少时间，以及1秒能处理多少个单词，再减去睡觉的时间，就能算出他一生处理了多少个单词。人和神经网络的不同之处在于，人如果无法理解10亿个单词，那么就可以用其他万亿级的单词来理解。对于AI神经网络而言，可以通过文本，将人们对于世界的认知和信息慢慢渗透给AI的神经网络。而外加视觉图片等其他元素，可以让神经网络更精准地进行学习。