Ilya与黄老板关于ChatGPT的对话观后感

Nvidia官方博客链接:AI Opener: OpenAI’s Sutskever in Conversation With Jensen Huang
有公众号翻译了整场对话 黄仁勋对话 ChatGPT 之父:改变世界的 AI 是如何诞生的

Part 1:缘起

Ilya 称对他神经网络的关注起源于对人类心智如何产生的好奇。回想起我本科的时候受一本书《复杂》的影响,对强化学习和复杂网络产生了兴趣,隐隐也觉得复杂网络的涌现现象是通往解释人类意识的正确途径。当时受限于眼界和天赋,认为是复杂网络的结构而非规模更为重要,又因没有什么合适的数学工具进行研究,所以只能在PRL和PNAS里那些带一点概率统计和图论的文章里徘徊,遂失兴趣。再回过头来看本科毕业时糊弄的复杂网络毕业论文就感觉很羞愧。

Part 2:信念

黄总问Ilya为什么当时坚信神经网络方法能成功,Ily说他有一个很坚实的证据,就是人脑的存在已经证明了这条路能够成功——当我们已经有了神经网络中的神经元,那接下来的工作就应该是把规模给堆上去。从这个角度Ilya也很自然地解释了他们为什么开发AlexNet。虽然现在回过头去看,AlexNet已经成为人类攀爬人工智能科技顶峰过程中甩在身后的小土丘,可对当时的人而言,开发和训练AlexNet的运算规模就如同现在的ChatGPT那样庞大和不可想象。理解了Ilya和同伴克服艰难险阻去开发AlexNet的努力,也就很自然能理解当下他为什么在ChatGPT中坚持把神经网络的规模再次推到新的高峰,并最终催动了新的智能革命。十年前,十年后,这是一个孤胆英雄对最初信念的坚持。

谈话到这时,黄老板眼中似乎闪过了一丝泪光,他问Ilya:“所以这就是我们相遇的起点,是吗?”——是啊,亲身经历了过去十年神经网络领域的波澜壮阔和突飞猛进,回过头来望向最初的起点,这改变人类社会进程的火花竟是发生在实验室不起眼的角落、一块朋友带过来的显卡上。如果茨威格《人类群星闪耀时》能够再版,相信他一定会将那一刻写进最新的篇章里。

Part 3:洞察

Ilya对无监督学习的直觉是它本质是在压缩数据,而为了做到最好,就要去发掘和利用数据中隐藏的结构信息——这就是智能。听到此处我感觉简直就是美剧《硅谷》大结局的现实版!Ilya说这一想法起源于一项早期的实验。当时他们用LSTM预测亚马逊评论,实验显示当模型训练得足够好时,它也能够预测评论者的情绪。这预示着模型在试图理解语言文字背后更深层次的结构。而在ChatGPT的预训练中,用于训练的信息量是如此之庞大,可以看成是我们整个社会的一个映射,所以在模型越来越精准地预测下一个词的时候,也意味着它学到了一个分辨率越来越高的世界。

Part 4:未来

Reliability(可靠性)是ChatGPT大规模应用的最大障碍。要让ChatGPT能够更好地为人提供帮助、促进社会的进步,就必须对错误、有害和有偏见的输出进行纠正。在InstructGPT的论文中也可以看到,OpenAI的作者们花了很大的篇幅来阐述如何去对齐(align),甚至都讨论到了是否应该以一个温和的独裁者身份出现,以避免未经充分净化的高智能模型被滥用。当然现在的alignment仍然粗糙,避免不了被机智的网友找到漏洞,所以其安全性还有长足提高空间。

Multimodality(多模态)对GPT-4的训练非常有用。ChatGPT训练中用了万亿级别的词,从而能够在从没见过一张图的情况下知道红色比蓝色更接近橙色。但现实是人一生中大概能听到10亿数量的词,这对训练一个ChatGPT来说相当不够用。那为什么人能够从少量词汇中学到这些?因为人是视觉动物,大量的信息是通过视觉得到的。在未正式发布的实验记录中显示,多模态为GPT-4带来了长足改善。期待在不远的将来,具备更强多模态能力的GPT-5能够大杀四方。