柏舟 06-29
虽然在之前的推荐《安克创新访谈》,谈大模型的未来和应用谈过大语言模型的未来,但是我想从自己的观察和思考说说我的想法。
LLM现状
首先谈谈我对大语言模型(LLM)现状的观察,对于LLM研发最重要的三个部分:语料、计算芯片和模型及配套技术,这三个部分一个都不可少,这就导致目前只有头部科技企业才有相应的技术实力独立研发LLM,高校想要真正接触全流程是不可能的事情。即使这样,我也能明显的感觉到相比于2023年底,ChatGPT3刚出的时候,模型的性能有非常明显的提升,只是这个过程随着语料的限制提升的速度会越来越缓慢。
可以发现不到两年的时间,单纯扩展模型的规模已经是不可持续的了,现在LLM发展的重心是各个流程的优化,从模型本身的各种数据清洗,增强,通过自我对话生成数据,以及一些思维链和强化学习增强技术来改善模型的正确性和生成质量。我将这一波创新简单归纳如下:
- 大语言的兴起得益于两个技术:第一个是Self-Attension模块和decoder模型结构。它不同于以往的任何结构(卷积和循环神经网络等),它计算的是下一个Token,并且模型参数能够达到千亿的级别。
- 接下来的LLM本身的发展将聚焦于强化学习,自组织、自生成的方法,通过自我迭代的方式优化模型本身。
LLM衍生技术现状
除此之外,还有LLM相关的应用技术,我发现RAG的推进比我想象中快很多。以ChatGPT为例,它会将你的每段对话浓缩成一个index向量,当你提出一个新问题的时候,也会生成一个index向量,然后通过一个简单的内积算法比较相似度,将相似度较高的对话输入到上下文中,生成一个更符合上下文的回答。简单来说,就是它有一个外挂的知识库,当提新的问题时能够对知识库进行匹配,将知识加入到上下文中增强回答。我能够明显的感觉到ChatGPT的上下文能力更强了,对话长度可以无限增加,并且一些跳跃的问题也能良好的回答。
另一个技术是Agent,最近在用Cursor写代码的时候,我只需要简单的提出需求,AI就以及能够根据我的需求搜索我的代码库,生成主要步骤,最后输出所需的代码。这让我非常震惊,因为任务本身比较模糊,模型需要对任务进行正确的分解,还要查看已有的代码,在完成复杂步骤的同时还要保证正确率是一个巨大的工程挑战。而生成的代码只需要简单的修改就可以跑通,多么不可思议。我知道这确实是面向未来的编程范式,只需要简单的描述需求,就可以自动的完成所有步骤,只是我没有想到未来来得这么快。
最后一个技术是ChatGPT的图生成。前几个月看b站视频,发现ChatGPT可以根据需求生成论文中的说明图了,如果大家看过nature这些期刊的图,就知道像生物、地理这些学科制作的示意图是非常精美的,而且通常需要花好几万外包才能搞定。但是现在只需要使用ChatGPT,描述需求就能够生成质量非常高的示意图,并且还能够输入参考图模仿风格。这让我不得不感叹学术写作的门槛下降的速度非常快,如果还不能掌握AI工具,改进创新点探索、代码开发到论文写作流程,在未来的科研中将完全失去竞争力。
终极的大语言模型
在之前的《安克创新访谈》中也提到,未来的大语言模型是自我进化的,但是一个终极的大语言模型拥有哪些特点?
我认为最突出的特点是探索真理,反映真理。LLM的发展应该与AlphaGo高度类似,AlphaGo在初期也是学习人类棋谱,然后通过自我博弈生成棋谱数据继续训练,但之后有一个重要的范式突破,那就是AlphaZero,它不再依靠任何人类知识,只定义围棋规则,通过自我博弈生成终极AI。同样的,LLM目前还只处于第一阶段,现在迟迟没有进入第二阶段的原因很简单,人类并不了解这个世界,无法定义规则。好消息是这是一个快速发展的领域,比如早在2022的文章:A Path Towards Autonomous Machine Intelligence,近期还有Science发表的文章:鲸歌语言理解Whale song shows language-like statistical structure,以及最近6月16日华为天才少年课题中也有了世界模型。目前已经有很多前沿的工作认识到人工智能究竟应该怎样探索世界,理解语言和未知。
可见,世界模型是终极LLM的关键。那么世界模型的难点是什么?我们的基础科学发展为何如此困难?下面是我的一些简单的思考,回到那个经典的问题,人的极限、人的衍生物的极限以及语言的极限是什么?语言哲学认为语言本身不是精准的,这导致人的认知被语言所限制。所以对于终极的LLM,我认为以目前基于人类语言的方式是完全满足不了需求的,如果存在一个超越人的机器,那么只有抛弃语言才能超越人的框架。 对于终极的LLM,语言和世界就是一体的,修正语言就是修正对世界的理解,就像数学不是任何其它的东西,就是对自然的刻画一样。
结语
有的时候不得不感慨这个世界发展的太快了,从ChatGPT 3发布到现在已经有Agent产品,不到2年时间,全部铺开只是时间问题。至于奇点降临的问题,我认为世界模型的攻克并不是一件很简单的事情,但是谁又说得清呢?