大语言模型LLM 在文字生成领域取得不错的成就,如利用LLM写文章跟知识类回答。但将大语言模型作为大脑,去构造智能代理的探索最令人激动不已。因为一旦路径走通,意味着通用人工智能之路技术路线已经走通,接下来实现跟完善只是时间问题。目前社区涌现一系列尝试,如AutoGPT,GPT-Engineer 跟BabyAGI,但是这些探索都不成熟,没法实用化。
但是这些探索为下步AI的演进提供了方向,这个可能是未来研究的重点跟热点。目前这些AGENT都是参考人的思考与执行的方式,先对任务进行做计划执行,将大任务拆分成小任务,然后再去行动,行动得到环境反馈之后,进行反思和完善,再去执行。一步步模仿人类思考与行动。大语言模型可以使用工具,人类也通过使用工具解决很多问题。
如上图所示 在 LLM 支持的智能代理系统中,LLM 充当智能代理的大脑,并由几个关键组件进行补充:
1.规划
子目标和分解:智能代理将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。
反思和完善:智能代理可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。
2.记忆
短期记忆:所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。
长期记忆:这为智能代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索。
3.工具使用
智能代理学习调用外部 API 来获取外部信息(通常在预训练后很难更改),包括当前信息、代码执行能力、对专有信息源的访问等。通过调外部API,就可以使用一系列工具。
社区在规划,记忆,工具使用这些方向做了不少研究工作。其中一篇论文Chain of Hindsight 工作让人深刻,大概原理就是将所有类型的反馈转换为句子,然后利用对句子对模型进行微调,这个流程跟人类学习过程非常类似,人类面临新知识,也需要不断练习,拿到环境的反馈,从而提高自己。
感觉我们离通用人工智能的路不远了,既让人感觉到兴奋,也感到一丝害怕,可能在十年内就可以见证通用人工智能的诞生。