截至2024年6月7日,黄佳写的新书《大模型应用开发 动手做AI Agent》(下称《动手做AI Agent》)已经连续18天位列京东人工智能图书榜第一名,在发行不到三周的时间里印刷了三次,累计发行超过8000册。
黄佳在新加坡科技研究局(Agency for Science, Technology and Reseach,下称“新加坡科研局”)担任主任科研工程师,这是新加坡最大的科研机构。黄佳的主攻方向为自然语言处理(NLP)预训练大模型应用、机器持续学习技术等。
在《动手做AI Agent》之前,黄佳已经写过多本技术图书,其中,《零基础学机器学习》《GPT图解 大模型是怎样构建的》两本AI领域的书籍发行量都超过13000册。
黄佳这一次选择AI Agent(人工智能智能体,下称“Agent”)作为写书题材。目前,Agent被视为大模型应用落地的重要途径,OpenAI(美国人工智能研究公司)、微软、字节跳动和百度等众多公司都在这方面做了布局和探索。
在黄佳看来,Agent以大模型为大脑,拥有思维能力,且通过工具和函数接口拥有执行能力。未来随着大语言模型、多模态学习等AI技术的进一步突破,Agent的能力将大幅跃升。它有望胜任更加复杂的认知和交互任务,为用户提供更加智能、个性化、沉浸式的服务。
但Agent的应用还处于起步阶段,在通用性、准确性、交互体验等方面还有很大提升空间。黄佳希望,《动手做AI Agent》能成为读者了解和探讨Agent技术的起点。
写书也是学习
2001年,黄佳从北京师范大学本科毕业,随后赴新加坡南洋理工大学就读硕士,从此在新加坡定居。硕士毕业后,黄佳有十几年的时间都在知名咨询公司埃森哲从事SAP(企业管理系列软件)系统的设计、二次开发和实施。
后来黄佳发现,很多企业客户慢慢地不满足于传统的供销存、财务、人力资源管理系统,而是希望在他们的系统中加入一些AI相关技术,以增加附加价值。这使得他的目光逐渐转向AI领域。
大约六年前,黄佳开始进入机器学习和AI领域,通过自学和参加课程积累到足够知识后,他离开埃森哲,加入了新加坡科研局,致力于研究如何将AI科技应用于企业和日常生活。
黄佳崇尚费曼学习法,在学习过程中,不仅想着自己学,还想着如何输出,这对内化知识非常有好处。
黄佳会详细记录下学习过程和遇到的难点、坑点,以及问题的解决方式。这为他的写作积累了素材。
除此之外,有读者告诉黄佳,从他的书里学习到了更系统性的知识,可以说是“既见树木,也见森林”,这些反馈都给了黄佳写书的动力。
从事SAP领域时,黄佳就有写书的爱好。投身AI行业后,这一坚持仍未改变。他的效率也不慢,虽然只在工作之余写作,但通常一本新书半年到一年就能够写完。大模型时代,黄佳也会使用AI协助处理文字工作,这提高了他的效率。
创作思路
《动手做AI Agent》在众多技术图书中表现优秀,目前市面上还没有同类型书籍。负责出版这本书的人民邮电出版社编辑秦健说,从实际销量、技术的先进性、渠道流量和作者知名度等多个方面评判,这本书已经达到畅销书标准。
从结构看,《动手做AI Agent》主要包含三部分:第一是从技术和工具层面阐释Agent设计的框架、功能和方法;第二是通过自动化办公的实现、推理与行动的协同、知识的提取与整合等7个实操项目,带领读者学习前沿的Agent实现技术;第三是介绍科研论文中Agent技术的进展,提供技术发展的全面视角。
在埃森哲做咨询服务和在新加坡科研局工作期间,黄佳接触了能源、物流、金融等各行业的公司,也了解许多企业的共性需求,这让他能选取更通用的实操项目。
例如,由于有大量文档和资料分布在各个网站、HR的抽屉等不同区域,许多企业都需要文件检索系统。对此,黄佳在《动手做AI Agent》中加入了使用Llama Index数据框架,实现检索增强生成Agent的实操案例。
过去,黄佳写的一系列SAP技术著作只是讲解技术,显得很干瘪。2020年,在写《零基础学机器学习》时,黄佳受到了一本以漫画风形式呈现的技术图书的启发,开始在创作中引入采用图画和对话等形式,以求兼顾技术性和可读性。
具体而言,黄佳在书里会添加一位老师咖哥和两位学生小冰、小雪。通过对话和答疑解惑的方式,咖哥会讲解机器学习、GPT(生成式预训练模型)和Agent等概念。在黄佳看来,这种形式能让读者更轻松地了解书中的知识。
本硕毕业于北京大学的汪杨,正在筹备设立一家智能体产品公司脑仁智能,是Agent领域的创业者。在看完《动手做AI Agent》后,他觉得这本书深入浅出地讲解了Agent技术,可以算是目前市面上把相关技术理论和框架讲得最清楚的书。不过,由于篇幅所限,有的地方还不够丰富,例如书中提到的几个工具都只是讲了一些框架和案例,读者真正要自行开发的时候,还需要阅读一些文档和参考资料才可以。
还稍显不足的是,有读者指出,调用OpenAI的API(应用程序编程接口)有难度,《动手做AI Agent》作为面向国内的书籍,应该以国内大模型来完善一些示例。黄佳说,这是很好的建议,目前国内大模型行业风起云涌,厂商的大模型能力也越来越强,未来会补充加入这部分内容。
Agent还在起步阶段
新加坡科研局一直倡导在纯科研项目的同时,加强与企业的合作项目。近两年,由于大模型的爆火,越来越多的企业与新加坡科研局沟通,希望能将大模型能力嵌入到企业工作和产品的各方面。由此,新加坡科研局和企业合作的AI应用落地项目比重增加了不少。
在受邀回中国参加一些论坛和会议的过程中,黄佳也观察到,因为有足够的人才、市场和体量去进行各种探索,国内AI应用落地的进展较快。
Agent被中金研究认为是连接大模型和现实世界的“最后一公里”。根据黄佳讲解的Agent构建流程,开发者需要先为Agent设计提示词,使Agent能够拥有这样一种“思维方式”:在执行任务时,先分成几个子任务,然后按部就班地执行每个子任务。这种系统化的提示词配置,使得用户可以通过Agent更清晰明确地调用大模型能力。接着开发者需要为Agent配备一系列的工具和函数,这将使Agent不仅能说话、输出文字,也能帮助用户执行具体操作。
目前,Agent已经开始在客服、助手、问答、任务引导等领域得到应用,例如OpenAI的Assistants(助手)、微软的AI助手MicroSoft Copliot和字节的Coze助手等。一些企业也开发了行业定制的Agent,服务于特定场景。
5月30日,在2024百度移动生态万象大会上,百度集团资深副总裁、百度移动生态事业群组总经理何俊杰曾说,基于强大的基础模型,智能体可以批量生成,应用在各种各样的场景。文心智能体平台已有超16万名开发者和超5万家企业入驻,上面既有文案专家、读书专家、企业培训执行专员这样由个人开发的小而美的智能体,也有OPPO公司、新加坡旅游局这类企业、机构开发的智能体。
不过,总体而言,Agent技术还处于起步阶段。
黄佳称,Agent开发目前还没有统一的规范和开发生态,不像开发APP(应用程序)那样简单,APP开发有统一的平台,比如苹果操作系统iOS和安卓操作系统Android,开发者可以在这些平台上构建和发布应用。另外,Agent需要嵌入到每一个具体的场景中解决实际问题,这些问题通常具有独特的上下文和需求。不同的应用场景下,用户的需求和期望是不同的。
商业模式方面,黄佳说,Agent技术尚未带来公认已经落地的、颠覆性的商业应用模式。国家也还需要发布一系列规范,不能让Agent可以随便做任何事。这种结构性的变化会更进一步方便我们的生活,但需要漫长的过程。
在技术上,大模型仍存在准确性的问题。黄佳说,大模型本质上是一个智能体,而不是我们熟知的逻辑计算。因此,我们只能参考它返回的结果,而不能将其作为最终决策的依据。他举例,银行、医疗等领域都需要零出错,即使准确率高达99.9%也不行,这是目前大模型落地应用的一个致命问题。