苹果Siri的AI突破：从语音助手变成智能体

2024年6月11日，苹果（AAPL. NASDAQ）在线上举行的2024苹果全球开发者大会上发布了全新升级的人工智能（AI）助手Siri。苹果公司首席执行官蒂姆·库克在会上宣称，新版Siri不仅可以执行任务、理解上下文，还可以调用App并与其深度交互。

根据苹果发布会，新版Siri的文本转语音功能经过改进，使得其声音听起来更自然、更接近人类的语音；新版Siri将具备“屏幕感知”功能，能够理解用户正在浏览的内容，并针对相关App提供操作建议；此外，新版Siri能够更深入地与第三方App集成，执行如打开应用、控制媒体播放等操作。

在对Siri的AI功能进行升级之外，苹果还宣布与OpenAI合作，将ChatGPT集成到其操作系统中，允许用户免费访问GPT-4o的某些功能，并为订阅用户提供更深入的个性化服务。

商汤科技（00020.HK）智能产业研究院院长田丰对记者称，新版Siri是人工智能演进到更高阶段——智能体的一个体现。田丰说，从技术上看，人工智能已经从单一的大语言模型迈向了多模态大模型，最终又演进到了智能体阶段。但是，光有智能体技术是不够的，还需要将技术嵌入到海量终端设备和App中以实现其功能。苹果与OpenAI等AI技术提供商合作，可以充分发挥苹果的海量用户和App生态优势。新版Siri在海量终端用户和大规模的第三方App的调用中，将发挥AI的更大应用潜力。

田丰说，当一个学会这几样技能的智能体被植入用户的手机里，用户无须再去搜索，甚至连App都不需要打开了。例如，智能体可以作为手机上的助手，帮助用户进行日常任务，如修改文档、生成报告、搜索信息等。例如，手机上的助手可以处理文本信息，并帮助用户在移动设备上完成任务，如修改文档或生成报告。

在田丰看来，智能体技术已经开始商业化并进入市场，很多家公司已经推出了智能体产品，这意味着用户可以更多地将这些技术视为助手或工具，而不是专业的术语。

清华大学计算机系副教授刘知远对经济观察网说：“技术上看，人工智能正迈入智能体时代。”

刘知远称，智能体代表了人工智能领域的一个新阶段，它们不仅能够处理和理解多种类型的数据，还能够在真实世界中执行复杂的任务，具备学习和自我改进的能力。智能体技术是大模型技术的演进成果，不仅继承了大模型的能力，还引入了更丰富的功能和更高的技术门槛。与大模型相比，智能体的技术更复杂，应用潜力也更大。

斯坦福大学计算机科学系教授吴恩达指出，智能体通过四大技能实现了这一飞跃：首先，反思（Reflection）允许智能体评估自身行为并进行调整，模仿了人类完成任务后的自我检查；其次，工具使用（Tool Use）使智能体能够利用搜索、计算等各种工具来辅助任务执行；再次，规划（Planning）能力让智能体能够将大任务细分并有序执行，类似于人类写作前的提纲准备；最后，多智能体协同（Multi-agent collaboration）使得智能体能在团队中协作，每个成员都有自己的角色和任务，共同寻找最佳解决方案。

吴恩达认为，这些技能的综合体现了智能体在模拟人类决策和行动方面的进步。

以OpenAI为首的诸多科技公司，正将智能体技术作为其核心战略。在2023年11月6日的OpenAI开发者大会上，OpenAI创始人Sam Altman强调了智能体及相关生态构建的重要性。

OpenAI于2023年3月14日发布了GPT-4，这是一款能够处理多模态输入的大型语言模型。GPT-4更新了All Tools功能，该功能允许模型在一个对话中调用多个工具完成复杂指令。

Sam Altman表示：“帮助用户和开发者更好地构建智能体并为其寻找商业模式已经成为OpenAI目前的重要工作。”例如，在GPTs应用商店内，OpenAI开放出技术让用户和开发者可以定制和商业化发布自己的智能体。

“如果大模型是发动机，智能体就是整辆车。”田丰认为，多模态大模型将不同的模态集成在一起，使得AI能够更全面地理解和响应用户的需求。智能体能够实现环境感知、任务分解、长期记忆和自我改进等复杂功能，可以调用多个软件工具或模型来完成复杂的任务。