2024云栖大会如期结束,AI大模型仍是今年大会的主角。
此次大会上,阿里云通义旗舰模型Qwen-Max再次升级,性能已接近GPT-4o。阿里云同时宣布,正以AI为中心,全面重构底层硬件、计算、存储、网络、数据库、大数据,打造一个AI时代的最强AI基建。
全面投入AI的背后,是阿里云深信生成式AI具有“逐渐渗透数字世界,接管数字世界,改变物理世界”的庞大想象空间。
当前,大模型在物理、化学和生物等多个学科的能力已接近博士水平。另一方面,大模型不仅具备持续可用性,还拥有在记忆、泛化上的举一反三能力,对复杂知识、数据的总结能力,以及在音视频等方面的多模态能力。
这使得大模型已经能在一定程度上帮助人类解决各种问题。目前,阿里云正与各方开展合作,让AI在各个行业场景中落地,其中不可或缺的一部分是,让大模型智能向善,赋能可持续发展、教育和科学研究,为国计民生谋求更多福祉。
在经济社会领域,由自然资源部信息中心与阿里云联合研发的后土大模型,正在赋能自然资源的数字化治理;在天文研究领域,基于通义打造的星语3.0天文大模型已接入望远镜集群,助力天文发现;在教育领域,高教社正在利用AI技术加速教育变革、推进教育公平......
加速向社会各行各业渗透的AI,于许多人“看不见”的地方,正在产生深远的影响和无法计算的价值。
“后土”量地
据了解,在自然资源部信息中心(下称“信息中心”)与阿里云的密切合作下,自然资源行业大模型后土已取得的初步进展包括:
构建自然资源行业大模型总体技术路线;开展自然资源行业知识收集和加工处理,采集自然资源基础知识、政策法规、标准规范等7大类、70多万份文档语料;组织自然资源行业大模型关键技术研发。
在研发富模态知识文档解析加工技术上,文字OCR(光学字符识别)、段落、表格、图片、公式等识别准确率超过90%。
基于Qwen系列通用大模型+RAG(检索增强生成)及微调,为大模型注入自然资源领域专业知识,共同打造自然资源行业大模型智能体。
信息中心副主任兼工程师吴洪涛在云栖大会上介绍,后土大模型的命名源于中国古神话中的神明“后土”,其职责就是自然资源管理和国土空间治理。
目前,后土大模型正计划落地在国土变更调查工作中。一直以来,这项工作对于全面及时准确掌握我国国土利用状况,保护耕地、节约集约用地,保护生态环境和国家粮食安全等都具有重要意义。
以农用地变更调查场景为例,在外调查时,调研人员可使用基于后土大模型开发的AI工具对目标地块进行拍摄,大模型能精准识别农用地占地面积、用地类型等信息,辅助工作人员作业,避免多拍、错拍和漏拍。
在核查阶段,大模型会根据已有实地拍摄图片识别地类和属性,自动输出核查结论,辅助工作人员提升核查准确度和效率。
以人为本的大模型,正在将人从繁琐、重复的工作中解脱出来。据悉,未来后土大模型也将在耕地、园地、林地、草地、商服用地等其他地类调查工作中应用,助力自然资源可持续发展。
吴洪涛还提到,过去一年以来,信息中心也在探索后土大模型在空间规划和用途管制、资源保护、地质灾害防治等场景的应用,“大模型基础底座和应用场景的双向奔赴”,将“全面支撑自然资源数字化治理能力的提升,来回答自然资源数字化治理过程中的必答题”。
望向天空的大模型
测量大地的同时,AI大模型也在望向天空。
今年4月,中国科学院国家天文台人工智能工作组发布了新一代天文大模型星语3.0,这是大模型在天文观测领域的首次应用。
星语3.0基于阿里云通义千问开源模型打造,当前已成功接入国家天文台兴隆观测站望远镜阵列Mini司天,可实现自主控制望远镜进行观测、分析观测结果,智能地给出下一步观测建议。
天文望远镜是人类探索宇宙的“照相机”。相比单体望远镜,大型望远镜阵列能更有效地整合高性能望远镜资源,成本更低,观测效率更高。但随着望远镜数量的不断增加,如何控制大型望远镜阵列已成为当今天文界共同面临的挑战。
过去,天文观测主要依赖观测助手和科研人员的配合,科研人员常常需要根据观测所在地气象情况修改观测计划,在观测室等待数据返回并实时分析数据,再根据结果修改观测计划。重要观测目标的每个环节都需要人工参与,效率低且难以同时控制多个望远镜。
星语3.0尝试解决这一难题。依托阿里云通义千问底模和百炼平台,星语3.0基于超30万专家订正数据完成训练,在天文物理等专业能力上表现突出。
在观测星体时,星语3.0首先会查询某星体的坐标信息,反馈给观测人员;当得到确认后,星语3.0将按照观测人员输入的计划进行自动观测;单次曝光完成后,大模型将回收并处理数据,根据结果判断目标源的观测价值,推荐接下来的观测计划。
相比以往,星语3.0自主完成了天文观测中一些原本需要人力完成的任务,提高了天文观测的效率,让研究者能够回归到天文研究上。
除了辅助天文观测,国家天文台还与阿里云合作开发了国际首个太阳垂直Sora模型,可用来探测耀斑,以及用于磁场、演化实时分割等相关研究。
另一方面,大模型在海量数据处理方面的能力也被天文领域所需要。据中国科学院国家天文台研究员罗阿理表示,天文观测的数据量增加非常快,现在每天会产生几十TB数据,未来10年,天文领域的数据总量会从PB走向EB的量级。为了更好地挖掘这些天文数据,国家天文台在2016年就和阿里云签署了战略合作协议。
罗阿理透露,在没有大数据和机器学习等方法之前,天文领域每年新增的全球成果大概是1000多个,有了这些新的工具、数据和方法后,每年新增成果已经翻倍。
未来,星语大模型将接入国家天文台大型望远镜阵列司天(Mini司天即为司天的一部分),这是我国天文学家面向时域天文学提出的国家级重大天文基础设施项目,项目预期至2030年米级望远镜数量达到72架,每晚产生约140TB处理后数据,成为全球巡天效率最高的项目。
AI的“有教无类
2500年前,思想家、教育家孔子提出了他理想的教育——“有教无类”“因材施教”,前者讲的是教育普惠,后者则希望进一步实现个性化教育。而大模型的出现,正逐渐推动着这种理想教育成为现实。
当前,我国城乡和地区之间的教育资源分布不平衡,教育质量存在很大差异。如何应用先进技术,推动优质教育资源的共建共享是推进教育公平的重要任务。
高等教育出版社(下称“高教社”)社长刘超在云栖大会上提到,过去高教社在教育公平1.0的实践是,通过信息技术赋能教育资源的普及,实现优质教育资源的共享。
据了解,高教社已建成了全世界最大的在线开放课程平台爱课程、最大的职业教育数字教学资源共享平台和在线教学服务平台智慧职教等教育资源平台。高教社各教学平台的一亿多用户,可以通过一根网线直接连通名校名师的课堂,共享优质资源。
进入到新的时代,刘超认为,人才培养正以知识为重转向以能力培养为重,人们对于自主性学习、个性化学习和终身学习的现实需求日渐强烈。自然语言模型能实现对话式学习,在教育领域具有无限的潜力和广泛的前景。他深信,教育公平的2.0一定是有人工智能赋能的教育的公平。
基于这一思想,高教社正基于阿里云通义千问等大模型打造AI底座。其中高教社拥有70年来积累的4500TB的高质量教育语料,包括优质的教材文本、丰富的多模态资源、习题题库等,阿里云的通义大模型性能则位于国产大模型前列。
此前,高教社与阿里云、浙江大学等已联合发布了基于通义千问7B(70亿参数)模型训练的“智海-三乐”教育垂直大模型,并应用于14所高校的101计划核心课程《人工智能引论》教学课堂。据悉,该模型可为相关课程提供智能化、个性化学习,服务人才培养。
在刘超看来,理想的教育大模型需要集成四个特点:更正确的答案,分布式的输出,情绪的提供和资源的推荐。
其中,分布式的输出被称为是苏格拉底式的启发式教学,刘超说,浙江大学吴飞教授的团队今年特意在苏格拉底式的教学智能体的研发下做了大量的工作,让AI能把一个复杂的问题拆解成若干相关简单的问题,分布式地问给学生,这样才能够启发学生真正掌握学习的逻辑和推理过程。
不同的学生往往即使上同一年级,在学习的进展上也不一样,对知识点的掌握程度也不一致,而具有记忆、泛化能力的大模型,能够做到“千人千面”,推动个性化学习的实现,让教育真正走向“有教无类”。
无法计算的价值
不只是上述领域,一直以来,阿里云坚持开源大模型,作为千行百业应用开发的基础,通义之上已长出AI应用的“热带雨林”。
截至2024年9月中旬,通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数超过5万个,成为仅次于Llama的世界级模型群。
2024云栖大会上,阿里云CTO周靖人最新发布了通义千问新一代开源模型Qwen2.5,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。
基于成为“AI时代最开放的云”的愿景,阿里云希望用AI技术赋能社会可持续发展,正如阿里云副总裁、中国可持续发展研究会理事刘湘雯所言,人工智能和云计算相结合,从数字世界进入到物理世界,将为整个社会带来无法计算的价值。
中国可持续发展研究会理事长李萌认为,人工智能赋能可持续发展,将成为推进经济社会绿色转型的关键支撑。作为新兴技术力量,人工智能在中国助力资源优化、提升效率,推动产业转型、环境保护、消除贫困、教育公平,以及加速实现可持续发展的目标中将发挥不可替代的作用。