这是一场预料中的交锋。有人认为,算法是大数据时代的事情,AI时代不需要监管算法;有人认为,算法需要一直被监管,因为它是数字时代的机器之心。
11月23日,北京大学中关新园科学报告厅内。一场算法治理的主题论坛正在举行。与会者包括政府官员,腾讯、美团等公司的代表,以及国内多家知名高校研究算法的专家。
这些观点的激烈碰撞,很容易让人们想起三天前的一次“炮轰”。11月20日,农夫山泉董事长钟睒睒公开指责平台在算法流量管理方面的不作为,导致了他本人和他的企业受到了无端攻击。
或许只是一个巧合。11月24日,一场针对网络平台算法典型问题的治理行动拉开了序幕,矛头直指同质化推送营造“信息茧房”、大数据“杀熟”、侵害新就业形态劳动者利益等现实问题。
这是清朗行动的一部分。此次整治可以说是自2021年9月《关于加强互联网信息服务算法综合治理的指导意见》(下称《指导意见》)发布之后,有关部门对平台算法的第一次全方位综合治理行动。
经济观察报记者就治理行动涉及的企业自查自纠安排询问抖音、快手、腾讯、京东、百度、阿里巴巴、拼多多、美团、携程、滴滴、小红书等互联网企业,截至发稿上述公司均未给予回应。
不过根据行动安排,有关部门将在明年1月检验企业自查情况,明年2月14日前完成专项行动实施成效总结,“全面评估《指导意见》印发以来的算法治理举措及取得的积极成效,深入分析难点问题,制定今后一段时期的务实举措”。
上述《指导意见》明确提出,利用三年左右时间,逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局。
“清朗行动”这次不一样
这并非清朗行动第一次指向平台算法。
2021年,清朗行动提出了“算法滥用治理”,指导互联网平台优化信息过滤、排名、推荐机制,要求开展算法安全技术检查和技术评估。2022年的清朗行动,聚焦于督促重点互联网企业平台整改算法不合理应用带来的“信息茧房”“算法歧视”等问题。
2023年12月,清朗行动将重点放在了“整治短视频信息内容导向不良问题”,要求集中整治短视频中的摆拍、技术生成等虚假信息,以及色情、低俗等博流量,煽动粉丝情绪,误导消费者等问题。
多位接受经济观察报采访的专家表示,“算法乱象”严重影响了用户体验和社会信任,现在已经到了社会需要反思算法危害的时刻。
这一次,《关于开展“清朗·网络平台算法典型问题治理”专项行动的通知》,由中央网络安全和信息化委员会办公室秘书局、工业和信息化部办公厅、公安部办公厅、国家市场监督管理总局办公厅联合发布。《通知》明确,此次专项行动重点整治同质化推送营造“信息茧房”、违规操纵干预榜单炒作热点、盲目追求利益侵害新就业形态劳动者权益、利用算法实施大数据“杀熟”、算法向上向善服务缺失侵害用户合法权益等重点问题。
清华大学人工智能国际治理研究院战略与宏观研究项目主任刘典认为,相较于过去的措施,这次的清朗行动治理目标更加明确、更多部门参与、治理手段更多样,这些变化表明,政府正在尝试构建一套更加系统、全面的算法治理体系,而非依赖于单一的短期行动。
普通中国人对算法的认识是一个逐步深化的过程。2018年,“大数据杀熟”评为2018年度社会生活类十大流行语之一。2020年,一篇《外卖骑手,困在系统里》几乎让算法成为千夫所指,在这个过程中,对算法的治理也一步步纳入监管视线。
2021年9月,国家互联网信息办公室等9部门印发《关于加强互联网信息服务算法综合治理的指导意见》,提出“利用三年左右时间,逐步建立治理机制健全、监管体系完善、算法生态规范的算法安全综合治理格局”。2022年3月,《互联网信息服务算法推荐管理规定》正式实施。《规定》明确,应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息,并明确了算法推荐服务向上向善的原则。
这与相关法律一起构成了算法治理的顶层设计。回到现实,和三年前相比,算法已经深度嵌入了社会生活的方方面面。
北京大学数字治理研究中心主任邱泽奇,自2000年起关注算法治理,他告诉经济观察报,公众如今对各类算法应用都有了自己的体验,已经深刻意识到信息茧房、算法偏见、算法歧视等问题,对算法的认知水平有了整体性提高。
谈及此次专项行动,邱泽奇说:“这次列出的治理要点更清晰了,他们把哪一些算法会导致什么后果都点出来了”。
神秘的算法
算法只是一系列解决问题的计算方式,背后反映的是平台目标。算法工程师按照平台的指令,敲下一行行代码,组成了看不见、摸不着,却又影响每个人的算法。
算法工程师隶属的算法部门,往往是互联网公司的核心技术部门。“少而精”是这个部门最大的特点,一个算法团队的标配是算法大牛——毕业于国内外顶级名校、手握多篇顶会论文、在业界与学界声望显著,带领几个同样履历耀眼的新人。
他们往往拿着全公司最高的收入,应届生起薪总包在40万—50万元,甚至更高,资深算法工程师年薪在数百万元。算法工程师在大厂更容易出成绩,因为严重依赖数据和算力资源。
李璋就是一线大厂的一位算法工程师。他表示,算法并不像外界理解的那样是彻底的“黑箱”,一般都会发表论文公开原理。
在多位算法工程师看来,真正的黑箱不在算法原理之中,而在数据与平台机制设置之中。用户量越大、数据越多、平台机制向利益倾斜,便带来了“算法乱象”。
李璋举例,“信息茧房”“诱导沉迷”“操纵榜单”都与推荐算法关联,最终能被看到的内容或商品,都是由算法精心计算过的,最根本的是要读懂用户的心。”
“读心”需要对用户海量的个人数据、行为数据等进行筛选,这些散落在网络世界不同角落的痕迹,被收集到各个数据库中,成为算法的最底层训练支撑。
比如将网购记录、浏览记录、在线下门店里的消费记录等个人数据,或者点赞、划走等行为数据投喂给算法,就能得到“量身定制”的推荐内容。
李璋这样的算法工程师,最重要的工作是“调参”,每天面对成千上万的参数,需要写代码让算法自动去测试哪些更能激发用户的点赞、转发、完播等反馈。
从李璋接受的指令来看,算法最终指向提高用户参与度,这是平台赚钱的基础,他的任务是驱使算法找到更能调动用户活跃、维持平台留存的方案。
视频数据分析平台百准创始人潘越飞分享了一个案例。
10年前,他带领算法团队做过一个类似今日头条的内容推荐平台,花了3年时间,把用户量从0做到了千万级。当时,他们的算法将用户日均使用时长做到32分钟,一度只比今日头条差3分钟,这个项目最终被字节跳动收购。
他说:“算法的效率让人惊喜,一个算法工程师能做到几百个编辑完成不了的工作。”在一次AB测试里,他把顶级编辑选择的内容与算法推荐的内容同时推送给用户进行对比,结果算法推荐的内容在点击率、活跃时长和停留时长上均超人工推荐3倍。
潘越飞为算法设置了点赞率、互动率、停留率、分享率等指标要求,这与互联网上大多APP的根本目的相似,都是为了让更多人互动,增加消耗时间,带来更多广告位与商业价值。
潘越飞和工程师研发了上百个不同导向、不同训练目标、不同干预规则的算法模型,最后被大规模使用、被字节跳动购买的是那个符合平台商业价值效率的模型。该模型的用户活跃度最高,广告流量价值更大。
失控时刻
算法由工程师创造,但算法也会失控。
几年前,潘越飞已经隐隐感觉到“自己控制不住算法了”。他说,算法推荐的内容质量并不令他满意,尤其是一个合作伙伴当着他的面打开平台,体育栏目推荐的头条是某个足球明星女友的裸露写真,这让他觉得很丢脸。
潘越飞曾为一条“蟒蛇吞噬了房子”的假新闻头疼了十几天。那是一张合成照片,打开正文就知道是假新闻,这条在他看来“无聊”的内容一下冲到平台热搜榜第一名。他换了各种维度调试算法,但这张图片永远是第一名。最终没有办法,他只能手动删掉了图片。
他解释,用户没见过蟒蛇吞噬房子的事件,所以打开率很高。图片内容很短,所以完读率很高。用户看完后觉得被骗了,于是在评论区开骂,带来高互动率。互动完用户觉得这个平台太垃圾了,向身边朋友吐槽,于是这条新闻分享率也很高。
打开率、完读率、互动率、分享率都是算法评价内容是否值得推荐的权重,重重加持下,这条假新闻被推荐的次数越来越多。“算法有数学逻辑,但它没有心,没有人类的共识,没有情绪和价值观。”潘越飞说,算法只是兢兢业业地完成它的工作,它的量化指标只有数据。
他曾耗费极大精力和算法对抗,试图让算法减少推荐类似内容,但结论是,做不到。他并不想刻意调动用户的愤怒情绪,甚至无法准确得知哪批内容会被推送给哪群人,但算法就是会自然而然朝着那个他不希望的方向去走。
他试过精选内容,或增加权威媒体内容的权重,以保证平台内容质量的提升。但结果是,整个平台的用户时长大幅度下降了。这就违背了公司运营商业平台的初衷,于是只好再往回调,减少与算法的对抗。
算法工程师的背面则是依赖平台赚钱、生存的人。
冯彬是一个影视博主,全网粉丝超过100万,他经历过算法带来的“爆火时刻”,他发布的作品在1小时内冲上抖音、百度、B站热榜。在流量的爆发时刻,冯彬的后台消息全是999+,视频被弹幕刷屏,各种电话在几周内密集涌来。
但冯彬依旧不敢说自己摸到了流量的门道。对他来说,平台就像有一只看不见的大手,掌握着生杀大权。
唯一一条实践的经验是,他在短视频平台测试出,猎奇类的片子容易涨流量,比如志怪传说、神鬼内容,有时候打上一个聊斋的标签,即便内容和聊斋一点关系都没有,也可能会火。尽管很多同行这么做博取流量,冯彬并不认同这种行为。
多位算法工程师表示,在公司内部,算法并不是没有价值观,也有一些原则,比如说违法乱纪的内容肯定不能推荐,用户问如何去杀人,如何做炸弹等话题,必然不会得到答案,这由合规、安全和算法团队配合进行处理。
但在一些灰色地带,比如说猎奇的电影、恐怖电影,像电锯惊魂,对一部分用户也有价值,一些平台认为不应该干涉太多。“像这类灰色地带的事情,人类都无法做出评判的事情,那算法就更不可能做到。”一位算法工程师表示。
在邱泽奇看来,算法自己不会作恶,问题出在数据和算法之间的匹配性上。他解释,算法使用的数据始终是有偏的。当算法应用数据时,便会复刻现实社会的结构,甚至放大现实社会的问题。
善恶一念
邱泽奇曾与微信创始人张小龙长谈,提及微信的广告植入克制一事,加深了他对算法带来社会后果机制的认识。
同一时间,邱泽奇也与网约车平台有接触。当时正好遇到网约车乘客死亡事件,他提了一个建议,设置一键报警系统。后来他发现,网约车平台的改进比他想象的好很多了,增加了如录音、一键报警、紧急联系人等功能,做得越来越完善。
这让邱泽奇感觉到,如果掌握技术的人能够把社会的良心和社会共识的诉求植入到产品中,便是数字技术的向善,也是算法为人。至少,他可以做得相对克制一点,让大家感受更好一点。
他强调:“一家得到社会广泛认可的技术公司,通常会选择在让大多数人获益的同时,从大多数人那里获益,而不是简单地竭泽而渔。”
西南大学国家治理学院讲师毕文芬曾在重庆、贵州、云南地区调研从事电商直播的农村妇女。她告诉经济观察报,许多人都提到“电商直播难做了”。
在2020年左右,一些文化水平较低的农村妇女,在直播电商平台带货还能赚到钱,当时经过一些基础的培训,学会挂小黄车、上链接等,就能在直播上吸引到卖家。
有人靠着带货在县城买了170平方米的大平层,有人把兰花、银饰等当地特色产品销往全国,也有人会从中获得一些打赏,改善生活,从田间走到直播间。
但是这两年来,平台越来越向粉丝量大、懂得投流、会运营的人倾斜。直播间里要有“气氛担当”宣传造势、要有话术刺激观看者下单、要表演才艺、要建立矩阵账号吸引流量……
这些没有团队支持的农村妇女没有钱投流,也不懂运营,只会讲解产品,有时连被平台罚款、封号都不知道,也没有渠道申诉,要回账号。
毕文芬观察到,限流和罚款给这些农村妇女主播带来了经济和心理的冲击,很多人会觉得是自己播的时间不够长、不够努力,而不会认识到平台规则变了,要么延长直播时间,要么回到务农工作里。
毕文芬认为,平台前期也曾为当地女性提供了新的发展机遇,但当平台的导向改变,驱使算法盲目追求利益,实际也侵害这些弱势群体的劳动者权益。
如何建立长效机制
根据上述《通知》,此次专项综合治理分为三个阶段,即企业自查自纠、属地核验企业自查情况以及治理成效评估总结。有关部门将在明年1月检验企业自查情况,明年2月14日前完成专项行动实施成效总结,“全面评估《指导意见》印发以来的算法治理举措及取得的积极成效,深入分析难点问题,制定今后一段时期的务实举措”。
经济观察报记者就《通知》中提及的企业自查自纠安排询问抖音、快手、腾讯、京东、百度、阿里巴巴、拼多多、美团、携程、滴滴、小红书等互联网企业,截至发稿日上述公司均未给予回应。
此次清朗行动涉及算法问题较多是内容平台,邱泽奇认为这与平台的成熟度有关,百度、阿里巴巴、腾讯、滴滴、美团都曾经历过舆论的风暴口,内容平台还没有经历过舆论的风暴口,这次是这类平台历史上的第一次。
他表示,比如关于虚假信息的问题,以钟睒睒事件为例,内容平台是可以有作为空间的,比如对事实类内容,如果未经核实,可以让算法在内容里打上平台提示,如:此内容未经核实,请注意辨别。对于未经核实的事实类内容,平台有提示的责任和义务。
工信部信息通信经济专家委员会委员刘兴亮熟悉多个互联网大公司。他认为,对监管部门的要求,大公司并不会反对,他们也意识到这是个问题,应该得到治理。否则,如果让算法长久跑偏,最后受害的是整个行业。
刘兴亮认为,算法问题依旧在互联网平台泛滥,其根本原因在于,算法具有很强的隐蔽性,很难界定某些后果是由算法直接导致的,它不像其他色情或暴力等问题,有明确先例可循。对这次监管部门的治理,他抱着乐观期待的态度,但同时认为,一次治理并不能真正解决问题,他相信还会有下一次、下下次专项治理的清朗行动。
事实上,本次清朗行动,也特别提到对算法治理“建立长效机制”,要求常态化开展算法服务安全风险监测防范工作,及时发现网站平台违规问题线索,并综合运用督促整改、现场检查、处置处罚等措施,提升算法常态化治理水平。
监管要求与平台需求天生会有矛盾。有专家将其形容为“瓷器屋里捉老鼠”,无论监管部门或是平台自身,都会有投鼠忌器的顾虑。消除算法偏见与平台商业利益之间也存在天然的矛盾。
刘典认为,算法治理是个慢慢来的过程,需要一步步完善。对算法进行监管确实会给平台带来一些成本,比如技术升级和合规成本。但从长远来看,这有利于营造健康的网络环境,促进平台的可持续发展。具体来说,应要求平台加强内容审核,确保算法推荐的健康性和多样性;公开算法的基本原理和主要运行机制,提高透明度;建立用户反馈机制,及时调整优化算法;避免过度采集个人数据,保护用户隐私。“治理是有代价的,代价也会由关联平台来承担。”邱泽奇说,平台治理已经到了治理质量再上台阶的阶段。如果平台能主动看到问题并解决问题,平台的发展也会再上台阶。
(应受访者要求,李璋为化名)