当前位置:

  1. 首页
  2. 理论专题
  3. 探索争鸣

与其让人类自证“我不是AI”,不如测评AI本身是否科学——AI检测争议背后的关键议题

信息时间:2025-06-05

作者:

阅读次数:

字号大小:


从算法解释到系统测评

——人工智能法治的信息工具变革

苏宇 | 中国人民公安大学法学院教授

本文原载《探索与争鸣》2025年第3期


在人工智能法律治理的制度工具库中,算法解释曾一度位于焦点位置。然而,生成式人工智能兴起后,算法解释在算法治理中的作用日益面临各种不确定性。与此同时,针对生成式人工智能基础模型和领域模型的测评活动已如火如荼,各式各样的测评报告对大模型进行了多维度、多视角的描绘和对比。尽管系统测评已经广泛开展,但迄今为止,系统测评仍未真正进入人工智能法治和算法治理的视野,行业内的繁荣与法治视角中的冷落形成鲜明对比。


大模型的兴起是人工智能发展史上的一场影响深远的变革,它既改变了人工智能技术的发展倾向和市场结构,也对治理工具选择和机制设计提出了新的要求。通过对算法解释与算法测评这两项治理工具的对比,本文主张,人工智能法治和算法治理的焦点应当从“解释”适时转向“测评”。算法解释尽管仍然可以在算法治理中发挥巨大的积极作用,但在大模型时代不免面临诸多难以克服的局限,也难以满足日益丰富的、多向度的算法治理需求;而系统测评凭借更全面的功能和更充分的弹性,在未来的人工智能治理中将发挥举足轻重的作用。法律需要充分关注如何将系统测评从自发的市场行为塑造为一种制度化的治理工具,进而纳入算法治理的制度工具箱并使之在法治轨道内运行。强调系统测评的作用并非为了替代算法解释,二者可以并行不悖,系统测评可以吸纳算法解释作为其重要部分而使之更充分发挥作用,从而为人工智能法治构筑“新支柱”。


算法解释的原理与局限

算法解释曾被算法治理研究者寄予厚望,在算法治理的既有研究中,有关算法解释(请求)权、算法透明、算法解释制度等主题的研究一度呈井喷态势,人工智能学界也曾将可解释人工智能和算法解释技术作为重要的研究方向。算法解释技术方案的持续丰富和优化,为打开“算法黑箱”提供了强有力的工具,并已开始在某项制度实践场景中发挥积极作用。然而,随着大模型的迅猛发展,受到成本与效率约束的算法解释开始力有不逮,其作为治理工具的局限性逐渐凸显。


(一)算法解释的基本原理

算法解释以“黑箱型”算法的存在和应用为前提,以深度学习为代表的人工智能算法判断或决策建基于相关性而非因果性,而输入与输出之间的相关性又具有较强的非线性特征,使决策逻辑模糊化,因此当机器学习算法兴起后,“算法黑箱”的问题才真正被提出,而算法解释的需求也随之出现。在机器学习算法中,深度学习的“黑箱”特征尤为突出。深度学习的核心是用神经网络或类似机制的复合堆叠逼近各种函数和映射,本质上是用复合简单函数来逼近复杂函数(学习目标),这些单元连续函数的复合形态呈现出典型的“黑箱”特征,脱离了人类的常规分析思路和决策逻辑。算法解释就是为人类建立一套可以理解算法模型的概念、意义和结构,以符合人类思维的认知图式反过来“再逼近”算法模型在某一时刻所呈现的状态,从而对算法模型的运行建立一定预期的活动。


算法解释的实现原理,通常是以人类可理解的认知图式表达模型中“输入—输出”间的复杂关系。在各式各样的解释机制中,衡量精确、原理扎实者,首推各类归因解释。学界已将主流归因算法统一到泰勒交互体系(Taylor Interactions)中,并且形成了归因解释可靠性的评价标准,筛选出多种满足整套评价标准的解释方法。数理上也已经证明,对于任意一个输入样本,因果图都可以精确地模拟深度神经网络在所有遮蔽样本上的输出,这保证了因果图可以编码与深度神经网络相同的逻辑。既然如此,对深度学习的算法模型进行“输出—输入”间的归因就是可靠的,而归因是人类能够理解的一种关系模式。即使在不易获得归因解释时,解释者也可以通过提供其他有价值的信息以促进人类主体的理解。此种有价值的信息既包括可量化的相关关系、近似的因果关系、部分条件下可被精确计算的局部因果关系,部分解释方法已经较为成形,已能满足一定场合下的算法解释需要。虽然这些解释尚不能在严格意义上归属于满足所有可靠性标准的归因解释,但已经可以为司法裁判所使用。因此,尽管算法解释的数理基础仍未完全建立,但已经可以支撑判别式人工智能的算法解释和算法透明度需求。


然而,迄今为止,尽管算法解释的技术方案已经相当丰富,但是在法律及治理层面的实用价值仍然比较有限。这是因为算法解释的技术体系刚刚开始走向成熟,就迎面遇上了大模型时代,算法解释的应用局限随之暴露出来。


(二)算法解释的应用局限

大模型时代,算法解释的应用局限体现在计算量、随机性和理解力三个方面,这些局限并非绝对不能克服,但其成本与效率等的考量将使算法解释在某些场景中难以具备可行性。


第一,计算量局限。大模型的归因解释需要非常大的计算量,此种计算量在许多算法解释场景中将为履行解释义务的主体带来沉重负担。以可靠归因解释方法中的集成梯度(Integrated Gradients)方法为例,据笔者估计,一个仅包含约1.4亿参数的典型VGG-16卷积神经网络,以此种方法进行一次归因解释就需要消耗约1012Flops级别的算力。对于模型复杂度和参数规模远超VGG-16的各类大模型而言,消耗的算力成本将使许多企业难以负担,尤其在指定的较短解释时限的情况下更是如此。如果是运用Shapley Value等满足所有算法解释可靠性标准的归因算法对大模型进行解释,需要的计算量负担将更重。


算法解释技术的发展相当迅速。通过近似估计、局部计算、优化算法等方式,可以根据解释需求策略性地降低计算负担,从而提供人类需要的解释。然而,所有降低计算负担的策略都可能一定程度上损失解释的可靠性与精确性。不仅如此,计算量的负担也使大模型的算法解释难以被有效验证与审查,因为对算法解释的有效验证与审查又需要额外的计算量,完成这些计算不仅意味着占用大量算力资源,也考验用户、第三方机构、监管部门和司法机关的操作能力。


第二,随机性局限。大模型的随机性不仅源自其内部的随机初始化和训练过程,还包括为生成多样化输出而设计的随机生成策略。这种随机性会对算法解释造成一定影响。例如,模型中的多重随机性机制可能掩盖或扭曲模型决策过程中的潜在偏见,并对本能清晰识别这些偏见的解释造成干扰,从而使得偏见难以被系统地检测和衡量。当然,存在调整模型温度和采样策略、去除随机性机制等排除随机性影响的手段,但这样处理后的解释结果与模型的实际表现显然不一致,而这对于某些限制调整随机性的域外闭源模型、必须依赖随机生成策略的扩散模型,以及精调方法中包含随机过程的后训练模型,也不完全适用。在随机性机制的影响下,尽管算法解释有时依然在理论上可以被提供,但许多原理解释对于个案并不具有现实意义,因为这种解释无法被特定用户验证,也很难仅针对个案而为监管部门或第三方机构检验,为后续救济和问责带来了困难。


第三,理解力局限。即使解释者能够克服计算量和随机性带来的挑战,成功生成算法解释,人类的理解力依然是一个不容忽视的瓶颈。随着模型规模的扩张和结构复杂度的提升,算法解释的复杂性也在增长。如果按照社会学上的“常人方法论”(Ethnomethodology)刻画一般人的平均认知水准,进而实际描述基于人类思维方式的理解空间,则这一理解空间可能实际容纳的复杂度和认知规模非常有限,难以承载某些算法解释。多种算法解释方法最终都选择了以类似于多项式的权重或影响因子(包含一定区间)的表示方式,并不是因为此种表示方式最接近于模型的运行机理,而是因为此种表达方式更接近于拥有一定数理知识的人的思维范式。拓扑数据分析或博弈交互体系等数理工具对于理解某些模型的全盘或局部运行机理更为直观,但此类数理工具远离普通人的思维模式,对于是否能生成社会广泛接受的算法解释而言尚存疑问。人类常规思维的“最远端”与算法模型运行机理的“最浅解”之间,尚有不小的认知鸿沟。


上述三种局限显著制约了算法解释在大模型时代的作用。当然,算法解释仍然对于人工智能法治有显著的积极意义,在许多场景下也仍然能发挥实质性作用,但算法解释已难以在人工智能法治实践中全方位、高效率地发挥治理效能,而大模型时代的算法治理需求变化更进一步凸显了寻求算法治理新基点的必要性。


大模型时代算法治理的需求变化

大模型时代的算法治理需求已经悄然发生变化,单纯知悉模型的运行逻辑与影响因素已经不足以防范和治理数据与算法风险,用户、利害关系人乃至公众需要更直接地、全方位地了解模型的原理、性能和表现,各种测评由此应运而生。


(一)算法风险的全面扩张

直至生成式人工智能兴起前,法学界所密切关注的算法歧视、算法共谋、大数据杀熟等由判别式人工智能造成的风险可以较大程度上通过算法解释制度群防御和化解:算法透明度机制和算法解释请求权等可以启动不同程度和形式的算法解释与信息披露,从而揭示歧视、共谋和差异化定价在何种程度上存在。但是,生成对抗网络(GAN)开启的深度合成浪潮首先突破了算法解释制度群的治理能力边界,深度伪造的文本、图像、音频、视频等信息的传播本身无法通过算法解释制度群得到防范和治理,即便对于合法的深度合成技术应用而言,算法解释的作用也由于随机性局限和理解力局限而大打折扣;而用于检测深度伪造痕迹的各种算法模型和检测操作更需要在算法解释和算法透明以外获得更充分的制度保障。大模型的兴起使得算法风险进一步扩张到国家安全和社会生活的各个方面,此时,即便是仅仅试图了解大模型的风险及运行状况,算法解释制度群也日益无能为力,呼唤新的治理工具出场。


(二)模型安全的关切增强

算法安全正日益成为人工智能治理的重要目标,而模型安全问题在大模型时代更引人注目。算法模型是否存在被恶意利用以实施违法犯罪行为的漏洞和隐患,是否能够抵抗数据投毒、对抗样本、“越狱攻击”之类的恶意攻击,是否能够避免被外界推知原始训练数据,是否会被恶意利用以实施“信息轰炸”等,在生成式人工智能浪潮中日渐引起国家和社会的高度关注算法解释可以一定程度上助力外部主体了解算法模型的安全,但却不能独力表明模型在特定方面的安全程度与潜在缺陷。公众对算法安全状态与程度的知悉依赖对算法模型的全面分析与测试,此种分析与测试的方法和目标与算法解释在一定范围内有所交叠,但在更主要的环节和方法上大相径庭:各种对模型的“模拟攻击”并非算法解释所必须,但却是检测模型安全必不可少的手段。不仅如此,尽管全局、彻底的算法解释也有助于解决模型的安全隐患和漏洞,但也助长了算法安全风险。因为算法解释为原本处于黑箱状态的模型提供了大量的信息,依托这些信息,模型更有可能实现模型窃取或成员推理攻击,又或者针对性地实施旨在误导模型行为的攻击手段。不仅如此,如果法律规则和相关技术标准为某些人工智能模型设置了特定的风控或安全防护要求,也需要有一定的工具评判模型的风控措施是否存在及强度如何。因此,算法安全需求的高涨亦需要新型治理工具的广泛应用。


(三)关键性能的特殊需要

在大模型时代,用户对某些基础模型和领域模型有合理的特殊期待,这些特殊期待在人工智能治理中也需要被满足。例如,司法机关应用的法律模型特别关注回答准确率,着力避免“模型幻觉”的出现;专门用于对话和娱乐的模型则更倾向于优先保障响应率和响应速度;用于未成年人的生成式模型则注重生成内容与人类社会主流伦理体系的符合度。不同用途的模型在准确度、响应率、创造力、安全性、推理能力、程序编写能力、处理文本长度等多种性能目标上的选择有明显差异,国防、外交、治安、司法等领域的模型更可能有特殊严格的性能要求,因为这些性能关系到重要公共利益和重大责任划分。处理这些关键性能的特殊需要不能仅依赖契约和侵权行为法制,因为部分议题(如政府采购、紧急征用等)已进入公法领域,涉及超越模型供需双方的公共利益目标。对这些关键性能的特殊要求可以通过一定形式的技术标准乃至专门性法律规则来明确,避免对利害关系人合法权益和公共利益的大范围侵害风险。因此,对于特定范围内的人工智能模型,能够衡量模型是否满足关键性能需求的方法和工具将日益体现其治理价值。


(四)多维目标的综合考量

在大模型时代,人工智能的法律治理已不限于单纯的风险防控,而是需要综合考量兼顾发展与安全的多维目标,从风险规制走向“价值统合”。利害关系人的知情、理解、反歧视乃至风险防护在整个算法治理目标体系中仍然占有重要地位,但已远非全部。人工智能立法必须“高擎发展旗帜”,支持与激励人工智能技术和产业发展,这客观上要求有能够清晰评价人工智能技术和应用性能的工具,以确定技术发展的程度和制度激励的对象。测评基准在其中举足轻重,DeepSeek V3、R1即因在主流测评基准上获得高分才脱颖而出。不宁唯是,在算法治理的其他方面,如为特殊人群提供使用便利,确保生成内容符合基本伦理准则或伦理共识,为生成内容添加显式或隐式标识等,也都需要有类似的工具对模型的相关方面作出精准合理的评价,贯彻“伦理先行”的治理策略与科技伦理治理之要求。通过行业自律设定负责使用人工智能基准,推进合作动态治理,还有助于形成“强有力及可调适的规制集群”(potent and adaptable regulations),跟上人工智能快速发展的步伐。由此,多维目标的综合考量也要求应用具备综合评判能力、承载多维功能的治理工具。


上述各方面的需求基本上均需要通过对模型及其表现的深入观察与分析,向各方主体提供内容多综合又各有侧重的信息,其内涵和范围远超算法解释制度群所能提供的信息。系统测评由此亦日益受到实践的密切关注,人工智能法治建设中基础性制度工具的重心转换已是必要之举。通过系统测评,这一需求可以在相当程度上被“集合式”实现,从而为人工智能法治构筑新的关键支柱。


系统测评应用于算法治理的原理与挑战

系统测评是一项针对人工智能模型、应用或相关软硬件系统,依据事先确定的项目和基准开展测试与评估的综合性活动。在系统科学意义上,人工智能模型和应用也可以被视为某种“系统”,因而“系统测评”一词可以涵盖各种需要进行测试与评估的人工智能对象。尽管系统测评理论上能够满足各种各样的测评需求,针对性地评价人工智能模型或应用的状态与性能,但欲将其正式应用于算法治理乃至人工智能法治建设,仍然面临实质性的障碍。


(一)系统测评的主要内容

在大模型兴起以前,系统测评一般通过以下流程组织实施:(1)明确测评需求和目标;(2)确定测评依据,选择合适的测评方法与指标;(3)按照既定依据和基准,逐项测试系统相关状态或性能,输出测试结果,收集测试数据;(4)形成评估报告。如果涉及人工智能系统的学习能力(对于未接触过的数据表现如何),在(2)和(3)之间可能还需要插入若干关键步骤:准备用于测评的数据集、对数据进行预处理、令人工智能系统学习相关数据。对于人工智能模型而言,测评通常依赖一系列的基准(benchmark)。基准测试的设计涉及创建一组多样化的任务和数据集,这些任务和数据集旨在反映现实世界中的挑战。模型在这些基准数据集上运行并输出结果,测评系统据此返回一个代表模型能力的值;测评基准简繁不一,可由单一任务上的单一数据集构成,也可以将多个数据集聚合和重新组织而形成通用基准。系统的各项性能和状态一般由相应项目的测试得分表示,因此分值结构和计算标准是测评的核心问题。两项重要的前期工作决定了测评结果的准确性、有效性和说服力:一是选择合适的测评方法和指标,这涉及非常丰富和关键的细节,如各类任务的比例或权重设定,是否得分的具体评判标准等;二是测评前的数据处理工作,如对一定范围内的专门模型将测评用数据集划分为训练集、验证集和测试集,对通用模型采取检验和防止测评数据污染的措施等。上述基础性流程与关键工作对于大模型的测评亦适用。


然而,大模型的测评与执行专项任务的人工智能模型测评还存在显著差异。一方面,对大模型能力的评价层次较之传统专项模型已经整体提升,从分类、回归、聚类等传统任务类型对模型能力进行评判已没有实际意义,用户(部分情况下也包括监管者及公众)更关心大模型的总体性能、价值认知和伦理风险、在各个领域方面的专项能力,以及大模型面对各种攻击时的安全表现等。易言之,大模型的测评基准要求超越简单的模式识别,向更高级的能力如抽象思维、逻辑推理发展。对此,部分研究者将大语言模型的评估维度归纳为功能评估、性能评估、对齐评估和安全性评估四个方面,其中,功能(专项能力)评估最为复杂。专项能力所包含的内容相当丰富,不同测评任务所要评价的专项能力亦有所区别。以纯语言模型为例,这些专项能力主要包括阅读理解、数学计算、知识掌握、代码编写等,超越了分类、回归、聚类等适用于专门模型的能力框架,也超越了中文分词、词性标注、句法结构分析等机械化的专业任务。部分测试场景中,一些能力还需被进一步细分,如推理能力包括演绎推理能力和归纳推理能力,主流大模型在此两方面的得分可能存在显著差异。部分专项能力测试针对的是现实生活中的某一应用领域或实践任务类型,如财务分析能力、情报搜集能力、写作辅助能力等,此类测评在实践中亦较为盛行。另一方面,对于AIGC大模型测评而言,由于经常需要提示过程来引导模型给出结果,而目前基于神经网络的语义解析器容易受到自然语言输入上的对抗攻击的影响,因此测评基准还需要包含对提示的处理,在测评基准中要充分考虑提示工程的作用。然而,由于对“越狱攻击”的研究尚不成熟,此方面的测评内容及依据并不完善,有待进一步建立完善可信可靠的测评基准。


总之,面对复杂的测评任务,测试大型语言模型的各项能力或状态需要编写评价结构、区分度及赋分权重合理的“试题库”。通过各式各样精心设计的“试题库”,并且综合运用包括但不限于准确率(accuracy)、精确度(precision)、召回率(recall)、调和平均值(F1-score)、BLEU、ROUGE、chrF、MAUVE等指标进行衡量,理论上测评主体可以按照需求检验人工智能模型或应用的各项表现性能,并由此进一步推测其潜在能力、缺陷和风险,完成对测评对象的综合性分析与评价。无论是人工测评抑或自动测评,精心设计并有严格赋分标准的结构化试题集均是测评的“灵魂”。不过,目前尚未有一套科学、严谨、系统的理论指引测试题目的设计,因此对大模型的测评几乎可谓“百家争鸣”,兼之复杂商业利益的驱动,基本处于同一时间节点上的多种模型版本在不同测评中的得分及排序大相径庭。这一状况无疑也影响了测评的公信力。


(二)系统测评的制度化挑战

迄今为止,各种人工智能系统测评活动基本上由市场或社会自发进行,测评方法、框架与具体测试题目和数据集五花八门,其作为用户或下游开发者选择模型的参考尚显不足,作为人工智能法治实践中正式运用的治理工具则更加勉强。系统测评如果能实现严格意义上的规范化乃至标准化,就可以系统性地提供对模型和系统能力、缺陷、安全性等方面的全方位观察与分析,成为算法治理中必不可少的基础性工具。不过,系统测评的规范化、标准化面临十分棘手的挑战。


第一,训练针对性问题。系统测评规范化、标准化面临的主要挑战,在于测评基准容易受到污染,即测评基准的部分数据或题目可能被作为模型训练的数据使用,导致评估基准测试成绩与模型实际性能不匹配,尤其是对于那些训练数据透明度不足的闭源模型和部分开源模型而言,这一问题尤为突出。被测评者可能主动追求测评基准污染结果的发生,设法使模型针对性地学习测试题目或数据库以迎合测评标准,使测评结果不能真实体现模型的状态和能力。测评依据、方法、基准及内容公开程度越高,越充分地接受外界审视与监督,测评结果就越公平、可信并且越有参考价值,但也越容易为被测评者针对。被测评者可以根据相关信息实施专门性的训练和调整,形成类似“过拟合”的高分结果,但却难以实现高得分情形向其他任务的泛化,形成不能真实反映模型或应用相关状况的虚高分值或排名。部分大模型“家族”对测试项的格式过度依赖,很可能就是由潜在的基准泄露造成的。即便测试题目或数据库的内容并未完全公开,在有相当参考信息量的情况下,被测评者也可以进行针对性推理,一定概率可以推测出测评用数据集或试题库的来源和构成,针对性地破解部分基准的防污染机制。因此,系统测评的制度化必须在测评信息的公开透明要求与测评的“抗针对能力”之间取得平衡。


第二,基准科学性问题。迄今为止,系统测评基准的科学依据未完全确立。评估人工智能的能力和发展不应仅基于人类的认知或情感标准,而是需要建立一个新的、适合人工智能特性的评价体系。目前,各类评价基准可谓“繁弦急管”,Imsys、MMLU、ARC、GLUE/SuperGLUE、LAMBADA、HLM等大模型评测数据集(试题库)各有侧重,甚至每个细分性能方面都出现了多种参差不齐的测试基准,但却缺乏一种理论说明某一方面何以设计或采用此种题型构成、题目内容及分值结构。许多测评数据集采取被戏称为 “力大砖飞”的策略,题目规模动辄万数,此种策略一定程度上可以消除测评得分的偶然性因素影响,但却很难消除同样或类似来源题目中的系统性偏见或缺陷。科学的测评基准首先应科学定义模型或应用待测的各项“性能”或“能力”,对于大模型而言,这一问题尚未得到解决。


第三,利益关联性问题。系统评测的可靠性与公信力往往受利益关联的影响。在大模型时代,模型测评已经日益成为一项利润可期的业务。鉴于模型测评的成本相当高昂,且还可能需要支付一定人力成本,模型测评的利益关联性问题非常值得关注。从测评对象选取、测评基准形成、题目选择、分值结构设计到人工赋分或评价等环节都有可能存在利益因素的影响,最终导致人为因素刻意左右测评的最终得分或排名。部分基准在形成和运行过程中本身也与模型开发者建立了种种合作关系,此种关系亦可能对测评结果的公正无偏造成或显或隐的影响。


训练针对性问题、基准科学性问题和利益关联性问题共同构成了系统测评制度化、规范化的挑战。巧妙的技术方法或机制设计一定程度上可以克服这些挑战,但难以完全消除其影响。需要指出的是,即便不考虑能力上的缺陷,模型测评也不能独力担当算法治理核心信息机制的角色,故应在克服上述挑战的同时,形成与算法解释等协同的算法治理基础制度群。


系统测评的制度化路径:

构建人工智能法治的“新支柱”

系统测评的挑战与需求一样引人瞩目,持续、稳定地克服上述挑战,使系统测评满足人工智能治理需求,需要有效的制度化路径。在完善的制度化支持基础上,系统测评可以与算法解释等既有算法治理工具相衔接,成为人工智能法治的“新支柱”。


(一)系统测评制度化的应用场景界定与关键机制设计

系统测评的制度化要克服上述挑战,要求其包含相应的关键机制设计,明确测评的应用场景,提升测评的准确性、可靠性,直至形成制度化测评的公信力基础。


第一,系统测评的制度应用场景界定。系统测评所提供的信息既可以是综合性的,也可以仅包括模型或应用的若干特定方面,其应用场景相当广泛。对系统测评的应用场景予以制度化的认可,有助于测评工具、技术、内容及测评实践的发展。自算法治理的信息需求观之,系统测评的应用场景包括但不限于:(1)对于人工智能引致危害后果的归责,系统测评结果可以作为执法和司法过程中的证据或参考材料;(2)对作为新型数字基础设施的通用模型及具备特别重要性的部分领域模型实施安全保护,测评结果及相关信息可以作为防护数据与算法风险的重要参考;(3)对于政府采购基础模型和领域模型时的特殊性能需求,测评结果可以作为入围及中标的依据,并作为后续相关方履行技术服务合同中有关义务的判断标准;(4)对于人工智能模型及应用的相关产品、服务,测评结果可以作为合同条款中约定的履行义务之标准,以及人工智能产品或服务违约或侵权之佐证;(5)对于网络、数据、算法安全相关法律法规的实施情况,测评结果可以作为政府评估法律实施现状及采取下一步行动计划的参考;(6)对于为人工智能技术与产业的发展提供支持与激励,测评结果可以作为评选、奖励和资助的重要依据。上述应用场景可以由不同的法律、法规、规章及司法解释根据实际需求及相关测评基准的成熟度渐次推进,使系统测评在人工智能法治中的角色和功能逐渐丰满。


第二,测评基准筛选形成机制。公正、可靠、准确的系统测评首先需要解决测评基准选择与确立的问题。测评基准的选择应当以测评基准与测评需求的符合性及基准质量为决定性要素,测评基准的质量主要包括测试内容效度、重测信度、鲁棒性、分布符合度、测评内容抗针对性等。最简便易行的筛选方法是专家评审,然而面对体量巨大、能力丰富而缺乏精确界定方式的大模型,单纯依赖专家评审可能力有不逮。对此,应考虑“双重分支”的测评基准选择与形成机制:(1)如果某一方面存在国际上公认的权威测评基准,应尽可能直接选择此类基准,除非存在语言障碍等特殊因素,或确有把握形成更完善的基准,如果某一方面不存在公认的权威基准,而市场或社会已经形成了丰富的基准供给,则需要由监管部门或其委托的第三方机构组织专家定期筛选和发布针对特定性能或状态的准用测评基准列表,可以运用多项基准进行测评,并按一定方案综合形成最终测评结果;(2)如果市场或社会还没有形成广为认可或应用的基准,则需要参照其他权威技术标准的制定方式,由负有监管责任的部门组织研发相应测评基准。尤其是在构建公平性基准数据集(衡量偏见等伦理问题的数据集)时,如果依托目前较为成功的共同体来源方法(community-sourcing),需要具有相关生活经验的人类标注者付出大量努力,此种标注及相关基准形成工作最好在本土实现,以求与伦理共同体的主流伦理体系相符。无论是采取何种方案,负有监管责任的部门或其委托的机构均应定期公开发布针对测评基准本身的评价报告,作为采纳和调整测评基准的依据,并听取利害相关方、业界及公众的意见和建议,保持基准选择的公平公正。


第三,测评基准质量管理机制。测评制度建设不能预设必然存在国际上通行的、权威的测评基准,也不能假定此种测评基准必然适用于中文大模型,尤其是在某些方面有特殊性能需求和知识背景的垂直领域模型。我们不仅需要一套机制去促成测评基准的自发形成或组织研发,还需要有一套机制促进测评基准质量的持续稳定与提升。现有的测评基准尽管层出不穷,但在质量方面往往难以令人满意。如在鲁棒性方面,大模型在排行榜上的相对表现对不起眼的细节非常敏感,即使是微小的基准变化,如改变选项的顺序或答案选择的方法,都可能导致排名变化多达8位。不建立测评基准质量管理机制,就难以充分、稳定地发挥测评的治理功能。测评基准的质量保持和提升依赖一定结构的激励系统。实践中,由于人工智能模型与应用日新月异,所有测评基准均不可能一劳永逸,必须持续投入、更新与完善以确保其质量满足多维度的要求。此种投入需要消耗高昂的成本和多方面的资源,不可能仅依赖志愿与责任,而必须诉诸竞争机制、社会信誉、政府认可等外部激励和约束,由此构建稳定的测评质量保障和提升机制。对此,应当建立以下几方面的措施:一是信誉激励,如前述监管部门及其委托专业机构定期发布和更新的准用测评基准列表就是一种重要的制度化激励,如果准用测评基准列表与政府采购目录关联,其激励作用将更为显著。二是经济激励,政府可以通过技术标准等形式设定测评基准需要满足的质量指标,对满足一定指标的测评基准提供可申报的奖励或资助。三是信誉激励,准用测评基准列表的动态变化和测评基准评价报告可以产生正反两方面的信誉激励(约束)效果;第三方专业机构也可以发布更广范围、更高精度的测评基准列表与评价报告,既供用户参酌,亦供行政和司法机关在相关执法司法工作中参考使用。通过多方面的制度激励与约束,此种质量管理机制有望对测评基准质量的保持与提升给予制度性的稳定支持。


第四,测评过程公正保障机制。系统测评过程的公正保障机制是测评制度建设的重点。测评基准选择、测试项目执行、测试结果评价等方面均可能出现影响公正的结果,法律机制亦须作出回应。首先,在测评基准确定方面,对于法律明确规定的测评事项,应当从准用测评基准目录内选择与测评需求和目标最符合的基准。为防止测评基准选择的偏私,建议由专家委员会或工作组在准用目录形成的同时,提前公布相应测评能力或状态维度的优先推荐基准;如果监管部门或政采机构决定采取目录内其他基准的,应当说明理由并接受严格审查。其次,为最大限度地消除测评过程的人为操作空间,制度化的系统测评应默认选择自动测评。如果测评结果对于被测评者及利害关系方的合法权益有重要影响,还应当对法律规定范围内重要项目的测评过程(含测试内容、系统输出、具体得分情况及结果等)实行全过程记录留存备查,并在法律救济场景中作为证据使用。再次,法律规范应以适当方式规定测评者的忠实报告义务,保证对模型和应用的评价(包括风险测评报告、能力测评报告等各种形式的评价)与测试结果相符,如需添加额外评价,需要提供可靠的额外证据。为确保公正起见,可在较之AI Verify更完备的智慧化监管工具中融入全套自动化测评流程,包括评价依据的标准化处置操作。最后,如果测评对象在某次测评中出现了显著的异常结果,应合理赋予被测评者挑战测评结果的机会,要求披露相关测评信息,并对系统或模型的完整镜像备份进行重新测评。此外,还可以针对测评实践的特点进一步发展有意义的新型机制设计。例如,在被测评者数量较多、测评用途具有竞争性且测评期限并不紧迫时,可以采取类似“无知之幕”的机制设计,由被测评者在准用列表范围内预先投票选择若干动态更新的测评基准,待测评基准中的内容悉数更新后再行测评。


(二)算法解释与系统测评的制度化兼容

系统测评与算法解释均为人工智能治理提供基础性信息,测评刻画模型(系统)的外在表现与状态,聚焦于“怎么样”;而解释则展示模型(系统)的内在作用机理和影响力构成,聚焦于“为什么”。测评与解释提供了关于人工智能算法及模型的不同关键信息,算法透明机制、可解释性要求、算法解释请求权及解释说明义务等构成的算法解释制度群可以与系统测评共生互补,实现制度化兼容,共同构筑人工智能法治的信息基石。


第一,通过算法解释检验测评基准质量。基于被严格证明的算法解释方法可以协助发现和检验测评基准的缺陷。例如,如果满足所有可靠性准则的归因解释方法发现一个系统(模型)存在可被确证的歧视或偏见,而系统测评在相关方面未发现或否定此种歧视或偏见的存在,这就可以成为测评基准质量评价的一个减分项;反之,如果测评结果完美符合可靠归因解释所揭示的因素影响状况,测评基准质量评价也可以将其设置为加分项。如此,Shapley Value、Expected Gradients等可靠归因解释可以通过评价测评基准发挥更广泛的作用,避免在算法治理中因可行性与成本约束而被束之高阁。不仅如此,对此方面的算法解释技术研究越深入,就越有希望通过算法解释指引和支持特定方面测评基准及测评方案的设计,如针对某一组因素的影响力结构设计测试内容。


第二,以算法解释弥补测评信息的不足。在某些场景中,系统测评将作为主要的信息机制发挥治理作用,但在发生异常情况时,则可能需要算法解释进行补充。例如,未来法律可能要求对自动驾驶系统进行多维度的能力测评(尤其是安全性能测评),通常测评已足以发现和揭示风险,甚至为归责提供参考素材;但在主要由自动驾驶系统的因素导致交通事故时,在充分保存相关数据的基础上,仍然可能需要算法解释的辅助,以发现系统内何种因素单独或共同导致了错误判断的发生,为风险治理提供更深入的依据。此类情形对于良好封装的人工智能系统,如智能机器人、智能工程机械、智能建筑、无人机等造成的事故亦同样适用。在上述场景的归责实践中,测评还可以反过来作为解释的补充,如作为某项性能缺陷的存在及其影响范围之佐证。


第三,将算法解释融入测评方案。大模型的自我解释已经成为算法解释技术发展的一个重要方向,衡量模型自我解释可靠性的技术亦正逐渐成形。伴随自然语言解释(NLEs)等技术的发展,算法解释完全可以作为测评内容的一部分融入测评方案,通过设计特定思维链等技术路线,令模型披露自身的推理、排序、权衡等“思考过程”,为评价模型能力及状态提供重要参考。许多情形下,揭示模型自身的局部思维链和若干中间计算过程对于深入评价模型能力、发现模型缺陷及安全风险等目标是有意义的。因此,算法解释融入系统测评方案,应当作为未来人工智能治理中信息机制建设的重要方向。


结语

大模型时代的算法治理需要系统测评担当重要角色,引领算法治理工具箱“升级换代”。人工智能的法律治理客观上要求人类全方位或有侧重地深入认识和准确了解各式各样的人工智能系统,并使此种认识和理解尽可能得以动态、科学、量化的实现,避免在时间维度上“刻舟求剑”、在方法维度上“缘木求鱼”,在技术维度上“盲人摸象”。尽管系统测评的技术原理和方法尚未成熟,其在算法治理中的关键作用已日益凸显,甚至有望成为一项全球性、基础性的人工智能治理工具,需要为未来人工智能法治建设所充分关注,在相关基础性规则的建章立制中占有一席之地。算法测评与算法解释等其他信息型治理机制的配合,也将在人类和人工智能之间架设无形的大桥,强化人类心智与机器智能的沟通,产生超越法律治理与产业发展的深远意义。


来源:探索与争鸣公众号