请选择 进入手机版 | 继续访问电脑版

AI 的公平性,谁来为它负责?| 未来论坛

IPFS快讯 IPFS快讯 105 人阅读 | 0 人回复




本文为未来论坛AI伦理与治理系列02期——《AI的公平性》实录稿。未来论坛成立于2015年,是由科学家、企业家、投资人群体共同发起创立的科学公益组织。AI伦理与治理系列旨在促进社会对人工智能伦理的关注和思考,联动学术界、科技企业以及相关专家学者,共同分析和定义科技伦理和治理挑战,为人工智能技术伦理和治理模式提供前瞻性的思考和对策,促进行业及学术界为解决相关问题付诸于行动。


导语/ Introduction


有人说人工智能如同一面镜子,反映着人类社会中已存的文化偏见。如果人类想让快速发展的AI具备道德性,使得AI的应用具备公平性,也许人类需要的不仅是纯技术层面的探骊得珠,而还需致力于自身“内部算法”的修正改进。本期活动,即意在从对技术的讨论出发,从社会、哲学、经济以及法学的角度,探讨“AI公平性”这一议题,为“内部算法”的改进与“外部公平”的促进提出建设性意见。


主题报告


@段小琴


1. 研发者本身主观上并无意造成偏见,但往往有一些偏见是无意识产生的,从而导致将偏见引入AI系统的开发和设计中。

2. 我们需要在国际的AI治理参与上需要做出更多的努力,积极参与AI伦理治理相关政策论坛、标准组织和产业联盟,同时向国际合作平台贡献我们的AI实践和案例。

3. AI是一个复杂系统,其部件和服务可以是由多个市场参与者共同来提供的,因此,整个AI的治理是一个需要全产业共建共担、各司其职的多层治理模式。

4. AI治理和技术发展是相辅相成的,我们认为要加强基础理论的研究和突破,提升AI安全可信可解释性,利用AI技术来支撑AI治理,使得在技术在创新发展和规范约束之间找到一个很好的平衡。


哈佛大学法学院的伯克曼互联网与社会研究中心针对全球36个主流原则(包括一些主流国家和一些产业组织AI治理原则),研究了所有原则之间的共性理解和差异之处,其中对“公平性和非歧视”的共性内容提取与解读如下(如图1):






- 图1 -


89%的原则认为在培训数据、技术设计和选择、技术部署中要预防歧视性的影响,做到非歧视和预防偏见;36%的原则认为在AI的运用过程中要考虑使用代表性和高质量的数据,保障数据的准确性、一致性及有效性; 56%的原则提及AI的公平性,分为两个维度:其一,要追求实质性的公平,包括人工智能的发展要确保公平正义,避免对特殊的人群或个人造成偏见和歧视,避免科技对处于不利的人造成更不利的地位。其二,在程序性公平层面,欧盟人工智能高级别专家组(AI HLEG)提到,针对人工智能作出的一些决策,要确保有能够提出异议或者有效补救的程序措施;就平等性角度而言,平等是超越了非歧视,它意味着每个人都应该适用同样的规则、获得信息数据支持,带来社会福利增值的公平分配;42%的原则中提到了要考虑影响中的包容性,公正分配人工智能所带来的社会福祉,普惠于社会全体,不论是弱势群体、还是普通群体,都能够享受到人工智能带来的益处;47%的原则中提到了要具备设计中的包容性,这是对技术团队和技术公司的要求,人工智能设计团队应具备多样性,比如包容性的社会论坛的参与,以此确保设计是无偏见的。

提到偏见,更多的研究表示很多偏见是在研发过程中无意识造成的。很多时候,研发者本身主观上并无意造成偏见,但往往有一些偏见是无意识产生的,比如“捷径偏见”、“公正性偏见”及“自利偏见”等不同类别的偏见。这都会导致他们在开发和设计AI系统时,将偏见引入系统中。(如图2)






- 图2 -


下面简单分享一下不同国家和地区在AI治理监管领域的进展与最新动态

欧洲方面,欧洲长期致力于AI治理,很早就明确了AI治理的战略,欧盟在2020年提出《人工智能白皮书》,提出人工智能“可信生态系统”,提出对高风险AI系统强制性监管要求,并对非高风险系统采取自愿标签认证机制。2021年4月21日,欧盟发布了《关于人工智能的统一规则(人工智能法)》的提案,区分“禁止类AI”和“高风险类AI”,并要求各欧盟成员国需参考本法案制定适用于本国的条例。一旦违反此法规,可被处以前一财政年度全球年营业额的2%~6%的罚款。同时,CEN/CENELEC JTC21将于2021年6月1日召开开工会,AI标准正式进入议程。

以下是欧盟《人工智能白皮书》以及人工智能法草案中涉及的具体内容。所谓“高风险”的定义,存在两个可能的场景:一是人工智能应用领域可能发生重大风险,比如医疗保健、运输、能源和部分公共部门;二是人工智能使用的方式可能面临重大风险,如对个人或公司的权利产生法律上或类似的重大影响。而欧盟《人工智能白皮书》认为,这两个场景的交集可以判定为高风险的情况。对高风险AI应用,欧盟将采用事先评估及事后执法结合的方案,责任应由最有能力应对任何潜在风险的行为者承担。

同时,欧盟在2021年4月《人工智能条例(草案)》中列出高风险人工智能清单,需要我们关注的是:自然人的生物特征识别,涉及隐私信息的对自然人“实时”和“事后”远程生物识别;关键基础设施的管理和运营:基本公共基础设施网络的安全组成部分,如道路交通管理、水、煤气、供暖和电力供应;教育和职业培训,就业、工人管理和自营职业的机会,以及享受基本的私人服务和公共服务和福利等;还有执法、司法和民主进程中涉及的人工智能问题。从这些分类来看,欧盟在对诸多与人有关的人工智能系统的应用上,态度非常谨慎,体现了欧盟以人为本的价值观。为了避免对人造成歧视的伤害,有的系统需要事先在公平性等原则上得到充分的测试才能进入到市场中。

德国来看,德国制定了AI标准路线图,提出五级风险的“AI应用评估金字塔”。路线图基于AI风险分为五个层级,最上面一层属于禁止类的自主系统,对监管来说是要求完全或部分禁止使用的。最下面一层是没有或仅有极小风险的应用,这部分应用没有特别的监管要求,中间的二级到四级有一定的监管要求,比如“信用的自动分配”“理赔”等这些同公平性相关的应用,有不同层次的监管要求,比如“信用的自动分配”,就需要通过事前批准、事前测试,才能允许进入市场,而“理赔”只需要形式上需要满足透明度义务、风险公布等基本要求。

日本和新加坡来看,更多聚焦行业自律及对企业的赋能,暂时不会出台人工智能的监管法规。日本鼓励采用无法律约束力的行业自律准则,并促进在企业内进行AI治理的部署。新加坡发布《AI治理示范框架》《组织实施和自我评估指南》《实施用例示范》《AI时代的工作设计指南》等一系列操作指引,帮助企业AI治理实践从原则走向实践落地。






- Martin David -


下面我简单分享一下我们对于人工智能治理、公平性原则上的考量和思考。

首先,我们需要在国际的AI治理参与上需要做出更多的努力,积极参与AI伦理治理相关政策论坛、标准组织和产业联盟,同时向国际合作平台贡献我们的AI实践和案例。

同时,从国内AI治理的角度看,我们认为要加强基础理论研究和突破,提升AI安全可信可解释性,并推动全产业共建共担AI治理,各司其职。

我们对AI治理相关的政策论坛、标准组织和产业联盟进行了梳理(如图3),图3右侧列出了欧盟层面与技术和标准相关的组织及产业联盟,特别值得关注的是ISO/IEC JCT1联合工作组,它下面的“SC42AI工作组”是讨论详细国际AI可信标准和AI用例应用,公平性原则和标准制定将在这个工作组内被进行详细讨论。图3左侧描述了国际层面的相关联合国组织,也包括一些产业组织,它们主要进行合作倡议和共识的倡导,我们认为在国际层面,可以更多地向国际合作平台去贡献AI的实践和案例。






- 图3 -


华为有一个“TECH4ALL”数字包容的倡议,其目标是“不让任何一个人在数字世界中掉队”。现在全球有75亿人口,有接近一半的人无法分享数字红利,华为通过技术、应用和技能三个方向的努力,在推动公平优质教育、保护脆弱环境、促进健康福祉、推进均衡发展方面做一些贡献,让每个人分享到数字经济的发展红利,不让任何一个人在数字世界中掉队。

下面通过几个简单的案例,介绍一下华为在贡献教育公平和质量提升上的实践。比如华为开发的“远程数字学校(DigiSchool)”,赋能塞内加尔教师远程教学,帮助学生从远程获得培训。再如“移动数字课堂(Digitruck)”,在肯尼亚的十多个乡村里,有很多学生由此获益。华为还开发了一些应用,比如“StorySign”帮助一些听障儿童阅读一些绘本或儿童读物,使他们有很多机会能够分享到一些好的世界读物。此外,华为的ICT学院为全球1500所高校提供ICT相关人才的培训,帮助当地人获得数字技能。

同时,华为也在积极贡献医疗健康服务包容和公平,帮助推动医疗健康服务的普及,比如和一些产业组织、机构进行合作的“Track AI”儿童视障的早期诊断,能够更方便地让儿童更快速地检测出视力疾病。,以及同一些远程医疗机构合作,支撑远程多学科的会诊,也是为更多人能够便捷地分享到数字经济的好处、人工智能的益处,也包括做一些“AI CT”的筛查,帮助医学获得一些突破。

AI治理和技术发展是相辅相成的,当前,AI基础理论可以有更多的投入和研究突破,帮助提升AI的安全和可信,如此AI系统才会得到更好的发展应用,这是一个正向循环。从学术界来看,AI的治理和伦理已经成为学术界的热点,论文增长非常迅速,我们国内张钹院士也提出了“第三代人工智能”,强调AI的安全、可信和可靠。DARPA提出的“第三波人工智能”,强调上下文理解和适应。对于这些新的AI理论和研究方向,对增强我们AI的公平性、可信是非常有帮助的,也希望学术界在这方面有更多的研究和突破。

不管是AI的公平还是无歧视等各种运用要求,都对AI全产业链有着治理的要求,我们看到AI的治理从算力层到算法层,再到数据层、应用层、解决方案的集成、部署者和运营者都是有很多不同层面的治理诉求的,甚至消费者和客户都有防止数据滥用和数据合法授权的技术诉求,所以整个AI的治理是全产业共建共担、各司其职的治理模式,这样才能把全产业的治理水平提高。我们也在积极提倡分层治理或多层治理的构架,通过多层治理,希望不同类别的企业能够分享自己的治理实践,同类别的企业就可以进行快速借鉴,找到最佳的实践,帮助整个AI全产业的治理能够更快地提升到更好的水平。






- Vincent Durbak -


@杨强


1. 公平性是变量,至少会受到时空因素的影响,我们没有形成全球性的公平性。人工智能的公平性,应该把焦点放在“人工”上。

2. 人工智能公平性的一个重要方向是数据的可获得性、数据的可使用性。我们希望数据“可用而不可见”,希望数据能够被确权。


AI今天的进步主要来自于几个主力方向,有算法、算法的设计、深度学习、强化学习等,另有巨大的算力、芯片架构的支持等。还有一个不可忽视的因素——大数据,否则AI就像一个没有汽油或者电池的车,是跑不动的。

借用抖音上的一句歌词:“人工智能其实是很单纯的,但复杂的其实是人”。所以,人工智能的公平性,应该把焦点放在“人工”上。这是一个复杂的问题,因为从数学上来讲,公平性是优化目标。不管是深度学习网络开发,还是强化学习的系统设计,首先要有一个优化目标。也就是说,专家学者对于要做什么事情要表达一个意愿,然后由人工智能的工程师,把人的意愿转化成一个数学公式,这个数学公式还有各种约束条件。不幸的是,目前并没有一个好的、自动学习的学习机器,可以作为我们自动学习、优化目标的工具。也许机器学习可以作为学习优化目标的一个工具,但某种意义上优化目标是不可能被学习的,因为优化目标的学习基础之上,还存在一个隐含的主宰者,以决定一个更高层的优化目标,而该主宰者的优化目标,还由另外一个主宰者定义。这个问题既是一个哲学问题,也是一个可计算的非常深奥的数学问题。

我们是否可以通过“机器学习的多任务型”(multi-objective;multi-constraint),以及机器学习的各种算法来解决这个问题呢?我觉得可以部分解决,从而尽可能地达到人类的水平。但还有一个不幸的消息:公平性是变量,就像我们在唐朝说公平性和现在说公平性,意义是完全不一样的。我们明天说公平性和今天说公平性也会不一样,因为社会在发展。另外,每一个地区、每一个地域也有不同公平性的定义,也就是说它和地域是相关的,所谓的“世界是平的”,但同时“世界不是平的”。换言之,世界存在严重的割据,每一个地方形成一个“联邦”,这个“联邦”自己有一个独特地域性的公平性,但并没有形成全球的公平性。

我们说人工智能很单纯,复杂的是人,“人”不是一个人,是一个群,族群也就形成了公平性的变量,这个变量是不可忽视的,并不能说一个族群就好过另一个族群,这是中国和西方争论的另一个焦点,这些都涉及到法律以及社会学。从个人的研究角度,我们讨论的焦点集中于数据集的可获得性,这是公平性的重要指标,以及算法收益分配的公平性,这与经济学密切相关。

今天讨论的焦点是数据的可获得性和算法公平性。如果我们把这个焦点放到一个具体的目标上,就是我们能不能让数据可用而不可见。为什么会有这样的一个想法呢?因为我们希望数据能够被确权。比方说,用户带着手机经过一天的活动后,手机已经收集到一些数据,这些数据对用户个人来说可能完全没有意义,他希望能够放弃它们;但对一个手机公司来说非常有价值,因为它可以研究用户的兴趣,进而做一些判断。所以,这个数据的所有权归属于谁就很重要,为什么我们说“数据是谁的”这件事并不是加入一个区块链或其他简单方式能够解决的,原因在于,数据一旦出手,被复制、传输、运用之后,用户就对它完全失去了控制权。因为数据和石油有一个巨大的区别:石油是不可复制的,给你一桶石油,你不能把它变成两桶,而给你一份数据,你有办法把它变成两份数据。

另外,数据的隐私,我们的数据可能虽然没有任何物理性的能量,但它的隐私却是另外一个维度。而隐私的保护、隐私的公平性,为我们数据分析提供了一个新的数据约束。

我们希望数据的交易并不是数据的交易,而是数据价值的交易,这里需要提到“数据交易所”,说到它,可能大家一开始想到的是交易人带着光盘过去,一手交钱,一手交光盘,但这种交易却是失败的。我们现在看到的主流是数据价值交易、合作交易。

另外我要提出一个新的概念,就是要去抵抗数据的“马太效应”。我们知道小数据和大数据的重要区别,并不是量的大小,而是它们能够做的事情大小。大数据会产生大模型、大模型会产生更有效的服务,更有效的服务会吸引更多的人参加,更多的人参加会产生更多的数据,“马太效应”由此产生。所以,小数据会消失,大数据会产生垄断

我们有什么办法能够抵抗马太效应呢?当然从法律和政治层面来看,政府可以出台一个反垄断法。但是,如果从技术角度出发,有是否可能设计出一种新的技术模式,使得马太效应被成功地抵抗呢?因此,我们认为,反马太效应和反垄断技术方式就是一种“联邦生态”。

就“联邦学习”而言,现在数据分散于各地,属主分散,并且是异构的,能不能把它有效地聚合起来形成大数据呢?现在这个过程变得越来越困难,原因之一是法律的规制,比如欧盟的GDPR法规就表现得相对激进。研究发现,我国法律也是趋严的,相关法律越来越严格、适用越来越广泛。






- 图4 -


如图4所示,蓝色代表的是欧盟、美国数据监管法规的进展,绿色和红色代表的是中国的法规进程,我们可以看到从1995-2021年,法规越来越成熟、越来越全面、越来越多、越来越密集。这里面包括信息安全技术的个人信息安全规范、数据安全法的草案、个人信息保护法等,旨在保护用户隐私。这类法规的总体方向是隐私计算,隐私计算里又区分三个主流方向:其一是“联邦学习”的方向,联邦学习是专门为机器学习而产生的;其二是从70年代就开始发展的“安全多方计算”方向,从数学角度来说它非常严格,但它在应对动辄上万亿参数的大规模模型时,往往不能保证效率;其三是通过硬件来解决,这个方向现在国外占主流,像“安全屋”“GEE”这种环境,英特尔的开发较为先进,国内在这方面的芯片还有待提高。

隐私计算技术经过了三代的发展。2018年以前主要是安全多方计算,但从2018年开始,“联邦学习”(Federated Learning)就进入了大家的视野,如果有多方的数据源,大家应该怎样进行合作,建立不错的模型,最后进行利益分配。这就像我们刚才所说的数据价值分析。2019年我们开源了世界上第一个工业级的联邦学习框架,该框架受到欢迎,并在800多家高校和企业使用。以联邦学习技术为起点,我们建立了大数据生态,提供一个小微企业的信贷模型。

“联邦学习”的主要思想就是“数据可用不可见”,其做法就为:各方好比不同的草料厂,大家提供草料,但只是在自己厂区范围内提供草料,有以一只羊可以到各地去吃草,这就像大家在传递一些加密的参数,而我们希望这个羊获得成长。当然,我们也有不同的数学和架构模型,一种是按照样本来切割,更适合像我们以“一对多”,比如一个大企业大服务器面对众多边缘的终端,进行模型的更新。另一个是不同的机构之间的相互作用,即“to B”,机构之间也可以进行加密参数的沟通,使各自部分模型得以成长,最后合起来可以共同使用。

这个领域也存在一些交叉,比如如何做到安全合规,这和法律层面密切相关,再如如何做到防御攻击,因为我们不能假设每一个参与者都是好人,也许是半个好人,也许他是坏人、恶人,也许是一个半恶人、黑白人,如何能够防止这样的攻击,现在有很多这样的研究。

如何提高算法效力?安全多方计算,大家估算是比这种“明文计算”慢1万倍,联邦学习比明文计算慢100倍,通过软硬件架构的提高,现在已经可以缩小到50倍,后面这50倍还希望能有更多研究人员的参与,现在有很多初创公司在这个方向也获得了巨额的投资。

技术应用和联盟机制,所谓的“联盟机制”就是如何设计一个好的经济学模型,使得不同的数据拥有者(即“数据孤岛”)能够通过合理选择,加入收益最大的联盟,以获得其收益。我们可以看到,一个分配较为公平的联盟,它的规模就会增大;一个私心较重的联盟,它的规模就会缩小,所以一个市场机制就会由此形成。






- James Gilleard -


公平性的关键要点是开源(即让大家都获得这样起点的可能性),我们在2018年开始就开源了第一个联邦学习平台——微众开源平台“FATE”,并有众多的专利,“LINUX FOUNDATION”也把这个作为一个新型的开源软件,并在全世界范围内进行应用,这是一个非常大的社群,机构众多,我们所知道的重要公司都在里面。

假设两个机构有不同的联邦学习系统,他们是否可以形成一个更大范围的联邦学习系统?我们设想社会是一个层级型的形态,我们如何让异构联邦学习系统进行沟通?现在,富数科技和微众银行团队之间第一次实现了这个设想。微众银行AI团队和富数科技隐私计算团队异构联邦学习系统实现互联互通,打破以往单一平台的限制,意味着不同企业可以基于通用的标准实现数据交流,各方参与者可利用的数据池变大,进一步释放数据价值,加速行业数字化升级。联邦学习国际技术标准也于今年三月份由IEEE(电气和电子工程师协会)出台,这是世界上第一个联邦学习国际标准,能够促进不同的联邦学习系统之间的沟通。

我们和由徐扬生院士、李世鹏教授主持的深圳的AIRS学院合作了一个项目:在联邦学习中,一部分是计算机,另一部分是机器人,我们可以设想这个机器人是一个真人,以后这样的人和计算机联邦,他们可以让计算机逐渐学会人的偏好。这也是“能够让计算机学会像人一样”的第一步的尝试,尝试非常成功,希望大家关注以后的进步。

假设某个公司或者个人是联邦学习、机器学习的小白,现在自动化机器学习技术“Auto ML”,可以使一个机构自动成长。把这个模型设计好后,可以和联邦学习结合到一起,第四范式公司就是这方面的领先者。

下面举几个案例进行解释:第一个例子与银行之间、银行和互联网公司之间的合作有关,在这个范围内建立一个联邦,这个联邦可以有很多功能,比如反洗钱、信贷,再比如一家小微企业,因为规模太小,其纸面的历史也太薄弱,过去大型银行没有对它提供服务的可能性,其服务申请就可能不成功。而通过大数据的联邦识别其风险,如果认定它是一个资信良好并符合服务条件的公司,就可以对其进行信贷帮助,让它从破产死亡的边缘得以存活。这个设想在微众银行已经得到实现,我们在小微企业贷款中,应用联邦学习帮助上百万家小微企业在远程进行小额信贷。另外,集团公司和子公司之间可以有效地形成联邦,我们在越秀集团加以实现,使得每一个子公司、和其他子公司、和集团公司不用互传数据也可以沟通信息。

在微众银行的小微企业贷款事项中,我们从营销到客户服务、到风险管理、再到最后的财富管理,把整个流程和客户的企业生命从端到端进行联邦学习的大数据处理。就服务机器人而言,现在我们拥有几十个机器人,1个机器人相当于400个人工机器人服务,每天有300万个调用。我们各方面的技术(包括人脸、语音、对话系统)都在不断进化。这样服务小微企业本身就是公平性的一种体现,因为它帮助了社会的长尾能够提高。

此外,我们在医疗领域也开始投入应用。各个医疗机构都是一个数据中心,过去在医疗机构多中心的合作上往往是一筹莫展的,由于利益和隐私的缘故,医疗机构之间不能传递数据。现在,我们可以通过联邦学习将其连接起来,共同建模,这样可以实现“老旧药新用”,可以研发新药,这也是最近我们和同济大学刘琦教授在《Bioinformatics》杂志上发表的第一个联邦学习的实际应用,即用联邦学习进行新药物发现。

人工智能公平性的一个重要方向是数据的可获得性、数据的可使用性。我们研究联邦学习,一个更大的目标是实现“数据可用不可见”,其特征是:隐私保护、权益保障、缺陷保障以及确权,确权和权益保证需要通过经济学来完成。






- Marly Gallardo -


@申卫星


1. 虽然公平很难定义但其却可以描述。我们需要考量如何通过制度建设来细化公平的类型,让公平的观念得到落实。

2. 法律既要解决形式上的公平、机会上的公平和程序上的公平,还要实现形式公平和实质公平的合一。

3. 在人工智能数据治理当中,要贯彻自治和管制之间的平衡。


法律和科技之间的关系双向的:一方面,科技进步需要修改既有法律,为科技创新创造一个良好的环境;另一方面,技术是一把双刃剑,它可以带来包括人工智能技术引发的个人信息和隐私保护问题、算法歧视等一系列的法律问题。清华大学结合法学和信息技术的优势,创造了计算法学这样的新学科,致力于法律科技问题的解决。

回到今天的主题,解决AI的公平性,套用著名法学家哈佛大学法学院原院长庞德教授的一句话,问一个法学家什么是“公平”,就如同问一个哲学家什么是真理一样,难以回答。不是说法学家和哲学家对这样的问题无能为力,而是这样基础性的语言概念具有很强的语言基础的性质,所以很难作出一言以蔽之的定义。刚才杨教授也提到,唐朝的“公平”和现代社会的“公平”肯定不是一个含义,公平的概念是抽象的、发展的。所谓抽象的公平,是指每个人对公平的理解不一样。所谓发展的公平,是指随着时代的发展,对公平的理解也在发生变化。改革开放初期投机倒把行为认定是犯罪,但之后则废止了“投机倒把罪”,变成了一种合法的行为。也即,对于“公平”的理解,随着时代的变化,有很大的发展性。因而,不是说法律人不讲公平,法律一定是把公平作为最优先的发展目标,但在解决问题的时候,不能简单或者是不能仅仅诉诸于公平,否则这样和门口老大爷的思维方式没有二致。

问题在于如何通过制度建设来细化公平的类型,使公平的观念得到落实。公平很难定义,却可以描述。公平虽然是一个基础的语言概念,但我们能够感受到什么是公平、什么是不公平。什么是公平?公平是一个世界型的难题。每一代先哲,无论是哲学家还是政治学家、法学家都为此付出众多研究。比如说,同样的事情,同样处理;不同的事情,就应该不同处理。同样的人使用同样规则,不能因人而不同。具体到人工智能所引发的法律问题上,不同问题伴随着不同的风险。不同风险带来的结果不一,但人们普遍希望的是起跑线一致。也就是机会平等,程序上大家都是一致的,形式上都是一致的,强调的更多是形式平等、机会平等和程序上的公平,忽略了结果公平。而法律既要解决形式上的公平、机会上的公平和程序上的公平,还要实现形式公平和实质公平的合一。

在法律中,“公平”的字眼无处不在,从《民法典》第6条中的“公平原则”到《行政许可法》中的公平、到教育公平、医疗公平,都体现出公平的理念。真正的公平需要具备一个重要条件——不论结果怎么样,是当事人自我决定、自愿的结果,那么自我决定、自我负责就构成了公平性非常重要的前提。这对AI的治理也非常重要,在个人信息和数据采集、对信息加工应用的场景下,个人的同意就构成了非常重要的前提。用户是否同意,直接影响了形式上的公平性。

虽然我们没有完全定义公平,但却能感受到什么是公平,同时也能感受到什么是不公平。最早对AI提出公平性质疑的,就是美国的COMPAS系统,大家对人工智能计算量刑的方式产生了争议。这种量刑可能是基于既往的数据对未来量刑进行的预测。但由于时代的不同,有的时候是严刑峻法的时代,有的时候是宽松的时代,所以既往量刑的数据本身就存在噪音,由此得出的结论可能天然带有歧视,甚至出现针对某些人群的歧视,比如对黑人量刑加重的例子比比皆是。此外,不公平可能源于算法本身,比如大数据“杀熟”,不同的情况下不同定价是可以的,但在同样的服务,没有任何差别的情况下出现了算法的歧视,大数据的“杀熟”显然违反了公平。(如图5)






- 图5 -


公平含义是非常丰富的,我们可以感受到什么不公平,以及如何来解决公平。对于公平,罗尔斯的正义理论提到了两点,一是平等的自由原则,二是消除结果上的不平等以达至正。这样我们就会发现,在人工智能的公平规制上,首先有一个基本的假设,假设每个用户都是理性人,在人工智能企业采集用户数据的时候,用户可以自我决定是否允许他人采集,并且自我决定自我负责。每个人在是否参与人工智能上都是自己命运的主宰者。

这种公平是形式上的平等,尊重当事人自主自治的意愿,前提是平台和用户都是平等的民事主体,权利能力都相同。如果平台要使用用户的数据,必须建立在用户知情同意的基础上,用户不仅知情同意,而且还可以了解数据使用之后的用途去向,对信息的错误可以更改,对不利的信息可以删除,甚至可以撤回自己授权的数据。然而现实中,在这种形式平等的背后,存在很强的实质上的不平等。

在用户和企业当中,不仅经济上处于不平等,在信息的掌握上也处于不平等的地位。大量的APP在使用的时候会出现一个“知情同意”的选项,过去我们对知情同意的格式条款主要是要求“告知要充分”。现在社会里不仅是告知充分,是告知过量,我们说信息已然超载。一个知情同意的内容,至少是上千字的,甚至可能上万字。大量的信息让消费者无力长时间阅读,只好选择同意,否则只能退出,这种情况造成了格式条款对自我决定权的剥夺。

那么问题在于如何实现形式公平和实质公平的平衡?就格式条款而言,

在生活中获得了普遍应用,《民法典》第496条对于平台单方制定的格式条款,要求涉及当事人权利义务要进行提示。如果提供格式条款的一方没有提示,视为条款没有纳入到协议当中。并且对于一些不合理的条款,即便用户同意了,法律也可以进行效力控制,宣布该条款无效。当对条款理解不一致的时候,要做出不利于条款制定者的解释,以此达至形式上的公平和实质上的公平。

在人工智能数据治理当中,还要贯彻自治和管制之间的平衡。一方面要尊重用户的知情权,让用户在充分知情的情况下自主自愿地作出,这才符合公平的起点。同时,因为地位的不平等、信息的不对称,国家在市场失灵的时候要出现,这种出现其实有助于通过管制的方式让当事人的自治得到充分的体现,而不是消灭自治。

对于自治的管制,其实是在想办法如何实现一种公平,AI治理的公平。管制的方式,存在以下几种情形:第一,格式条款的控制。这种控制很重要,因为平台具有自己经济和信息的优势,逼迫用户要么签字、要么离开,不签字就不能够往下进行。第二,数据治理。让数据降噪,比如美国COMPAS刑期的预测,其本身数据存在问题,得出的结论也必然影响公平。第三,算法的规制。有具体的法律规定,要求算法的透明度和算法的可解释。如果说数据治理和算法规制还是内部方式的话,还有两个外部方式的介入和人工的介入,外部介入就要求有第三方的评估、监测和相应的审计制度,通过第三方的功能来实现市场的平衡。人工智能替代了很多人工,但不能彻底替代人类,要通过人工的介入,比如利用人工对人工智能结果的复检,对自动化决策的一方进行复议。所有人工智能的产品,只能作为辅助决策的工具,不能完全替代决策本身。

在数据治理当中,告知应当采用详尽的、清晰易懂的语言,而且要告知处理者的身份、联系方式、处理的目的、处理的方式等等,法律都有具体明确的规定,以此保障当事人权益得以实现。很多方面要强化同意,比如敏感信息的收集和处理,以及已经收集的信息,再单独弹窗,让消费者接受,否则都会视为在形式上欠缺正当性的基础。实质上,《个人信息保护法(二审稿)》第25条中对于自动化决策的评估,在《网络安全法》中有相应的评估制度、监测制度、审计制度。个人信息保护法也提到了处理敏感信息和利用个人信息进行自动化决策,向第三人提供信息或委托他人处理等情形,必须进行风险的评估。

就风险评估而言,在个人信息保护法中也有所谓的进行合规审计,通过市场的力量公布一些企业在合规方面的表现,发挥市场淘汰功能。

中国内部对人工智能治理的规范涵盖法律到法规、到部门规章,个人建议未来应该统合,形成统一的立法。在法律界中也在讨论是专项立法还是综合立法,个人建议在时机成熟的时候推出综合立法,这样可以增强立法者的信心,也利于产业的发展。在这个过程中,既要考虑对个人数据的保护,也要考虑保护和创新之间如何形成平衡。

AI是社会发展不可避免的一个选择,我们没有回头路可走,AI带来很多问题,但AI也带来了很多提高公平的机会。所以,未来的社会发展当中,人和机器之间,如何从竞争关系变成人机协作的关系,共同实现人类福利的最大化,构建所谓公平的数字空间,也是我们法律人为之奋斗的目标。






- Jacob Stead -


@王小川


1. 数据的统一,我们有机会在全局层面上把主要矛盾抽出来,更容易形成整个社会的共识。

2. 在机器的判断越来越准确之后,公平定义的矛盾更加突出。


首先,人工智能的高度发展对公平性的提升是有利的。今天的人工智能发展在供给侧上带来了很多服务,不管是教育还是医疗,提供了更多的供给。在供给不足的时候,会形成少数人去垄断服务和收益,使社会资源分配不均的可能性变大,最后资源极大丰富,类似于迈向共产主义,有这样的物质基础为公平性带来更好的先决条件。

其次,随着大数据的连接,从前人们很容易陷入局部矛盾——每个人都发现问题,但很难形成共识,就像盲人摸象,都是局部。随着数据的统一,我们有机会在全局层面上把主要矛盾抽出来,更容易形成整个社会的共识,这样在公平的问题上有机会得到更多的讨论,所以互联网发展、信息发展和AI发展对于公平性提供更好的抓手,也会有更多的难点,会带来新的挑战。其中一个比较敏感的问题是,在机器的判断越来越准确之后,公平定义的矛盾更加突出。比如在金融贷款、保险商业等领域,如果对用户进行个人画像,其商业效率就很低。如果基于个人画像进行判断后,拒绝向用户发放贷款,如此是否公平?这是机器判断准确之后反映出的新问题。再如无人驾驶,在机器产生精确判断之后,如果发生交通事故,怎么做出价值判断?所以机器变得精准之后,这种评价体系的挑战会变得更大。

再次,规模变大之后会产生“马太效应”,资源更加集中,少数公司或者是少数人去垄断这些资源,金字塔塔尖上会得到更多的服务,这是历史上不断出现的问题,资本主义国家尤其会出现这种情况。这种供给变多之后,少数人在塔尖上,虽然人少,但形成的社会影响和伦理问题就会变大,所以在机会挑战里会带来一些问题的激化。


@山世光


作为AI从业者、开发者、运营者的我们,一定要意识到:我们所开发的AI既可能被用来促进社会公平和消除歧视,也有可能被滥用被用来助纣为虐。


AI的公平性问题,其来源非常复杂。但本质上主要不在于技术本身,而是来自人心,也就是说,其本源是社会的公平性。尽管如此,作为AI从业者的我们,一定要牢记于心的是:我们所开发的AI既可能被用来促进社会公平和消除歧视,也有可能会被滥用,会被用来助纣为虐,放大某些方面的社会歧视。更重要的是,我们可能在无意中做了坏事,成了帮凶。因此,一定要严肃地对待AI伦理和公平性问题。

上述AI公平性问题的解决也是分层、分阶段的。从技术角度来说,需要在AI系统“成型”之路的各个环节、各个阶段进行分析和审视,以阻断可能的“偏见”引入。更重要的是,AI从业者需要关注和理解该问题的社会学、法学视角,反过来社会学和法学界也需要关注和理解该问题的技术视角。该问题的最终解决不仅仅依赖技术的进步,更依赖于技术专家和社会学家两个群体的顺畅沟通,深度对话。






- Rishab Soni -


议题讨论


议题一:随着社会的发展、技术的演进和文化的差异,社会公平性内涵和外延也都在发生非常大的变化。AI技术在社会各个领域的渗透和普及,到底在AI未来高度渗透的时代,公平性到底应该如何进行新的定义,我们对于内涵和外延有什么样的新的解读?


@申卫星


1. AI降低了司法成本,使得正义的可及性提高。整个社会可以在节省更多的成本和能源的情况下,实现普惠的司法正义。

2. AI使局部认知变成全局的、更全面的认识,对于公平的实现有非常强的指引作用。


其实我们应该看到,AI也带来了促进程序公平、实质公平更多的机会。英国法学家Richard Susskind提到过“在线法院和司法的未来”,他表达了一个特别好的理念:大家过去认为法院是一个场所,传统的法院诉讼会带来很多成本——不光是人聚集在法院的场所里,还要聘请律师。现在大量发展在线诉讼之后,降低司法成本,使得正义的可及性提高。当事人可以在较少的成本下,甚至整个社会也可以节省更多的成本和能源的情况下,实现普惠的司法正义。

可以发现,AI“助纣为虐”的现象下有一个倍增的效应,这种倍增可能助力在优势方面,也可能在劣势方面。另一方面我们也会发现,过去很多问题可能都是局部的,通过大数据对整个的案情、对于某些律师、某些法官进行画像,会得到整体的印象。过去在没有AI的情况下,局部的只能存在于局部当中,通过大数据的引入变成一个全局、更全面的认识,这样对于公平的实现有非常强的指引作用,从点到面形成一个更好地促进实现实质公平的效应。


@杨强


1. 如果不知道创新所带来的伦理风险是什么,何谈监管?所以,第一步是允许百花齐放。

2. 在过去,农民对公平性的诉求是“耕者有其田”,现在我们可以说“智者有其数”,就是人工智能的行业工作者都能享受到数据,而且“数者有其智”。


“技术是有两面性的,AI也不例外”,用AI赋能金融,可以发现很多有意思的现象。AI伦理可以借鉴,监管在这方面起的作用,一方面,监管使得社会的公平性大为提升,使得那些不规范的现象得到抑制。另一方面,如果刻意监管,可能导致整个市场的滞后。如何能够合理地监管和鼓励创新,并且监管能够有效地提供一个防范风险的工具,这本身是一门非常复杂的学问。我国在鼓励创新这方面一直做得很好,如果不知道创新所带来的伦理风险是什么,何谈监管?所以,第一步是允许百花齐放。这样可以积累数据,积累数据以后,可以进一步讨论,什么是合规、什么是公平、什么是不公平,达成第一步的认识。然后进行下一步的AI技术的发展,这应该说是一个螺旋式的上升。

监管为技术的发展提供了进一步的优化而非限制的目标。技术工作者应该与时俱进,不要因所谓的监管的规范望而却步,而是要进一步提升能力。不论AI技术如何发展,有一个趋势不可忽略,就是数据越大,数据的来源越多,公平性只会增加、不会减少。从这一点来说,我们只要做到合理合规,让人们自愿加入数据生态,并把这个数据生态做大,我们就能沿着正确的方向在走。在过去,农民对公平性的诉求是“耕者有其田”,现在我们可以说“智者有其数”,就是人工智能的行业工作者都能享受到数据。而且“数者有其智”,有数据的可以贡献到人工智能中去。在众多变量中找到一个不变量,我们就能保证不犯错。


@王小川


人们讨论人工智能风险和伦理的时候,加入大量的个人想象力,这是不真实的。因此,需要对AI是什么、我们所谓的公平到底是什么,在行业专家里需要有交叉的学习。


怎样界定公平性是一个特别大的话题,公平性在不同历史时期是不一样的,甚至在不同的意识形态下也不同。

公平性背后的问题非常复杂,对公平性的理解,法律学者、技术学者有相当不同的视角,法律上、经济上、政治上有诸多思考。西方有西方的定义,很多地方可以借鉴,但我国也有自己的一套判断标准,这件事情并不是老百姓或者是技术工作者一拍脑袋就能够想清楚的一件事情。我们要加强这方面的互相学习,技术人员学习设备问题、学习法律问题的理解,法律学者需要对技术进行更多的了解。此外,媒体对AI有很多渲染,对它的能力所及有较多夸张,甚至展现出其无所不能的样态,导致人们讨论人工智能风险和伦理的时候,加入大量的个人想象力,这是不真实的。这种情况下,对AI是什么、我们所谓的公平到底是什么,在行业专家里需要有交叉的学习,这是很重要的。






- Rishab Soni -


议题二:从技术以及其他的视角,怎样客观、公正地看待AI系统在预测和决策过程当中所体现出来的公平性的风险,到底都有哪些方面可能存在一些公平性的风险,主要的体现形式以及存在的方面?


@山世光


AI公平性问题本质上是社会公平性和歧视性问题,是社会人脑中的公平或歧视的映射。


我理解,这个问题想要讨论的是AI公平性风险的来源是什么。

AI公平性问题本质上是社会公平性和歧视性问题,是社会人心中的公平或歧视的映射。在AI算法和系统设计以及应用的全流程中,涉及到的方方面面的人,都可能会有意或无意的引入AI公平性的问题。下面我们就梳理一下这个过程,看看有哪些方面可能引入歧视或偏见问题。首先,在AI产品的需求调研阶段,企业里会有产品经理,即所谓PM,他们会去调研市场上需要什么样的产品,其中涉及什么样的AI技术,这个过程中就很容易因为产品的目标用户群体设定不周全而引入潜在的歧视风险。例如,在疫情期间,健康绿码类产品就给大量不使用智能手机的老年人的出行带来了很多麻烦。当然,并不是说企业的产品不能没有“目标人群”,我这里指的只是类似于健康码这样被设定为所有人类必需品的“产品”

接下来,在这类产品或系统的总体设计或详细设计阶段,不难理解,系统设计者也会有意或无意的引入类似的可能偏见。再接下来,进入AI算法的设计阶段。首先是AI算法中优化目标函数的设置,特别是对深度学习而言,主要是所谓Loss函数怎么设计,如果这个目标函数在设计的时候没有考虑公平性,或者没有施加目标人群多样性等约束条件,就在算法优化目标设定上埋下了不公平和歧视的又一粒种子。

再接下来是如何实现设定的目标函数。即使是上述目标设置非常公平,没有歧视、没有偏见,实现方式也可能带来偏见和歧视问题。当前AI领域,以深度学习为代表,数据驱动的统计学习是当前AI的主流实现方法。这些统计的方法必然受制于数据。首先在数据收集阶段,数据建设人员会按照算法设计者的要求收集和标注数据,他们都可能有意或无意的未能周全的设定数据收集需求,或者难以收集到“没有偏见”的数据,从而导致数据多样性不足、代表性不足、数据不均衡等问题,比如对老人、小孩、弱势群体的关注度不够等等,从而带来数据上的偏见,进而导致统计学习方法的结果偏见。尽管学术界有一些方法可以部分应对样本不均衡等问题,但如果算法设计者没有采用或者考虑不足,还是会带来有偏的结果。即使不使用基于统计学习的AI算法,例如采用更传统的知识驱动的AI方法,则其同样非常依赖于AI算法设计者脑中的“专家知识”,而这些专家知识同样可能因为其认知的局限性而导致有偏的结果。

之后,在AI算法实现之后,我们还需要对其进行评估,以决定其性能优劣。当前,AI算法的评估多数是以准确率、正确率等技术性指标来进行的,考虑的主要还是在既有数据上的正确性和准确度等。如果在这个过程中没有充分考虑公平性、多样性等避免歧视和偏见的指标,会导致过度关注准确率等技术性指标,因而不能识别出AI算法中的偏见。

最后,在AI产品或系统实际应用部署或上线阶段,如果部署者、运营者对于AI算法的偏见没有认知,因而在部署和运营阶段,没有设计应对AI算法中潜在偏见的预案,结果就会必然带来有偏见的后果。

总之,在AI产品或系统应用的全流程中,所涉及的每个人都可能有意或无意的引入偏见,种下不公平的种子。正因为如此,每个AI从业者都要对这个问题做到心中有数,避免将自己头脑中的偏见带入AI中。


@杨强


比如有一个油田,并不是我们发现后就要立即开采它,因为也许它上面会有很多野生动物和复杂生态。同样,如果AI面临可以通过“杀熟”攫取利益的情况,即使实施不公平的“杀熟”行为后,被“杀熟”方需要继续接受“杀熟”方服务,这种行为也不应该实施。


预测和决策的公平性和风险是一个很大的题目,这个题目永远没有答案。预测的准确与否,取决于很多因素:有工程师的优秀与否、有算法的设计完善与否、目标函数全面与否等。而预测本身就是为后面的某个模块在做参谋,这个参谋的风险有多大、公平性好不好,其实在说这个参谋是否尽职。如果参谋部没有把所有的信息告诉指挥官,那就会造成不公平或者高风险;如果其预测准度很差,同样会使指挥者不满,所以我们希望预测越准越好。

参谋部给指挥者提供了一些建议,指挥者对这些建议应不应该做、怎么做,并不是只要具备了有效信息,就要立即做出决策,比如有一个油田,并不是我们发现后就要立即开采它,因为也许它上面会有很多野生动物和环境。同样,如果AI面临可以通过“杀熟”攫取利益的情况,即使实施不公平的“杀熟”行为后,被“杀熟”方需要继续接受“杀熟”方服务,这种行为也不应该实施。

在对抗学习的观点中,存在一个generator(发起人),他可以随意产生一些artifact式的话语或文字。还需要一个discriminator(鉴别者),起到批判与监管的作用。这两个系统的交互最后达到平衡的时候,既能保证满足约束,又能保证精确度是最高,这是技术工作者应该发展的方向。


@王小川


到底是按“需”还是按“劳”的问题,是今天在数据问题、隐私问题之外,依然面临社会性的问题。


技术中的“偏见”其实是一个中性的词,如果用中性去理解“偏见”,它是一个学术词,理解为“歧视”,对偏见问题可以在社会性的话题中讨论。

美国对大学生提供一项助学贷款,名校的学生毕业之后找工作更容易还贷,而普通学校或者是二三流学校毕业生的还款能力很有可能很差。这种情况下,名校的学生贷款利率会更低,普通学校学生的贷款利率会更高,这就产生了不公平性。名校和差校的贷款利率不一样,意味着真正还款的人为不还款的人买单,又存在差异性。这时,联邦政府要求制止贷款歧视,即好学校和差学校的贷款利率不能个性化。而私立的贷款机构,只针对好的学校提供更低的利率,如对常青藤学校学生提供低息贷款。这就出现了很难堪的局面:好学校的学生没有必要申请利率较高的政府贷款,转而申请更低利率的民间贷款。而差学校的学生就可以申请政府贷款,没有好学校的学生优质贷款的还款能力,往往进入不敷出的状态。因此,这个很典型的案例反映出,我们看似公平的政策,往往在社会实践中无法实现。

今天的“今日红”医疗保险中都有这样的讨论,在哲学层面讨论到底哪个是相同的、哪个是不同的,这个“同”,一个是需求是否相同、一个是贡献是否相同,应该是按需分配还是按劳分配。如果大家相同,按照需求级分配,不考虑回报,不是按照劳动成果分配,如果是按照劳动分配的时候,每个人是不同的,有些人得到服务好、有些人得到服务差,又缺乏普惠的公平性,这个东西最后就是对人的“同”还是“不同”,到底是按“需”还是按“劳”的问题,是今天在数据问题、隐私问题之外,依然面临社会性的问题。






- Rishab Soni -


议题三:怎样利用AI技术实现更大的社会公平,或者说已有的这些社会上的不公平的现象,有哪些是我们能够通过AI技术得到更好解决的?


@段小琴


1、AI应用能够帮助公平地分配人工智能的好处,不让任何一个人在数字世界中掉队,让科技有温度。

2、AI技术有可能去帮助识别人类社会现存的偏见,推动世界朝着更公平的方向前行。


针对AI如何解决不公平的现象,可以从两个维度探讨:

第一个维度是从AI应用的角度,AI应用能够帮助公平地分配人工智能的好处,比如普惠司法、拓展法律的可及性、以及刚才分享的普惠教育以及普惠医疗等,这些都是能够让更多的人参与到数字红利里,反映了多元包容,不让任何一个人在数字世界中掉队,让科技有温度,这是从AI应用角度可以提供的一些公平性帮助。

第二个维度是从AI技术本身出发,AI有可能去帮助识别人类社会现有的偏见。我们通过个人去做公平性的判断是主观的、因人而宜的,不同的人对公平有不同的理解,即便是同一个人,在不同的时期对公平作出的判断也是不一样的。如果通过这种算法来做这种决策的时候,至少决策是一致的,不管决策结果是否公平,但能够提升决策一致性,进而有可能推动世界朝公平方向发展。此外,我们还可以通过AI技术,判断输入数据和预测的结果之间的关系,来揭示现有流程中可能存在的偏差,可以分析一下这些偏差的引入,如果这些偏差没有根据,在实际决策过程中就可以加以调整,减少偏见的影响。


@王小川


乐观的是,在社会保障、教育、医疗领域,AI技术的提升能使更多的人普适获得优质的服务。风险在于,资源不足时,AI资源分配有可能会误伤或者误杀普适价值。


由于资源的稀缺性,在过去很多有需求的人可能得不到相应的服务,比如优秀的专家只能服务少数人。但随着AI技术的提升,更多的人普适获得优质的服务,因为AI复制能力比人类强。搜狗在这个月刚刚发布的一个新技术,手语的合成主播,聋人的第一母语是看手语,看文字会难很多。当机器取代人,能够广泛提供手语翻译能力的时候,这个时候听障人士就可以普遍受益。推及教育、医疗领域,一旦机器能够把顶尖的资源快速复制,这对弱势群体、偏远地区就会起到非常好的效果,这在教育和医疗界中是一件乐观的事情。

但风险也会并存,当AI更多参与人类的决策判断后,用AI来进行资源分配时,如果资源充足人人可获,问题就不会显现,但如果资源不足的时候,AI资源分配有可能会误伤或者是对普适价值的误杀。这需要社会更广泛的讨论形成共识,实现企业的社会责任。






- Leonardo Yorka -


议题四:目前,人工智能公平性相关的很多技术、标准和法规,欧美国家比我们出发的早,在这个方面的关注可能比我们更多。而人工智能作为当前国际竞争的重要的战场,中国的公司最终也要面临着国际大舞台上的竞争。在这样整个背景下,我国社会及企业应该怎样应对AI公平性、所谓的机会和挑战?中国社会是如何看待公平性的?虽然我们刚才已经提到了公平性的概念是相对的,针对不同的时期、不同场景、不同的群体都有不同的定义,但它是不是存在一些普适的层面?这些普适的层面才能够让我们构造一个具有世界共同体的所谓的标准,才有了各个不同国家企业进行共同竞争的平台?还是说中国社会有很强的复合型我们需要带更有特色上发展AI公平性的应对措施?


@山世光


1. 我们不可能脱离中国的经济和社会发展阶段讨论AI的公平性问题。中国在AI技术应用层面和西方认识确实有差异,这种差异不能简单地以对错评判。

2. 对于公平和效率如何平衡,应该有序地从过去更关注效率,逐渐过渡到更多的把公平性约束条件引入到我们的目标函数中。


中国和世界既有共性,又有差异性,这一点是毋庸置疑的。咱们中国确实有中国的历史、文化特点,这这在很大程度上决定了我们现在应该怎么考虑这个问题。在AI技术应用层面,我们也确实和西方世界有差异,这种差异不能简单地以对错评判。以人脸识别技术为例,我们中国大量部署了人脸识别系统,在很多领域也确实起到了非常好的作用,比如公共安全领域,金融支付领域。但在西方,欧美通过严格的立法,大大地约束了它的应用。很难说西方与中国孰是孰非,这是历史文化差异性所致。

在这样的视角下,我们不可能脱离中国的发展阶段讨论AI的公平性的问题。“仓廪实而知礼节”,“经济基础决定上层建筑”,中国的经济水平发展至今,人们对公平性的理解也在悄然发生着变化,对公平性和效率问题的认识也在不断演变。例如,坦率说,在过去很多年,我们对很多特殊人群的关注是不够的,例如对各类弱势群体。而过去几年,国家和社会对他们的关注开始大量增加。以我所在实验室为例,过去几年,我们对弱势群体的关注也在增加,我们在开发面向聋人的手语识别系统,唇语识别系统,也在面向自闭症儿童研发相关的AI技术和系统,考虑如何给他们提供力所能及的帮助。中国经济发展到这个水平了,让人人受益于社会发展带来的福祉是必然的。

对于公平和效率如何平衡,我认为应该有序地从过去更关注效率,尽快但平稳地过渡到把公平性的约束条件引入到我们的目标函数设定中。但这个过程恐怕也不能一蹴而就。从中国的发展历史来看,对于社会资源如何配置的问题,总是会首先考虑大多数人的利益,而这在某种程度上就会牺牲少数人的需求,这本身是一个社会性的问题。在公平和效率之间,技术人员自身也必须要在理念上有所转变,从过去更关注效率、关注这件事能不能做成,到现在和未来要更多地考虑技术的社会价值属性,考虑公平性等问题。当越来越多的技术工作者具备了社会公平觉知的时候,公平和效率之间的平衡也会逐渐变好,从而可以更好地配合社会学家、法学家更好的平衡公平和效率问题。


@杨强


我们应该有信心、有能力在AI技术领域引领世界,需要做到“关注”——“参与”——“引领”。


普适和普惠是深入到中国人的骨子里的,中国社会主义社会的宗旨就是让每个人都能富起来,实现共同富裕。在技术方面,我们一点儿也不输给外国人。我近二三十年来一直在研究迁移学习,它一开始是一个小众领域,现在已经分出了很多分支。它的功能是能够赋能给冷起动和小数据的领域,让大家受益于资源中心。大概在五年前,新华社发表了一篇《在迁移学习领域,中国人是引领世界的》的文章,确实如此。去年我们也出版了世界上第一本关于迁移学习的著作。

在联邦学习领域,一开始是谷歌推出了安卓系统的一个“数据联邦”,使其在安卓系统能够符合欧盟的要求,我们把它拓展到企业的生态,称之为“纵向联邦”,并且给出了一个全面的理论框架,推出了第一个开源软件,获得广泛的应用,同时引领了国际标准,现在西方很多初创公司都在问我们要代码和系统。在这些方面,我国无疑是全世界的联邦学习的引领者。我们在政策方面也非常关注,希望通过联邦学习推动普惠金融,利用大数据合法合规地让中小银行和一些非金融企业能够享受到非常昂贵的信用信息,进而支持小微企业。微众银行也率先推出了这样的系统,能够让小微企业受益。

联邦学习不仅仅适用于信贷、征信领域,在营销方面也前景广阔,过去互联网广告的实现,需要用户要把所有数据进行上传,然后才可以做到广告的个性化。所以大平台是可以对互联网广告进行垄断,现在我们利用联邦学习,把广告主、媒体平台和技术提供方三方分开,这样数据可以不经过互传,达到同样的宣传效果。字节跳动、百度、腾讯等大型互联网平台已经纷纷建立自己的联邦学习平台,而苹果、谷歌公司把他们的“cookie”(保存在客户机中的简单文本文件)全面转向一个新的联邦技术,这些都由我国引导,完全不输于外邦。

AUTOML虽然由谷歌提出,但谷歌没有在商业化上做得很好,反而是中国人率先做出一个非常成功的商业案例,就是“第四范式”。第四范式的口号是“AI for Everyone”,旨在让非技术的业务公司也能够享受到人工智能的红利。

以上三个例子,说明我们应该有信心、有能力在这方面引领世界。但是我国也存在一些不足,使得大家觉得我们是在跟跑不是领跑,所以应该用三个词来描述我的期望:第一个词是“关注”,关注人工智能,比如可解释性、伦理、法律等方面。第二个词是“参与”,一定要参与到国际讨论当中,有我们自己的声音。第三个词是“引领”,有信心去引领一个重要的方向。






- Gianfranco Bonadies -


@申卫星


1. 在信息技术方面,我们在某种意义上已经不是传统的跟跑,而是带有很强的引领性。

2. 未来的AI立法应该是三驾马车,技术、法律和伦理,技术是根本、法律是保障、伦理是社会基础。


中国的立法进入了非常关键的时期,按照我们的立法规划,2020年在局部区域形成相对完善的法规,到2025年具有很强的管控能力。现在来看,在信息技术方面,我们在某种意义上已经不是传统的跟跑,而是带有很强的引领性。但在数据治理和人工智能治理方面,我们还有一定差距,我们应该尽快抢占立法的制高点——我们要有一个系统的立法,不仅能够对行业的发展具有推动和创新的作用,也能给投资者增添信心,在世界范围内树立起良好的形象。具体讲有三点:

第一,人工智能立法最大的困难在于安全和发展的矛盾,比如我们都讲数据是第五大生产要素,从资源到要素,到资产。这样的概念一经提出来之后,立法上并没有跟进,其原因在于没有解决数据确权的问题。在这种情况下,我们要发展以数据为基础的人工智能产业,但数据本身又和个人的隐私、信息相关,如何在推动数据的流通和利用的基础上加强对个人隐私保护的平衡,成为目前的难点。难点之一是数据确权,另一个是技术上的问题。关于数据确权,我提倡数据的所有权归属于用户,因为用户是数据产生的源发者,手机一天所产生的大量数据,对用户而言可能没有意义,但对产业来说可以进行用户画像,进行个性化广告推送,因而具有重要的价值。但总体上讲,数据仍然是用户产生的,尽管平台投入了大量的资本、技术和劳动力,但其并不能成为一个所有权者。其可以享有用益权,所有权用益权二分,既能够保证数据支配,又不妨碍数据的再产生和利用。采取数据两权分立的模式,所有权归用户,用益权归平台。归用户的核心是尊重用户的知情同意权,平台得到许可就可以使用,以此达到平衡。

第二,解铃还须系铃人。现在信息技术引发的问题,都是因为技术进步带来的,解决这些问题还需要从技术上着手。某种意义上讲,技术的进步可以消除掉大部分技术带来的副作用,比如对学生的培养当中特别强调技术的社会属性和价值属性。技术开发者如果有这样的意识,并且从开始就树立这种意识的话,可以确保技术产品更加符合以人为本的人性需求。特别是隐私计算包括联邦学习、可信计算、加密等新技术的隐私技术的使用,有利于解决这些矛盾。我们在给一些政府做智慧城市建设时发现,不同部门所收集的数据都在各自部门存储,首先面临的问题是如何把这些数据汇集到一起,进行信息融合。法律上最大的障碍在于数据使用的目的和范围,当初这些部门在取得这些数据的时候带有特定的目的。卫生健康部门取得的“健康保”数据是医疗防控的需要,用在其他的地方,超范围使用的话,需要重新得到授权,成本因而增加。但有了联邦学习技术,就可以解决数据的可用而不可见,避免了流通数据中隐私保护之间的冲突,以此为例来解释解铃还须系铃人,这一点非常重要。

最后,需要将自律和他律相结合。他律是指通过法律的方式进行规制,法律通过一些强行的规定,包括最开始提到的个人条款的控制、第三方的评估、审计等,甚至出现了一些问题之后,通过惩罚性的赔偿(如《个人信息保护法》规定的惩罚性赔偿为5000万或者是营业收入的5%,这是相当高的比例)促使企业产生他律的需求,甚至促使企业进行自律。这种自律和他律的结合也是必要的,真正的自律是以伦理教育为基础,企业在技术开发的同时也在进行伦理上的宣传,未来的立法应该是三驾马车,技术、法律和伦理,技术是根本、法律是保障、伦理是社会基础。


@段小琴


目前标准制定的方向是将已有的公平性工具所实现的功能的特征点、测评点抽象出来,推入到国际标准中去,是先有实践,再从实践中提炼出标准的方式。我们要积极抓住这个趋势,开发一些公平性、可解释性等AI治理工具,并依托这些工具实践积极参与到国际标准的制定过程中。


AI标准制定和普通的通信制定不太一样,通信标准是先有标准,然后基于标准做产品,这样才能互联互通起来。但就AI的标准制定而言,个人认为更多的是先有实践,再从实践中提炼出标准。从公平性的特定角度来看,目前产业界在公平性评估上做了很多努力,开发了很多工具和实践,主要有四个方向的工具:

第一,分析数据集的形态和质量的工具。能够让开发者、工程师清楚地看到他们用于训练的数据特征的分布,比如性别、年龄等等,至少要满足统计学上意义的分布是否合理,从而帮助减少潜在的偏见。

第二,分析算法模型的公平性的工具。开发者可以上传一个模型,一些工具可以对模型的公平性进行评估,甚至对模型的非公平性进行纠偏或者是做一些优化。

第三,帮助开发者探索、更好理解模型的工具。建模者可以对一些数据点进行编辑,把这些数据点改大或者改小,通过观察数据点的变化,能够对模型结果进行一些预测,这样才能得知哪些数据要素对结果的预测具有决定性的作用。

第四,公平性约束下的训练工具。比如算法训练的框架包含了公平性约束条件,采用这种算法框架训练出的算法是满足统计学意义上的公平,包括人口的分布、机会的均等等。

产业界已经有这么多的工具,目前从标准制定的方向是把业界已有的工具所实现功能的特征点、工具的测评点抽象出来,推入到国际标准中,一方面可以加速功能标准的制定,另一方面可以形成工具和测评标准的连接,推动标准制定之后的落地和执行,目前国际上的标准制定就是这样的一个趋势。我国在AI治理工具的探索上还相对少一些,要抓住这个趋势,开发一些不管是公平性还是可解释性等AI领域的治理工具积极参与到国际标准的制定过程中。


议题总结


@申卫星


人工智能的规制需要法律、技术、伦理三驾马车,法律是根本、技术是保障、伦理是基础。


@杨强


首先要关注,其次要参与,然后要引领。


@段小琴


我们今天谈的是公平性,不管是人类做决策还是机器做决策,决策公平的要素是非常多的,这些要素可能是相互冲突的。对于企业来说,我们实现人工智能系统的时候,非常希望政府、学术界和产业界能够共同制定常用场景各种要素的优先级排序,如果有优先级排序,对我们实现系统的公平性非常有帮助,而且是有很好的指导。这是我的第一个建议。

关于第二个建议,目前刑法对程序的公平相对定义比较成熟,但对人工智能的程序公平的定义到底是什么?可能我们在追求一些实质上的公平结果上有一些瑕疵,但如果我们能够确保程序的正义或者公平,大家可能比较容易接受有瑕疵的结果。对企业来说,我们也愿意把公平这样一个相对偏主观的要素落地到客观的、可落地、可知性的操作层面,比如说落地到程序公平上,这就涉及到对程序公平的定义、如何评估等。作为企业方,我们希望政府及学术界能够给出有益的探讨和指导,包括欧盟的HLEG委员会也提到一些程序公平考虑的方向,比如可以对人工智能系统的决策提出异议或者是寻求一些有益的帮助、有偿的补救,但这些都是相对比较零散的和碎片化的方向,作为企业,我们希望有更系统的内容,来帮助我们塑造程序公平的框架。


@王小川


第一,在主观上需要保持积极乐观,我们相信AI技术对人类是有福祉的,对最终政府治理和大众服务有帮助,因为中间确实有很多异议的声音容易妖魔化,这是主观上的态度。第二,客观上就事论事,希望分清楚具体场景,到底是隐私问题,是风险问题还是公平性的问题,是短期问题还是长期问题,要分场景做更具体的讨论进行总结,主客观上都应有一些自己的态度。


@山世光


第一,我建议加强AI科技研发、应用全链条上涉及到的人员对于AI偏见和公平性问题的觉知,只有大家都有了公平性问题的觉知,我们才有机会实现刚才申老师提到的“技术是根本”的目标。第二,希望全社会关注,特别是对弱势群体的关注,更多思考如何用AI赋能他们,让他们有机会能够享受到社会发展带来的福祉。






观众提问


问题一:如何在互联网内部搭建公平的AI算法并且落地,是否会涉及到成本问题?


@杨强


成本问题必然涉及,任何事情都有成本,关键是看是否必须要干这件事。现在有一句话说“一切都会被数字化”,我要加一点“一切都会被隐私化、一切都会被联邦化”,如果别人保护隐私、关注伦理,唯独你是特立独行,终将无法发展。因此,我们要关注整个趋势,也许在短时间内会有成本的投入,但长时间内,这种投入越早,成本花费得越少。

问题二:AI公平性保障是否主要依赖政策?政府官员是否能够去理解AI的特点?从而制定比较科学的政策?


@王小川


之前在一些会议上,我和科技部部长以及更高的领导有所接触。听到他们的想法,我很清楚相关领导在这方面高瞻远瞩的认识,他们对技术的理解,使我印象深刻。与会专家特别担心人工智能带来失业的问题,这是大家很容易想到的问题。从大的历史观分析、从各个时期发展理解,政府领导也非常清楚,这些问题是可以被克服和解决的。在做顶层理念的时候,他们对大目标有清楚认识。

问题三:当AI的算法变成黑匣子,如何提高公众对AI技术的安全感?


@杨强


一方面,从技术上来讲,大家都关注一个问题是“可解释性”,但从“可解释性”研究发现,各自有各自小的地盘,很难真正地给AI一个白箱,具有透明性的AI系统是不可用的。另一方面,黑箱确实很难让人得到满意的解释。所以在这两方面应该有一个合理的平衡,比如行医,患者不知道医生作出判断的全部过程,因为这是在医生大脑里进行的。但医生却能基于患者对他的信任,用几句话进行解释,并且获得了患者的认同。因此,用户接受短视频的推荐等行为都是同样的道理,所以即使我们AI系统是黑箱,是不可克服、可解释性的障碍,这两个问题都是可以解决的。

主持嘉宾:崔鹏|封面:Rishab Soni

主讲嘉宾:段小琴、申卫星、杨强

讨论嘉宾:山世光、王小川

文字整理:卞哲、未来论坛 |排版:神经现实-光影



































本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
1. 本站所有资源来源于用户上传和网络如有侵权请邮件联系站长!
2. IPFS分布式储存
3. IPFS挖矿FIL就上www.ipfs1100.com 
回复

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则