可信人工智能
出自 MBA智库百科(https://wiki.mbalib.com/)
可信人工智能(Trustworthy AI)
目录 |
可信人工智能(Trustworthy AI)一般指公平的、透明的、可解释的、稳健的、保障安全的、尊重人权和隐私、可问责的人工智能系统[1]。
可信人工智能的原则[2]
2019年5月由 OECD(经合组织)提出的五项基本原则,也就是同年6月于日本茨城筑波召开的 G20(二十国集团)贸易和数字经济部长级会议声明的《G20人工智能原则》。
利益攸关方应积极参与可信人工智能的负责任管理,追求对人类和地球有益的结果,例如增强人类能力和创造力,促进对弱势群体的包容,减少经济、社会、性别等方面的不平等,及保护自然环境。
- 以人为本的价值观和公平(Human-centered Values and Fairness)
a) 参与者在整个 AI 系统生命周期,应尊重法治、人权和民主价值观。包括自由、尊严和自主、隐私和数据保护、不歧视和平等、多样性、公平、社会正义和国际公认的劳工权利。
b) 为此,AI 参与者应实施客观实际的、并符合最新技术水平的保障机制,例如允许进行人为干预。
- 透明度和可解释性(Transparency and Explainability)
参与者应承诺对 AI 系统进行透明的和负责任的披露,提供有意义的、客观的、并与最新技术一致的信息:
1). 促进对 AI 系统的一般理解;
2). 使让利益相关者了解他们与人工智能系统(包括在工作场所)的交互;
3). 使受 AI 系统影响的人,能了解相关结果;以及
4). 使那些受到 AI 系统不利影响的人,能根据简单易懂的因素信息以及用于预测、推荐或决策的逻辑,对结果提出质疑。
- 稳健性、保障和安全性(Robustness, Security and Safety)
a) AI 系统在整个生命周期内应保持稳健、有保障和安全,从而在正常使用、可能误用、或其它不利条件下,能正常运行且不造成不合理的安全性风险。
b) 为此,参与者应确保 AI 系统生命周期中跟数据集、流程和决策相关的可追溯性,以便对 AI 系统的结果和调查响应进行客观分析。
c) 参与者应根据其角色、环境和行动能力,对 AI 系统生命周期中的每个阶段、持续应用系统性风险管理方法,以解决与 AI 系统相关的风险,包括隐私、数字安全、安全和偏见。
- 问责制(Accountability)
参与者应对 AI 系统的正常运行负责,并根据其角色、背景和符合最新技术的要求尊重上述原则。
上述五项原则里提到的 AI 参与者(actors),定义为在 AI 系统生命周期内至少参与一个阶段的自然人和法人,例如研究人员、程序员、工程师、数据科学家、终端用户、工商企业、大学和公私实体等。
可信人工智能的发展意义[1]
人工智能作为新一轮科技革命和产业变革的重要驱动力量,广泛应用于医疗、金融、交通等领域,带来了巨大的经济效益与社会效益。据 IDC 相关数据,2021 年全球人工智能产业规模为 3619 亿美元,并预计在 2022 年同比增长 19.6%,超过到 4300 亿美元。然而随着人工智能应用的深入,其自身的技术缺陷以及带来的决策偏见、使用安全等问题引发了信任危机,可信成为关注焦点。技术上,算法脆弱易受攻击带来的危险性;黑箱模型导致算法不透明,使得人们无法直观理解决策背后的原因。应用上,训练数据中存在的偏见歧视导致公平性缺失;以人脸识别技术为代表的生物识别信息的频繁使用增加了隐私泄露的可能。伦理上,人工智能系统决策复杂,难以界定责任主体,带来伦理安全问题。构建可信人工智能成为缓解和消除这些担忧的必然选择。
学术界率先推开了可信人工智能的大门,在可信人工智能概念提出后,逐步推广可信共识。2020 年起,可信人工智能领域研究论文数量飞速增长,围绕鲁棒性、可解释性、隐私保护等方面的技术研究持续升温。随着产业界开始落地实践,针对人工智能产业化过程中的可信探索与实践不断成熟,融合可信要素的人工智能产业生态开始兴起。
可信已经成为人工智能产业发展必备要素,驱动人工智能规范发展。人工智能只有可信可靠,才能获得可持续性发展。对用户而言,可信要素将推动人工智能技术黑箱趋于透明,增强用户对人工智能的信任感。对开发者而言,可解释的人工智能有助于全生命周期的企业管理,有助于履行内部报告和外部监管合规义务,确保应用和服务在最大程度上减少偏见。 可信作为传统领域数字化转型赋能因子,培育数字经济新兴增长点。随着人工智能产业对可信的探索与实践不断成熟,其代表的透明度高、可解释性强、确定性高的特性将与国防、法律、医疗等领域深度结合,缓解当前应用人工智能时所遇到的隐私保护、系统稳定等问题,以可信赋能数字化转型,甚至衍生出新的细分领域赛道,促进传统产业生态健康高质量发展,成为数字经济新的可持续增长点。
可信人工智能生态分析[1]
(一)基础能力
1.平台系统
人工智能平台和系统通过搭建云边端协同模式,保证模型在不同的现实环境中都能部署和运营,帮助企业和开发者将精力聚焦在算法开发、模型验证和业务运营中,有效提升研发实施效率。近年来,随着机器学习和深度学习算法的深入实践,以及预训练模型、低代码/无代码接口、自助服务和生命周期自动化工具的快速发展,与人工智能平台发展相互促进,更具有可信属性的人工智能平台系统迅速发展。
目前,人工智能平台系统与可信理念的融合在数据处理、模型构建、部署和支撑服务等方面还面临不少挑战。数据处理方面,数据接入、数据分析、数据管理和数据标注已经普遍实现,团队标注成为标配,数据预处理的自动化实现和无监督数据增强还需要持续探索。模型构建方面,虽然现有人工智能平台和系统普遍配置了丰富框架和算法,支持交互式、可视化、自动化多种开发模式和单机/分布式多种训练方式,但是模型评估建议能力和可解释性还需要增强,特别是面向文本、语音和视频场景的自动学习建模模版能力。此外,还需要提升基于规则的模型自动更新和模型在端云设备的协同部署能力,加强GPU虚拟化和池化,优化数据和模型的安全性。
人工智能企业主要围绕业务生命周期,重点构建系列可信能力。一是将内置模型保护于框架中,实现模型的安全、可信,通过鲁棒性评测、对抗测评、对抗训练、模型加密等方法增强模型保护能力,为人工智能模型安全性评估和增强提供支持。以对抗训练为例,通过在输入上进行梯度上升,在参数上进行梯度下降,从而向增大损失的方向增加扰动。二是搭建混合引擎架构,实现跨场景可信协同,集成运用隐私评估、差分训练、联邦学习等多种技术方法,通过数据安全交换协议有效利用多源数据,仅协同经过处理后的、不带有隐私信息的梯度和模型信息,在保证用户隐私数据保护的前提下实现跨场景协同。一些场景和平台中,也选择加入区块链技术实现全流程的可记录、可验证、可追溯、可审计,以证书授权实现双向认证,确保参与方身份真实性。三是整合运用多种可解释技术,全面提升可解释性,融合语义级可解释技术、可解释方法工具集等技术,建立适当可视化机制尝试评估和解释模型的中间状态,整合数据治理、资源管理和应用管理核心能力,大幅提高模型的可解释性,让用户更理解、信任并有效地使用模型。早在 2016 年起,谷歌、IBM、微软、腾讯等科技巨头就相继推出可解释性工具与服务,探索人工智能算法可解释化。四是持续加强虚拟化和池化,提升运营维护和运营调度的可信能力,将服务器等物理资源抽象成逻辑资源,通过区分优先次序并及时调度分配工作负载,让 CPU、内存、磁盘等硬件变成可以动态管理的“资源池”,并实现计算资源的隔离。
2.数据安全
数据是人工智能三大要素之一。人类把需要计算机识别和分辨的内容打上标签,让计算机不断地识别这些特征标签,从而让计算机“学会”人类的理解和判断。只有经过大量的训练,人工智能算法才能总结出规律并顺利应用到新的样本上,因此,大量、多种类、标注精准的数据对人工智能训练效果极为重要。
可信人工智能在数据安全治理方面的应用主要集中在基于传统的人工方式难以处理的规模庞大、类型复杂的数据资产管理与分类分级,涉及安全、隐私计算、存证溯源、数据控制、计算处理等多种技术。在《网络安全法》《数据安全法》《个人信息保护法》等一系列法律法规和政策文件出台后,金融、电信、工业等行业均已出台行业标准,形成以法律法规和行业标准为引导加快推进可信进展的局面。企业主要以训练样本合成、可信多位标签、存储治理追踪、智能巡检与兜底等方式,通过建设自动化的数据分类分级能力,确保分散在组织各处各层面的各类数据能够被及时发现和准确标注,实现智能化的自动分类分级和安全保护。
可信贯穿数据采集、标注、存储和巡检全过程。在数据采集环节,以训练样本合成替代敏感数据采集。由于部分数据涉及到身份证号码、住址等个人隐私信息,敏感程度很高,收集难度极大,因此在数据收集阶段,业内主要使用公开样本数据和自主合成样本的方法,一方面收集和使用相关公开赛事的数据样本,另一方面开发隐私数据训练样本自动合成算法来模拟真实样本数据。
为解决数据量不足的困难,大多选择使用旋转、加噪等数据增强方法来扩充训练样本。通过构建可信的多维标签体系,进行灵活的数据分类分级,融合目标检测、光学字符识别、图像分类、人脸识别、文本校验、风格识别等算法模型,结合多方信息联合判定校验,输出多维度标签,进一步提升隐私数据识别和治理的准确性,克服单一模型难以应对复杂的分级场景和不同治理需求、解释性较弱的问题。严格执行分级加密存储和明暗水印追踪,对于分类分级识别后的高敏感数据,通常需要经过加密后进行存储,基于区块链、数据沙箱等技术,实现长久稳固储存、全方位安全防护、安全共享;在文件分发流转过程中,添加对应的明暗水印以便数据泄露后展开追踪调查。强化智能巡检与兜底,推动可信能力的持续建设与优化,依赖安全运营专家人工验证需要耗费大量的人力,面对新增业务数据也很难及时发现异常,极易漏审、误审;通过智能巡检和兜底机制,将安全专家经验与机器学习能力相结合,并结合黑盒验证、红蓝演练等推动可信能力的持续建设与优化。
3.计算能力
人工智能发展的关键要素是数据,而让数据发挥作用的关键则是算力。目前,各行各业都存在更多维度、更大深度的智能需求,而在这背后需要更多的算力来为人工智能算法提供处理能力。算力已经成为助推经济发展的动力,据中国信通院测算,在算力中每投入1元,可带动3-4元经济产出,“算力正成为数字经济时代的重要驱动力”已成为共识。
在这种情况下,以人工智能芯片为代表的计算架构也承担了越来越多的敏感数据计算职能,对可信有极大的需求。例如,智能驾驶场景下,从感知系统进行数据收集,到车载计算平台实时处理,再到快速传输分析结果,每一个环节都离不开人工智能芯片的支持;由于智能驾驶场景较为复杂,一旦失效可能引发严重后果,对稳定性有很高要求。基于此,建立可信智能计算能力成为人工智能算力发展的一大趋势, 欧盟委员会人工智能高级专家组( AI HLEG)于2019年和2021年发布的《可信人工智能政策投资建议》和《人工智能联合计划》就建议共同研发边缘端AI芯片,从基础软硬件方面支撑可信AI系统。
目前,全球首个内存安全的可信安全计算服务框架MesaTEE 利用Intel SGX 技术和 HMS 内存安全技术,兼顾云上数据代码完整性、保密性和内存安全带来的不可绕过性;全场景 AI 框架昇思 MindSpore 成为首个获得 CC EAL2+证书的人工智能框架。通用的和可解释的智能芯片设计流程将成为下一个发展重点。许多芯片设计为了适应不断变化的模型结构,需要在设计的通用性和效率之间寻求平衡,带来较大设计难度。未来,可信的智能芯片设计可能使用神经符号化方法构建可组合的模型,将芯片转变为由对应算法、具有可解释硬件模块的集合,从而在保证通用性和可解释性的前提下实现所需的性能。
(二)算法技术
1.计算机视觉
计算机视觉技术囊括很多能够理解图像(包括图片和视频)的算法,得益于深度学习技术的不断进步,计算机视觉在近些年飞速发展,在感知领域的研究已经相对成熟,内容合成与图像识别等某些人工智能任务已经能够通过图灵测试,并在金融、安防、制造等场景中落地,拥有一批相对成熟的产品应用。
在为生产生活带来便利的同时,计算机视觉算法的应用也在隐私泄露、识别失效、偏见歧视等方面引发新关注。例如,在商业零售领域对用户在不知情的情况下进行人脸识别和营销活动等产生了个人信息和隐私保护问题,造成了恶劣的社会影响。面具仿冒、对抗样本攻击可能造成识别失效,此外,也可能涉及到针对不同人种、老年人的偏见歧视等伦理问题,美国一些零售店和警务工作中使用的面部识别技术会错误识别黑人,引发了抗议和监管。
为了增强计算机视觉算法的可信能力,产业界进行了多种尝试,不断提升计算机视觉算法可信水平,为重要产品提供核心能力支撑。一是通过联合解译和认知推理深入理解场景或事件,增强可解释性,人造物体和场景设计中暗含了潜在的、未以像素表示的实体和关系(近似于人类的常识),通过推理这些可见像素以外的不可见因素,使用有限的数据来实现各种任务的泛化,形成 “以小数据驱动大任务”的新型范式。二是采用数学可证明的形式,融合不同形态的噪声进行改造,以掩码等方法使其满足不可逆、可撤销、不可关联等特性,提升模型鲁棒性,避免样本不均衡,实现安全、可信且准确率高的识别。三是对于已有的生物识别系统,可以应用安全多方计算和同态加密等技术手段,在生物特征的密文状态下进行计算,并将最终结果恢复成明文,有效保护原始生物特征的安全。在实际应用中,同态加密与安全多方计算经常结合使用,在金融领域反洗钱和跨实体欺诈分析、抗击新冠疫情敏感健康数据等场景下得到应用。四是形成行业合力,推进与不同风险场景、主体结合的分级分类标准建设,例如,上海在全国率先立项人脸识别地方标准《公共场所人脸识别分级分类应用规范》,积极探索使用主体和实施主体对公共场所人脸识别系统的分级分类应用原则,并提出相应的评估方法;中国信通院发起成立“可信人脸应用守护计划”,联合多方力量,通过标准制定、测试评估和行业自律等手段,共同规范人脸应用健康发展。
2.智能语音
智能语音技术是人工智能主要算法技术之一,从最初只能识别孤立的数字以及有限的词汇,逐步发展到通过声音模式和特征设置参数实现基于大量词汇的连续语音识别,再到基于概率统计建模、基于深度学习的识别。目前,智能语音算法已经逐步成熟,在移动设备、汽车、家居等C端场景以及呼叫中心、在线客服等B端场景深入赋能,并逐渐渗透到安防、旅游、法律等行业中。
语音识别稳定性、语音诈欺等问题成为焦点。语音识别的鲁棒性问题显著,业内普遍宣称的高准确率,更多是在安静室内近场识别中实现的,在真实使用场景中则要考虑远场、方言、噪音、断句等问题,准确率会大打折扣。语言往往一词多义,语音分析目前主要是浅层处理,词义消歧依然是瓶颈,想要让机器像人一样运用知识储备结合上下文进行理解和交互,还需要更多的探索。此外,随着各种语音合成工具的普及,语音合成滥用等语音欺诈问题也随之而来,成为产业发展关注的焦点问题。 为解决以上问题,企业先后开展探索,积累了一批成功经验。
一是向用户充分告知相关风险,通过签署协议等方式对数据的采集和使用进行限制,允许用户对何时和如何上传使用语音信息做出选择,例如设置手动关闭语音采集装置的开关、允许不自动升级、只有在用户允许的情况下进行语音的采集和识别。
二是在数据存储、处理和删除等方面遵循各类法律法规的规定,推进技术向善,严格按照个人信息保护法、数据安全法、网络安全法、个人信息安全规范等国内规章制度以及欧盟 GDPR、美国 CCPA 等条例的规定开展业务。例如,《网络音视频信息服务管理规定》对基于新技术新应用制作、发布、传播音视频信息明确了安全评估、标识、信息管理、辟谣等方面的要求,避免利用智能语音技术侵害他人合法权益。
三是尝试基于大规模无标注训练,语音领域的无监督学习成功案例较少,有监督训练成本较高,因此,半监督学习获得广泛关注,即在海量无标签数据上训练大规模通用预训练模型,并对少量有标签数据进行精细调整,从而更好地强化训练效果,提升可信能力。这种利用少量带标注数据来训练大量无标注数据的超大规模自监督学习技术已展现出很强的通用学习能力。
四是语音对抗攻击与防御技术获得更多关注,语音领域的对抗攻击将从当前的白盒攻击,进⼀步进化成黑盒攻击,攻击内容将从当前流行的 untarget 攻击进化成 target 攻击。基于这些尝试,智能语音正在从以往基于语音交互的智能辅助工具形态进化为基于虚拟人多模态交互的智能助手形态。
3.自然语言处理
自然语言处理是人工智能从感知迈向认知的关键技术,近年来,自然语言处理加快与知识图谱等的融合,推动机器翻译、对话系统、阅读理解等技术在特定任务上超越人类水平,从而持续提升在搜索引擎、对话交互、个性推荐等场景的性能,并随着全球各地协同发展和语言文化交流融合而不断培育出新的需求。
自然语言处理在发展过程中还存在不少技术挑战,其中之一便是很难获取到大量高质量的标注数据。自然语言处理领域认知类任务较多,数据标注的时间成本和人力成本相较与语音识别、图像处理等感知类任务更大。从可信人工智能的视角来看,自然语言处理发展仍存在建模、融合、消除歧视等挑战。一是自然语言语义空间宽泛,依赖特定语料学习,通用性和迁移性存在瓶颈,难以有效建模;二是自然语言涉及多种模态,跨模态关系抽取、语义理解等技术还缺乏深层结构分析,难以精准融合;三是大型预训练模型可能导致对性别、种族和年龄等受保护属性的偏见,例如一项研究表明,通过某特定报纸和一家面向老年人的报纸训练的自然语言处理结果脱离了年轻人和女性的交流方式。
目前,自然语言处理领域中已经开展了不少可信相关工作。可解释性方面,采用特征重要性、替代模型、样例驱动、溯源、陈述归纳等机制提供解释。例如,构建基于 probing task 测试模型的语义理解能力,寻找简单的替代模型或者将模型的局部分类面简化;理论分析 RNN 的泛化性;运用一阶导数显著性衡量每个输入单元对最终决策的贡献量;注意力机制模拟人类理解语言时会集中注意到一些关键词的行为,在一系列任务上显著提升模型性能。此外,还可以模仿人类解决问题的过程进行可解释的结构设计,由于该架构包含模拟人类认知的组件,学习到的模型(部分)可解释。公平性方面,扩大和丰富样本数据来源,并对样本进行偏移,识别和减轻偏见,扩大自然语言样本来源范围和种类,除了常见的社交媒体、报纸等数据来源,将样本来源进一步扩大到维基百科、城市字典(Urban Dictionary),甚至圣经和兰经的解释及公开杂志。
在预训练模型使用的各个阶段尽可能消除偏见,一些算法可以在保持有用信息的同时,修改实际矢量以删除定型信息,实现对模型的偏移,从而改善公平性。可靠性方面,小样本学习性能和鲁棒性提升,同时出现了很多能够可靠评估模型的方法,性能指标逐渐由单一转向多元。通过数据增广、增加先验知识等实现小样本学习性能和鲁棒性的提升,有效避免故障模式的发生。以欺诈短信分类识别场景为例,通过对公开的短信数据进行改造,对样本量少的类别进行过采样操作,以及综合使用 Macro-F1 等多分类的评价函数、 FastText 算法等技术,能够有效提升模型的稳定性。随着近年来自然语言处理模型的快速改进,基准度量能力也在不断提升,动态对抗性评估、社区驱动型评估、跨多种错误类型的交互式细粒度评估、超越单一性能指标评估模型的多维评估等新基准逐渐出现。
可信人工智能的应用场景[1]
- 智慧金融
人工智能驱动金融服务应用程序已经成为金融创新的一大趋势,在金融产品设计、市场营销、风险管理、客户服务和其它支持性活动等金融行业主要业务链条均有落地,生物特征识别、知识图谱、智能语音等技术已经衍生出智能营销、智能客服等典型场景。
可信人工智能在金融领域的实践主要集中于业务运营、风险管控、销售营销等环节。在业务运营环节,匿踪私密查询等技术能够保护用户隐私,防止用户信息被误用滥用。金融机构在联合运营商、政务机构、保险机构、支付机构等获取相关客户信息解决日常业务的过程中,使用匿踪私密查询技术对查询方的客户身份ID进行混淆加密,使数据源方无法确切知道客户信息,有效避免客户身份 ID信息泄漏。通过不可更改的固件安全启动、硬件加密算法保证的加密信任链以及离线签名的加解密算法,保证系统运行环境的无人为篡改和可信安全性。
在风险管控环节,通过联合计算与统计解决风险信息不对称问题,丰富目标主体风险评价信息维度,提升金融服务的普惠性和公平性。通过安全求交等技术,横纵向打通不同领域数据,从而实现金融机构风控信息的全面补充,形成跨行业线上线下真实经营数据信息的评估链条,交换机器学习参数,提升对目标主体信贷风险洞察能力,实现本行优质高潜客户挖掘,有效缓解中小银行客户相对资质稍差的问题。支付服务环节,以注入式攻击防御方案增强支付系统安全稳定性。
针对刷脸支付等新型支付潮流和潜在的注入式攻击威胁,金融机构主要采用整套防控方案,既包含硬件环境检测+传感器参数+图像视觉特征融合的多模态防控方案+TEE+暗水印,又融合隐式多帧、微表情等算法创新,可以防御99.9%的注入式攻击。
人工智能作为一种“通用”技术,几乎渗透医疗系统所有领域,从临床决策到生物医学研究和卫生系统管理等,将临床医生从非临床事务中解放出来,在影像诊断、药物发现、肿瘤诊治等行医过程中甚至具有更高的效率。
可信人工智能在医疗领域的运用主要体现在医疗辅助诊断、药物发现与罕见病治疗方面。医疗辅助诊断方面,可信人工智能能够实现高质量医疗服务的标准化,缓解地区医疗水平发展不平衡的问题。通过数字化、标准化的专家经验和知识图谱,可将高质量医疗服务复制并输出,增加医疗资源的总体供给,快速提升基层医院的医疗水平,使得患者无论是在发达地区或是偏远地区,均可就近就医,享受到基本同质的医疗服务,促进医疗卫生资源均衡化发展。
药物研发和罕见病研究方面,以联邦学习协同各机构合作,提高精度和成功率,保护病人隐私。单个机构罕见病数据量偏少且高度有偏,共享存在高壁垒、高成本、高机密性等困难,联邦学习框架下,机构之间仅通过共享模型权重即可协同训练,彼此增强模型效果,还可通过蒸馏学习解决参与聚合的模型参数量过大的问题,维护系统稳定性。 此外,将随机对照试验作为检验医疗人工智能创新的金标准,保证泛化性和可靠性。随机对照试验(RCT)通常被认为是医学临床试验的黄金标准,2021 年 Nature Review Cancer 的一篇研究显示,3578 项与深度学习相关的癌症诊断技术研究中,符合三期临床 RCT 标准的仅有 3 项。目前,结肠镜计算机辅助诊断、冠脉 CTA 等领域已经开展了符合医学标准的科学验证,从而保证医疗人工智能的准确度和可靠性。
智慧教育在发展过程中已催生出大量应用和新业态,覆盖教育各个环节,依托知识图谱、情感计算、自然语言处理等技术,通过计算机辅助教学、学习管理系统、自适应学习等方式,全面促进教育机会多样性,内容丰富性,方式灵活性与途径便捷性。
可信人工智能在教育领域的实践主要体现在确保公平性、增强系统稳健性、完善数据安全保障三方面。可信智慧教育的公平性体现在系统设计的多样性与无偏性。
一方面,保证设计和训练人工智能系统团队多样性,如在专业领域、教育背景方面,并定期更新教学数据避免系统固化;
另一方面,对系统设计建立监督程序,明确分析系统的目的、操作范围、限制和要求等,评估可能出现不公平偏见的情况,并保证人工智能教育系统态度、诊断和教学行为的一致性。可信智慧教育能够确保系统的稳健型,对抗恶意攻击与数据过载等问题,全程保障教学质量。
一方面,建立稳健教学服务引擎,对教学服务实时监控,并设立预警通知机制,保障监测到警告信息后及时处理,以维持底层服务的稳定性;
另一方面,通过对各个关键业务点的智能模拟访问,保障教育系统实时可用,并依据运行状态数据分析,动态调整云端环境的配置和数量,提升业务高峰期的运行稳定性。可信智慧教育将教育大数据的信息储存和共享变得安全、可信。
一方面,强化防泄漏、防窃取的全场景监测、预警和应急处置等能力建设,并建立起数据流动的异常行为画像机制,对可能存在的风险部署人工智能检测模型,将数据的时效性和检测行为融为一体;
另一方面,建立可信执行环境,通过密文查询手段防止工作人员查询敏感数据,保护学生隐私。同时,提升区域教育大数据含金量,实现隐私保护下的高质量数据协作,利用上链数据实现事中数据流通可控,事后可溯源监管、审计。
在机器视觉、语音技术、机器学习等技术助力下,人工智能在工业领域的应用推动了生产优化、智能质检、生产设备预测性维护以及供应链管理等制造体系的全局决策优化,推动产业提质增效。
可信人工智能在工业领域的实践主要体现于生产优化、智能质检与生产设备预测性维护等方面。可信人工智能能够避免信息孤岛带来的效率低下、工艺水平参差、重复性工作等问题,促进生产优化。通过建立以数据+模型双驱动的数据共享方案,将样本数据传输至云端进行联邦学习实现多条产线间的联合训练与模型共享,并通过数据清洗与储存、数据计算处理等步骤沉淀量化行业知识,构建高品质、高效率的生产新模式。通过无量纲和互无量纲指标实现生产设备的预测性维护,降低随机故障几率。原始振动与特征信号通常隐藏了大量设备状态信息,能够反映设备系统状态与变化规律,通过对该信号的提取与分析,能够有效进行设备故障诊断。
一些企业利用无量纲理论提取敏感特征,从而避免特征冗余,提升设备故障识别和分类效率;在一些对精细度要求较高的领域,可以利用实际模拟仿真,推导出具有更高灵敏性的互无量纲指标,适用于环境和设备结构复杂的情况。使用基于正样本的异常检测、基于小样本的模型快速迭代和基于未知缺陷的分割等方法,优化智能质检。
人工智能质检在汽车制造、电子制造、新能源等多个工业细分领域均有落地,目前主要采用基于正样本的异常检测、基于小样本的模型快速迭代和基于未知缺陷的分割等方法,解决较为常见的换型效率与模型精度要求高、难以使用一个通用模型覆盖所有应用场景、样本数量不足以满足训练需求、数据质量参差不齐等问题,优化问题工件预测模型,进行全量自动化质检。
- 5.智慧政务
人工智能融合知识图谱、语义分析、文字识别、语音识别等技术,已经应用到政府办公、信息管理和公共服务等多个场景中,助力政务决策、业务流程优化,提升利企便民服务体验,提高城市政务服务能力与水平。
可信人工智能在政务领域的实践主要体现在实现跨域数据共享,加强政务系统可靠性与实现公平普惠。可信人工智能能够突破政务跨域数据壁垒,打通政务跨域数据应用价值链。建立非人为控制的信任系统,通过联合计算、联合建模等实现政务数据协同计算与数据资源合规市场化、安全应用化、价值最大化,为跨部门跨层级数据互联互通提供安全、可信环境,并实现政务信息的全流程存证与数据确权,面向数据权属、采集、存储、存证、计算,提供全生命周期安全保障。
提高异构应用访问的适应性,实现外部公共数据分布式访问,进一步提升公共数据融合和流通服务质量及效率,形成社会效益与经济效益双发展。可信人工智能能够构建稳健政务系统,稳固信任基础。政府层面,通过人工智能对抗技术,帮助政府解决AI应用中的安全问题。定期检测AI模型安全漏洞,防御攻击 AI系统的行为,提升政务系统安全性,保证政府业务的全流程安全访问,并防止政务敏感信息截屏、转发、复制等。用户层面,持续监测终端设备和用户的安全风险,根据授权主体、客体环境和行为风险进行动态授权。通过检测鉴别AI伪造内容,降低因滥用AI导致的社会隐私和伦理风险。
可信人工智能通过确保系统决策的公平性,帮助构建泛在可及、公平普惠的公共服务信息体系。一方面,构建完整的异质数据集,避免因文化、政策或历史因素所造成的社会偏见,如针对少数和弱势群体,在设计理念与实际应用中考虑特殊需求,推出相应的页面与符合群体特征的应用机制。另一方面,定期检查数据集以确保数据的高质量,使用公平性指标来减轻或消除偏见和潜在歧视。
可信人工智能前景展望[1]
形成产业共识,由各自表述向统一理念迈进。与人工智能产业发展历程相似,可信人工智能也经历了早期的摸索阶段,对于可信人工智能的内涵,虽然各个国家、机构、企业的表述并不相同,但是侧重点较为统一,并已针对透明度、隐私保护、公平等方面形成初步共识,已经迈入了形成统一理念的新发展阶段。在此基础上,学术界和产业界对可信人工智能理念的共识将进一步凝聚和增强,随着可信人工智能在更多领域的持续落地,理念与实践间将形成良性互动,以可信理念指导产业实践落地,用产业实践不断丰富可信内涵,从而进一步巩固统一的产业共识。
突出理念落地,由抽象概念向具体实践发展。产业是可信理念的落脚点,目前,可信人工智能正处在由抽象的学术概念向产业实际加速落地的关键时期,产业主体正在由以理论界为主向产业界落地为主转变,产出形态由论文为主向产品服务为主转变,专利数量持续增长,并已经形成了一批可见可用的产业成果,诞生了一批代表性企业,覆盖人工智能产业链主要环节。未来,可信人工智能理念将更深层次地与人工智能产业链各环节结,与元宇宙、人工智能生成内容等新技术、新业态互相促进,在人工智能场景和产品中得到更广泛的体现,为加快推进城市数字化转型、提升社会经济效率、改善人民生活水平发挥更大更多的赋能作用,确保人工智能造福人类。
注重动态平衡,由单一维度向综合框架转变。可信人工智能各项能力并不是完全独立的,比如可解释性和稳定性、稳定性和隐私保护间存在平衡的关系,可解释性和隐私保护又有协同的关系。这就要求可信人工智能的实现与衡量不能以单一要素为决定因素,而是应该结实际应用需求,寻求最优的平衡效果。因此,可信人工智能的一体化研究将是未来的重要趋势,不再仅仅围绕单一维度开展研究,而将会逐步过渡到关注各项可信能力之间的相互作用及其影响,使之具有较强的综性和整体性,实现各项可信能力之间的动态平衡,以综的可信框架促进产业协调健康发展。
优化技术布局,由前期研究向更深层次探索。可解释性方面,如何通俗易懂地向用户解释人工智能技术原理、算法自动决策机制、潜在风险及防范措施成为首要任务,并希望以此消除社会公众对新一代人工智能技术的疑惑和担忧。公平性方面,还需要为现有的公平性定义提供更强的条件,进一步拓宽公平性覆盖面,涵盖现有问题中没有考虑到的歧视,同时理松弛以提高预测模型准确度。隐私保护方面,进一步推进分级分类,特别是针对人脸、指纹等敏感数据,如何在便捷地实现尽可能高的识别准确率的同时提升隐私保护性能。安全性(鲁棒性)方面,当前可验证鲁棒性的理论和实践存在较大落差,如何把一些外部知识交给机器学习模型来帮助其提高防御能力成为一个有前景的研究方向。
融合多元主体,由产学研向社会大众拓展。随着社会认知的深入,可信人工智能参与主体将进一步丰富,产业链多主体、多要素协调互动。在《网络安全法》《数据安全法》《个人信息保护法》等法律法规框架下,深圳、上海、北京等地加快推动人工智能立法,建立公共场所人工智能分级分类应用规范,形成具有地方特色的可信人工智能治理体系。行业协会、联盟和研究机构发挥积极作用,联行业企业围绕先行领域制定和发布行业标准,在安全性、可靠性等领域已经取得了一些成果供落地实施进行参考。“人脸识别第一案”等引发社会关注,人民群众对可信人工智能的了解和需求增加,参与程度大幅提升,从需求层面倒逼可信人工智能发展。