可解释的人工智能：降低生成式人工智能风险所需的一切

出版商

乌拉普团队

关于

2024 年 2 月 27 日 12:17 下午

生成式人工智能发展迅速。

得益于大型语言模型（LLM），如 Open AI 的ChatGPT、Google 的Gemini 和 Anthropic 的Claude，用户正在将生成式人工智能融入日常生活。

要回答简单的问题、翻译单词或句子、撰写研究论文、开发自定义计算机代码，甚至生成图像或艺术品，这一切都要归功于生成式人工智能和 LLM。

它存在于我们的网络浏览器、电子邮件、SaaS 产品、社交媒体平台和文件系统中。

就连美国国防部（DOD）也在引领生成式人工智能的快速发展。

随着生成式人工智能无处不在，随着用户将业务数据输入各种 GPT，它为商业企业组织和国防部提出了一个重要问题：

有办法让生成式人工智能更安全、更可信吗？

‍

生成式人工智能的风险

生成式人工智能和 LLM 有很大的局限性，使商业企业和国防部组织面临风险。

模型可以提供受版权保护的数据、过时的数据，甚至是幻觉--为关键任务问题提供不准确的答案。

用户无法了解人工智能模型提供特定响应的原因，也无法跟踪人工智能模型的输出。这意味着几乎不可能确保您收到的数据是准确的，更不用说验证模型提供的响应了。

‍

资料来源https://www.darpa.mil/program/explainable-artificial-intelligence

我们在国防部内部进行的研究发现，部署生成式人工智能模型存在以下风险领域：

数据来源：模型训练和更新中使用的数据可能包括版权材料、来自持有不同观点的国家或组织的信息、机密信息、PHI（受保护健康信息）、CUI（受控非机密信息）或其他敏感数据源，这些数据源不打算纳入生成式人工智能模型。
模型管理：包括 OpenAI 在内的商业机构提供的生成式人工智能模型并不能让人们深入了解模型是如何开发、训练、监控或调整的。如果不了解这些过程，模型的目标和输出可能会被最终用户误解。
模型透明： 生成式人工智能模型在向最终用户提供输出结果之前会评估大量数据点。在许多情况下，模型在向用户提供输出之前必须评估多个选项。商业产品无法提供模型不确定性的可见性，也无法提供解释、围绕响应的上下文或模型可能提供的替代响应。
模型偏差： 生成式人工智能系统可能会受到其训练数据集和算法结构中社会和人口变异的影响而出现偏差。如果处理不当，这些模型有可能吸收并放大源数据中蕴含的与种族、性别、年龄和民族等因素相关的原有社会偏见。

许多组织已经在其流程中采用了生成式人工智能技术，但在如何使用这些功能方面缺乏指导方针或政策。

以 Microsoft Office 和 GitHub 为例。

这两家公司都在其产品中嵌入了生成式人工智能功能。用户可以访问加速日常任务的工具和向导，但却不知道模型如何使用他们提供的数据。

这意味着几件事：

他们可能将机密或私人信息输入到模型中
输出结果可能包括受版权保护或不准确的数据
他们的数据可能不安全、不保密

对于某些组织来说，这可能不是问题。但是，对于许多商业机构和国防部来说，这却是一个重大的安全问题。

那么，如何规避与生成式人工智能相关的风险呢？

简单--实施可解释的人工智能模型。

‍

什么是可解释的人工智能？

许多组织正在投资可解释人工智能（XAI），以使其生成式人工智能模型更加安全。

简而言之，"可解释的人工智能 "为人类用户提供了人工智能模型各个方面的透明度和可见性。这让他们能够理解并信任与人工智能模型的互动，尤其是模型的输出。

可解释的人工智能》为理解人工智能提供了 7 个关键领域，包括

透明度： 利益相关者是否理解模型在格式和语言方面的决定
因果关系：输入扰动导致的输出预测变化是否也会在实际系统中发生？
隐私：能否保证对用户敏感信息的保护？
公平性：能否证实模型的决定对受保护群体是公平的？
信任：人类用户对使用系统的信心如何？
可用性：系统为用户执行任务提供安全有效环境的能力如何？
可靠性：在参数和输入发生变化时，系统性能的稳定性如何？

资料来源https://www.researchgate.net/publication/365954123_Explainable_AI_A_review_of_applications_to_neuroimaging_data

其他研究成果，包括 通过基于场景的设计研究代码生成人工智能的可解释性 孙娇等人发表的《通过基于场景的设计研究代码生成式人工智能的可解释性》提供了目标、框架、研究以及对最终用户的现场采访，以了解开发、部署和运行值得信赖的人工智能功能的各个方面。

‍

用可解释的人工智能降低风险

国防部和商业企业中需要信任生成式人工智能模型输出结果的用户需要对模型有详细的了解。

这包括

数据来源
模型算法的可见性
如何开发、训练、监控和调整模型

下图详细介绍了 Explainable AI 如何提供高级功能，向最终用户解释模型输出。

‍

资料来源https://www.darpa.mil/program/explainable-artificial-intelligence

‍

国防部与可解释的人工智能

特别是国防部，它要求应用软件支持关键任务能力，以支持其日常运作的各个方面，更重要的是，支持任务规划和执行。

任何错误或中断都会严重影响行动，使我们的对手获得战术优势。

国防部最终用户要求与生成式人工智能模型的所有互动都具有可见性和透明度。

‍

金融服务与可解释的人工智能

您还可以看看金融服务业。分析师和个人交易者一直在寻找能在其投资组合中表现更好的资产。

有成就的分析师不会接受人工智能模型推荐的股票，将其添加到客户的投资组合中。

他们希望了解建议种群的背景、如何选择、选择时还评估了哪些其他种群，以及模型对该种群的信心。

‍

可解释人工智能的基础能力

可解释的人工智能（Explainable AI）提供多种基础功能，帮助企业构建、部署和运行人工智能模型。

其中包括

已知数据：模型训练和更新中包含的数据必须仅来自已知数据来源并具有可追溯数据来源的来源。正如国防部《2023 年数据、分析和人工智能采用战略》所详述的，模型中包含的数据应能提供：

准确性：正确反映经证实的真实值或指定行动、个人或实体的数据。这包括数据结构、内容和可变性。
完整性：特定时间的数据必须包含在数据集、行或列级别测量的预期信息或统计数据。
一致性：数据集遵循商定的内部政策、标准、程序和架构要求。
一致性：一个值在数据集内和数据集之间统一表示的程度。
唯一性： 确保每个观察到的事件与描述该事件的记录一一对应。
完整性：数据集的来源、出处和血统是已知的，并与相关业务规则保持一致。
及时性： 衡量事件发生与数据可用性之间的时间间隔。

模型管理：为验证模型是否符合当地法律要求以及国防部对机密和非机密数据的处理要求，组织必须定义一个框架并实施一个自动流程，以跟踪模型所摄取和处理的数据脉络。此外，该框架必须监控和跟踪人类和系统与模型的交互。

模型透明：模型透明度是实施可信人工智能的最关键要素。它旨在打破人工智能的 "黑箱"，即用户不了解算法或模型如何产生输出、模型评估了哪些选项或模型提供的响应的可信度。支持模型透明性的关键类别已被确定，并记录在 Liao 等人出版的《质疑人工智能：为可解释的人工智能用户体验提供设计实践》（Questioning the AI: Informing Design Practices for Explainable AI User Experiences）一书中的 XAI 问题库中。