从内到外,这个模型的核心思想是:安全防护要由内而外,层层递进,从最根本的指导原则延伸到最前沿的用户交互。
AI安全方法论
下述截图仅以微软安全产品举例说明
第一层:AI伦理 - AI安全的“指导原则”
这是所有AI安全工作的基石和出发点。 如果一个AI系统在设计之初就存在伦理缺陷,那么后续无论技术多么安全,它都可能对企业或社会造成伤害。这一层不谈技术代码,而是定义AI“应该做什么”和“不应该做什么”的根本准则。
- 核心:
- 公平与无偏见 (Fairness & Impartiality): 确保AI模型不会因为用户的性别、地域、种族等因素而做出歧视性判断。例如,企业用AI筛选简历时,必须确保AI不会因为某个毕业院校或过往经历而对特定人群产生不公平的偏见。这需要从源头的训练数据就开始审核和净化。
- 透明与可解释性 (Transparency & Explainability): 当AI给出一个重要结论时(比如金融领域的贷款审批、医疗领域的辅助诊断),我们不能只得到一个“是”或“否”的结果,而需要了解它做出这个判断的主要依据是什么。这有助于建立信任、排查错误和明确责任。
- 责任与问责 (Accountability & Responsibility): 必须明确,如果AI系统出错并造成了损失,责任应该由谁来承担。需要建立清晰的问责机制,涉及到AI的开发者、运营者和使用者。
- 可靠与安全 (Reliability & Safety): 确保AI系统在各种情况下都能稳定运行,并且不会产生有害、危险或非法的输出内容。
第二层:系统安全 - AI安全的“基础设施”
这一层保护的是AI运行所依赖的整个技术环境。 如果承载AI的平台被攻破,那么上层的访问控制和用户交互安全都将无从谈起。
- 核心:
- 保护核心资产 - 模型与数据: AI模型本身(尤其是大模型)和用于训练它的海量数据是企业的核心数字资产。必须采用强加密手段对这些数据和模型文件进行存储和传输,并设置严格的访问控制,防止被内部人员或外部黑客窃取。
- 保护计算平台: AI系统运行在服务器、云平台和复杂的网络之上。这些基础设施必须受到传统网络安全措施的严密保护,例如部署防火墙、入侵检测系统、定期打补丁、修复漏洞等,确保AI的“机房”是安全的。
- 保障AI供应链安全: 现代AI应用大量依赖第三方开源库和预训练模型。必须确保这些外部组件的来源可靠且自身没有安全漏洞,防止从供应链环节被植入恶意代码。
第三层:应用访问 - AI安全的“大门和门禁”
这一层负责管控“谁”以及“在什么情况下”可以访问和使用AI应用。 这是从后台系统到前台用户的关键连接点,安全策略必须精细化。
- 核心:
- 识别与管理企业中的所有AI应用:
- 发现影子AI (Shadow AI Discovery): 很多员工可能会未经公司允许,私自使用外部的公共AI工具(如网页版ChatGPT、各种AI插件)来处理工作。这会带来巨大的数据泄露风险。IT部门需要使用专业工具(如CASB - 云访问安全代理),全面扫描和识别网络内所有正在被使用的AI应用,形成一个清晰的清单,把“影子”里的应用都找出来。
- 对AI应用实施精细化的访问控制:
- 条件访问 (Conditional Access): 对AI应用的访问不应该是一个简单的“允许/拒绝”开关。它应该是动态和有条件的。例如:
- 设备条件: 只允许公司管理的、安全的设备访问企业AI。
- 网络条件: 在公司内网可以直接访问,但在外部公共Wi-Fi访问时,则需要强制进行多因素认证。
- 风险条件: 如果系统检测到用户账号有异常登录行为,可以临时阻止其访问高权限的AI功能。
- AI应用的持续安全态势管理:
- 态势管理 (Posture Management): 安全不是一次性的配置,而是一个持续的过程。需要定期自动发现并清点企业网络内员工正在使用的所有AI应用,深度分析流向各个AI应用的数据内容,并识别出其中的敏感信息类型,实时监控出用户是否在利用AI进行可疑活动,比如询问关于“洗钱”、“内幕交易”的问题,或者输入带有恶意代码的提示词;结合用户的行为模式,为每个用户生成一个风险评分,评估出哪些是高风险员工。
第四层:用户交互 - AI安全的“前台和窗口”
这是安全防护的最外层,直接面对最终用户。 这里的风险主要来自于用户的输入内容和AI的输出内容。
- 核心:
- 管理用户输入 - 防止数据泄露与恶意利用:
- 防止敏感信息上传: 这是最常见也是最危险的场景。员工可能会在与AI对话时,无意中粘贴包含公司财务报表、客户个人信息、未公开的源代码等高度敏感的内容。必须部署数据防泄露(DLP)技术,实时检测并阻断这类信息的上传行为,并对用户进行警告。
- 抵御恶意提示攻击 (Prompt Injection): 黑客或恶意用户可能会通过精心构造的“问题”或“指令”(即提示词),来欺骗、诱导或劫持AI,让它绕过自身的安全设置,执行恶意操作或泄露后台信息。系统需要有能力识别和过滤这类恶意输入。
- 管理AI输出 - 确保内容安全与合规:
- 内容安全审查 (Content Safety): 必须确保AI生成的内容是安全和适当的。这需要部署内容过滤器,自动审查AI的输出,拦截其中可能包含的暴力、色情、仇恨言论、虚假信息或侵犯版权的内容。
- 保护用户免受有害信息影响: AI的输出必须是负责任的。例如,在心理健康、金融投资等敏感领域,AI的回答需要格外谨慎,避免提供不专业或有害的建议。
