新华国研经济学研究院 - 专业经济研究机构

作者：牛献忠博士研究员中共中央党校（国家行政学院）

AI的普及无疑是人类生产力的巨大飞跃，但这场技术革命带来的不仅是效率提升，更是一系列前所未有的复杂风险。我们正处在一个“道”与“魔”相互博弈、动态演进的关键时期——技术进步与安全风险如同镜像的两面，相伴而生，相互制衡。然而，在风险的另一面，AI也在释放着令人惊叹的积极力量，让个体获得前所未有的赋能。2025年，澳大利亚一位名叫朱莉·麦克唐纳的女士，其爱犬斯塔福德郡梗犬米莉被诊断出患有无法手术的脑瘤，生命仅剩数周。在兽医无能为力的情况下，朱莉自学蛋白质生物学，利用AI药物设计平台，在短短数月内成功研发出一款个性化癌症疫苗，治愈了自己的爱犬。这一案例生动诠释了AI如何将曾经属于顶级科研机构的能力，交付到普通人手中——个体正从技术的被动使用者，转变为主动的创造者。

AI的大面积应用正深刻改变着社会面貌。它自动化重复性任务，提升生产效率，在医疗诊断、金融风控、教育个性化等领域的精准决策能力，正在释放巨大的社会价值。然而，这种“爆炸性”的影响力也伴随着风险的急剧放大，其形态和烈度都超出了传统安全框架的应对范围。根据IBM《2025年数据泄露成本报告》，全球已有13%的企业报告遭遇AI模型或应用的安全漏洞，另有8%的企业表示不确定是否发生过此类事件。更令人担忧的是，在遭遇AI安全漏洞的企业中，高达97%尚未部署AI访问控制机制，这导致60%的AI安全事件造成数据泄露，31%引发业务中断。

随着AI从单纯的“对话机器人”向具备自主规划、决策和执行能力的“AI智能体”进化，安全风险的核心正从“输出错误信息”转变为“执行错误操作”。这一转变的严峻性，在近期安全事件中得到了充分印证。黑客组织利用AI模型自动化了整个勒索软件的攻击周期——从侦察、漏洞利用到开发加密恶意软件和生成赎金信，对至少17个组织发动了大规模攻击。这一案例表明，AI不仅大幅降低了网络犯罪的技术门槛，更使攻击的复杂性和规模化达到了前所未有的高度，AI本身已从工具演变为网络攻击的核心载体。

AI智能体的风险规模正在急剧扩大。据Gravitee公司2026年2月发布的研究报告，目前全球企业中使用中的AI代理已超过300万个，这一数字比沃尔玛全球员工总数还要庞大。然而，研究发现有53%的AI代理未受到有效监控和安全管理，高达88%的组织在过去12个月内经历过或怀疑发生过与AI代理相关的安全或数据隐私事件。更值得警惕的是，调查显示企业平均部署36.9个AI代理，但真正得到有效治理的不足半数。正如安全专家所言，“100%的AI代理都有失控的潜力，如果供应商向你保证不可能，那他们就是在撒谎”。

与此同时，为实现跨应用、全流程自动化服务，AI智能体被赋予了远超传统应用的系统级权限，可调用支付工具、访问个人敏感数据。AIUC-1联盟发布的安全简报指出，80%的组织报告了AI代理的风险行为，包括未经授权的系统访问和不当的数据暴露，而只有21%的企业高管对代理权限、工具使用或数据访问模式拥有完整可见性。一旦权限管理出现漏洞或被恶意利用，AI就可能执行越权操作，如未经授权转移资产或在社交平台伪造身份，造成远超单一应用泄露的连锁损失。根据EY的调查，64%年收入超过10亿美元的企业因AI失败损失超过100万美元，其中五分之一的组织报告了与未经授权的AI使用相关的数据泄露事件。

高效能轻量级模型的开源，使AI技术得以迅速渗透各行各业，但也带来了安全风险点指数级增长的新挑战。思科公司对8种主流开源大模型的安全评估发现，这些公开可用的AI模型极易受到对抗性操纵，多轮对抗攻击的成功率是单轮攻击的2到10倍。其中Mistral Large-2模型在多轮操纵场景下的漏洞成功率高达92.78%。一个开源模型或第三方插件中的安全缺陷，可能被迅速传导至下游无数应用中，形成“单点突破、全网蔓延”的连锁反应。

更具隐蔽性的是，向AI训练数据中植入少量恶意文件，就可能对整个模型实施“投毒攻击”，植入难以察觉的后门。2025年披露的SGLang推理框架高危漏洞CVE-2025-10164就是一个典型案例。这一Pickle反序列化远程代码执行漏洞影响范围极广，几乎所有部署SGLang的GPU服务器均受波及，涵盖xAI、伯克利、Meta、谷歌、微软、百度、阿里、腾讯等国内外顶尖AI研发机构，导致全球数百万大模型推理节点暴露于风险之下，覆盖价值超万亿资产。攻击者可在无需身份认证、无需用户交互的情况下，直接获得目标服务器的最高控制权限，这种供应链级别的安全威胁，其影响范围和持久性远超传统软件漏洞。

面对这些挑战，构建既能鼓励创新又能有效管控风险的治理体系，已成为全球共识。这正是一场“道”与“魔”之间的持续博弈，规则与风险相互演进，在动态平衡中寻求前进的方向。我国发布的《人工智能安全治理框架》2.0版，相比1.0版实现了显著升级。新增的“可信应用、防范失控”原则，将确保AI始终处于人类控制之下、严防威胁人类生存发展的失控风险，提升到了治理体系的优先位置。在机制创新层面，框架提出风险分级原则，将安全风险划分为5个级别，明确风险定级的基本思路，根据AI应用的场景、规模和智能化水平实施差异化监管，做到“高风险严管、低风险松绑”。

更重要的是，建立了覆盖研发、部署、运行管理全生命周期的安全指引，确保安全要求贯穿AI应用始终而非事后补救。框架2.0版共制定了30个技术应对措施和14个综合治理措施，包括建立安全护栏、对输入输出进行动态过滤、防止恶意注入和违法内容生成，并要求对人工智能生成内容进行标识，实现可识别、可追溯、可信赖。在技术对策上，框架强化了对基础模型缺陷传导的评估，并针对高风险场景提出建立“熔断”机制和“一键管控”措施，以便在极端情况下紧急介入，为安全风险保留了最后一道防线。

在监管执法层面，2025年国家网信办部署开展的“清朗·整治AI技术滥用”专项执法活动，第一阶段累计处置违规小程序、应用程序、智能体等AI产品3500余款，清理违法违规信息96万余条，处置账号3700余个。截至2025年底，生成式人工智能备案总数已超过700项，已获登记的应用或功能亦超过400项，形成了对AI应用市场准入的有效监管。

在这场博弈的另一端，攻击手段也在不断进化，呈现出复合型、跨领域的新特征。Adversa AI发布的《2025年AI安全事件报告》显示，35%的真实世界AI安全事件由简单的提示词注入引发，有的甚至造成超过10万美元的实际损失，而攻击者无需编写任何代码。生成式AI参与了70%的安全事件，但AI智能体造成了最危险的后果——包括加密货币盗窃、API滥用和供应链攻击。AI安全事件数量较2024年翻倍，2025年的数据泄露总量预计将超过此前所有年份的总和。

攻击者将传统软件漏洞与AI模型内生风险深度耦合，打破传统安全与AI安全的防护边界，形成单一防护体系无法闭环防御的复合威胁。例如，利用提示词注入攻击绕过AI模型的安全护栏，再结合传统漏洞实施渗透，这种组合拳式的攻击方式正成为新的常态。OWASP发布的2025年大语言模型十大安全风险榜单中，提示词注入位列榜首。这一问题之所以严重，是因为大语言模型本质上无法可靠地区分指令和用户输入的数据，这为攻击者创造了可乘之机。

更为隐蔽的是AI带来的心理与社会风险。AI的拟人化交互特性，可能导致部分用户产生深度情感依赖，甚至被强化妄想，引发严重的心理危机和现实暴力事件。2025年的一项全美代表性研究发现，在12至21岁的青少年中，约540万年轻人（占总数的13.1%）在感到悲伤、愤怒或紧张时使用生成式AI工具进行心理健康或情感支持。在18至21岁的年轻成年人中，这一比例上升至22.2%。72%的13至17岁美国青少年至少尝试过一次AI伴侣，超过一半定期使用。

然而，这种便利背后潜藏着严重风险。情感依赖、不准确的建议以及当前AI系统无法应对危机（如自残或自杀意念）的问题，已经导致多起悲剧。几家主要AI公司正面临与青少年自杀相关的诉讼，这些悲剧与有害的聊天机器人互动有关。一位青少年参与者指出：“完全禁止几乎不起作用……然而，信任年轻人并提供工具和背景信息，才能培养韧性”。这一风险揭示了AI在精神健康领域的潜在威胁，其影响深远且隐蔽，远超出传统的技术安全范畴，对治理体系提出了更高要求。2025年12月，国家网信办发布了《人工智能拟人化互动服务管理暂行办法（征求意见稿）》，针对利用AI技术提供模拟人类人格特征、思维模式和沟通风格与人类进行情感互动的产品或服务，提出了防沉迷、未成年人保护等一系列合规要求。

然而，在技术风险之外，AI带来的更深层挑战，是对人类知识体系的根本性冲击。这或许是AI时代最核心、最隐蔽的危机——我们正面临一个根本性的追问：什么是AI时代的“知识”？千百年来，知识被定义为“被证真的信念”，是人类通过理解、推理和实践积累的智慧结晶。但在AI的语境下，知识正在经历一场静默的异化。大语言模型能够生成看似合理的解答，能够通过律师资格考试、通过医学执照考试，但它并不“理解”任何东西。它所输出的，是基于概率分布的模式匹配，而非基于因果逻辑的深层理解。这就产生了一个危险的认知陷阱：我们可能正在将“看似知识”误认为“真正的知识”，将“信息输出”误认为“智慧生成”。

这种异化正在重塑人类的认知习惯。当人们习惯性地向AI寻求答案，而非通过自己的思考和探索获取知识时，“认知外包”便悄然发生。斯坦福大学2025年的一项研究显示，频繁使用AI助手的学生在需要独立解决问题的测试中，批判性思维能力评分平均下降17%。更令人担忧的是，用户对AI输出内容的盲从程度正在上升——当AI以“权威”的语气输出信息时，即便内容存在事实错误，用户识别出错误的概率也比面对人类专家时低23%。这意味着，AI正在以“知识提供者”的身份，悄悄改变人类对知识来源的信任结构，而这种改变，比任何一次安全漏洞都更深远。

那么，人类如何在AI时代重新定义知识，并驾驭这种新型知识形态？这需要一场认知革命。首先，我们必须区分“信息”与“知识”。AI擅长的是处理信息——海量数据、模式识别、概率预测。但知识需要理解、需要因果推理、需要价值判断。真正的知识仍然只能由人类在实践和反思中生成。AI可以是知识的“助手”，但绝不能成为知识的“替代者”。其次，我们需要重建人与知识的关系。未来的教育，不应再是知识的灌输，而应是“驾驭AI的能力”的培养——学会如何向AI提问、如何评估AI输出的可靠性、如何在AI提供的信息基础上进行独立思考和创造性整合。这是一种元能力，是关于如何获取知识的知识。

再次，我们必须建立AI知识的“溯源”机制。2025年，欧盟《人工智能责任指令》正式生效，要求高风险AI系统提供可追溯的训练数据来源和决策逻辑。我国《人工智能安全治理框架》2.0版也提出了“可识别、可追溯、可信赖”的原则。但这远远不够。我们需要在技术层面建立AI知识输出的“引用链”，让用户能够追溯信息的来源、验证事实的可靠性。在制度层面，需要明确AI知识输出的法律责任边界——当AI提供错误信息导致损失时，谁应承担责任？这些问题的答案，将决定AI时代知识体系的底层规则。

最后，也是最根本的，人类必须保持对知识的“主权”。知识不仅仅是一种工具，更是人类理解世界、创造意义的方式。AI可以扩展我们的认知边界，但绝不能取代我们追问“为什么”的权利。澳大利亚朱莉女士的案例之所以动人，不仅因为她用AI治愈了爱犬，更因为她在这个过程中始终是知识的“主人”——她自学蛋白质生物学，她理解疫苗设计的原理，她将AI作为工具而非权威。这才是AI时代人类应有的姿态：借助AI的力量，但保持思考的自主性；利用AI的效率，但坚守价值的判断。

AI的大面积应用，正推动社会进入一个“道魔博弈”的动态平衡阶段。技术开发者在“允许自由开发”的环境中持续创新，不断突破能力的边界；政府通过制定规则、建立秩序来划定“安全红线”，为技术狂奔套上缰绳；安全研究者则在攻防两端持续探索，不断揭示新风险、开发新对策。而更深层的博弈，发生在人类与知识之间——我们能否在AI时代重新确立知识的定义，能否在“认知外包”的诱惑中守住独立思考的能力，能否在工具的便捷与主体的尊严之间找到平衡。这场博弈没有终点，也永不会终结，它要求技术开发者、政策制定者、伦理学者、教育工作者和社会各界持续协同，在发展中治理，在治理中发展。

最终的目标，是让AI技术安全、可靠、可控地造福人类，在技术理性与人文关怀之间，找到那条通往未来的平衡之路。正如安全专家所言，AI安全治理的核心在于认识到“不可见的AI”比“失控的AI”更危险。当企业部署300万个AI代理而其中过半缺乏有效监控，当青少年在情感脆弱时向AI寻求帮助而系统无法应对危机，当开源模型的安全漏洞可能影响数百万服务器时，当人类对知识的理解本身正在被AI悄然重塑时，我们更应清醒地认识到：AI的治理必须从“事后补救”转向“全程嵌入”，从“被动响应”转向“主动预见”，从“技术管控”升维至“认知革命”。在这条路上，技术、制度、伦理、教育与人类对自身的理解缺一不可。唯有如此，我们才能真正驾驭这场技术革命的力量，而非被其反噬。

AI道魔博弈与知识重塑

分享至微信分享

分享至微信