首页 > 要闻 > 正文

新闻分析|警惕人工智能时代的“智能体风险”

新华社|2024年07月16日
阅读量:

智能体可以自主决策,又能通过与环境交互施加对物理世界影响,一旦失控将给人类社会带来极大威胁。

新华社北京7月16日电(记者彭茜) 一群证券交易机器人通过高频买卖合约在纳斯达克等证券交易所短暂地抹去了1万亿美元价值,世界卫生组织使用的聊天机器人提供了过时的药品审核信息,美国一位资深律师没能判断出自己向法庭提供的历史案例文书竟然均由ChatGPT凭空捏造……这些真实发生的案例表明,智能体带来的安全隐患不容小觑。

智能体进入批量化生产时代

智能体是人工智能(AI)领域中的一个重要概念,是指能够自主感知环境、做出决策并执行行动的智能实体,它可以是一个程序、一个系统或是一个机器人

智能体的核心是人工智能算法,包括机器学习、深度学习、强化学习、神经网络等技术。通过这些算法,智能体可以从大量数据中学习并改进自身的性能,不断优化自己的决策和行为。智能体还可根据环境变化做出灵活的调整,适应不同的场景和任务。

学界认为,智能体一般具有以下三大特质:

第一,可根据目标独立采取行动,即自主决策。智能体可以被赋予一个高级别甚至模糊的目标,并独立采取行动实现该目标。

第二,可与外部世界互动,自如地使用不同的软件工具。比如基于GPT-4的智能体AutoGPT,可以自主地在网络上搜索相关信息,并根据用户的需求自动编写代码和管理业务。

第三,可无限期地运行。美国哈佛大学法学院教授乔纳森·齐特雷恩近期在美国《大西洋》杂志发表的《是时候控制AI智能体》一文指出,智能体允许人类操作员“设置后便不再操心”。还有专家认为,智能体具备可进化性,能够在工作进程中通过反馈逐步自我优化,比如学习新技能和优化技能组合。

以GPT为代表的大语言模型(LLM)的出现,标志着智能体进入批量化生产时代。此前,智能体需靠专业的计算机科学人员历经多轮研发测试,现在依靠大语言模型就可迅速将特定目标转化为程序代码,生成各式各样的智能体。而兼具文字、图片、视频生成和理解能力的多模态大模型,也为智能体的发展创造了有利条件,使它们可以利用计算机视觉“看见”虚拟或现实的三维世界,这对于人工智能非玩家角色和机器人研发都尤为重要。

风险值得警惕

智能体可以自主决策,又能通过与环境交互施加对物理世界影响,一旦失控将给人类社会带来极大威胁。哈佛大学齐特雷恩认为,这种不仅能与人交谈,还能在现实世界中行动的AI的常规化,是“数字与模拟、比特与原子之间跨越血脑屏障的一步”,应当引起警觉。

智能体的运行逻辑可能使其在实现特定目标过程中出现有害偏差。齐特雷恩认为,在一些情况下,智能体可能只捕捉到目标的字面意思,没有理解目标的实质意思,从而在响应某些激励或优化某些目标时出现异常行为。比如,一个让机器人“帮助我应付无聊的课”的学生可能无意中生成了一个炸弹威胁电话,因为AI试图增添一些刺激。AI大语言模型本身具备的“黑箱”和“幻觉”问题也会增加出现异常的频率。

智能体还可指挥人在真实世界中的行动。美国加利福尼亚大学伯克利分校、加拿大蒙特利尔大学等机构专家近期在美国《科学》杂志发表《管理高级人工智能体》一文称,限制强大智能体对其环境施加的影响是极其困难的。例如,智能体可以说服或付钱给不知情的人类参与者,让他们代表自己执行重要行动。齐特雷恩也认为,一个智能体可能会通过在社交网站上发布有偿招募令来引诱一个人参与现实中的敲诈案,这种操作还可在数百或数千个城镇中同时实施。

由于目前并无有效的智能体退出机制,一些智能体被创造出后可能无法被关闭。这些无法被停用的智能体,最终可能会在一个与最初启动它们时完全不同的环境中运行,彻底背离其最初用途。智能体也可能会以不可预见的方式相互作用,造成意外事故。

已有“狡猾”的智能体成功规避了现有的安全措施。相关专家指出,如果一个智能体足够先进,它就能够识别出自己正在接受测试。目前已发现一些智能体能够识别安全测试并暂停不当行为,这将导致识别对人类危险算法的测试系统失效。

专家认为,人类目前需尽快从智能体开发生产到应用部署后的持续监管等全链条着手,规范智能体行为,并改进现有互联网标准,从而更好地预防智能体失控。应根据智能体的功能用途、潜在风险和使用时限进行分类管理。识别出高风险智能体,对其进行更加严格和审慎的监管。还可参考核监管,对生产具有危险能力的智能体所需的资源进行控制,如超过一定计算阈值的AI模型、芯片或数据中心。此外,由于智能体的风险是全球性的,开展相关监管国际合作也尤为重要。

 

编辑:罗浩

 

声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115

新华财经声明:本文内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
传播矩阵
支付成功!
支付未成功