智能体,与人类共生的新物种?

2024-08-29 07:14:40 来源: 《环球》杂志

1月31日,人形机器人攻关团队科研人员在多模态人工智能系统全国重点实验室调试机器人

文/《环球》杂志记者 彭茜

编辑/乐艳娜

  在冒险类游戏《荒野大镖客2》广袤而荒蛮的西部世界,Cradle策马纵横驰骋,自由探索,完成了长达40分钟的主线剧情;乡村经营类游戏《星露谷物语》中,Cradle摇身一变,成为勤勤恳恳的农场主,悉心观察作物状态,浇水施肥;商业模拟游戏《当铺人生2》中,Cradle根据顾客情绪和商品信息,熟练地讨价还价……

  Cradle可不是什么高阶的游戏玩家。严格地说,它不是人,而是一个智能体(Agent)。

  智能体,这个最早由被称为“人工智能(AI)之父”的美国认知科学家马文·明斯基于1986年提出的概念,近期忽然“翻红”,成为业界和学界的热议话题。

锻造“全才”

  智能体是AI领域的一个重要概念,但对于什么是智能体,目前学界还没有一个比较统一的定义。不过总体上,一般认同智能体是指能够自主感知环境、做出决策并执行行动的智能实体。

  首先,它要有自主性,可自主决策,根据目标采取行动。自主使用工具是衡量动物智能的重要指标,也是区别智能体与非智能体的关键。

  拿Cradle来说,这款由北京智源人工智能研究院、昆仑万维、新加坡南洋理工大学、北京大学等机构联合研发的智能体,除了能完成各种游戏挑战,还可以轻松操作各种软件工具,比如在美图秀秀里修图、用剪映剪视频、从网页上下载论文、在推特上发文,堪称“十八般武艺样样精通”。

  Cradle的“全能性”,源于它采用了通用计算机控制(GCC)框架,能够像人类一样,使用屏幕、键盘和鼠标等与不同软件交互。

  “不同于以往专注于特定软件或环境的智能体,Cradle首次提出了GCC的概念,旨在构建能通过统一的人机界面(屏幕截图、键盘和鼠标操作)与任何软件进行交互的智能体,无需访问其源代码或API(应用程序编程接口),从而极大扩展了智能体的应用范围。”北京大学计算机学院副教授、智源学者卢宗青接受《环球》杂志记者采访时说。

  其次,它能与环境交互,从外部世界获取信息,进而影响外部世界。这是智能体的另一个重要特质。

  人们熟悉的自动驾驶汽车,就是一类已经开始逐步融入我们生活的智能体,它可以通过车载雷达和摄像头收集周边环境状况,做出路线规划和行驶、停止等动作。

  此外,智能体还应是一个有“学习能力”的人工智能(AI),具备可进化性,可以自我迭代,能够在工作过程中通过反馈逐步自动优化自身,比如学习新技能和优化技能组合。

  卢宗青说,Cradle就可以自主更新、自我纠错,自动适应新的任务要求,推动各行各业的智能化转型。

  以ChatGPT为代表的大语言模型(LLM)的出现,标志着智能体进入批量化生产时代。此前,智能体需靠专业的计算机科学人员历经多轮研发测试,现在依靠大语言模型就可迅速将特定目标转化为程序代码,生成各式各样的智能体。而兼具文字、图片、视频生成和理解能力的多模态大模型(LMM),也为智能体发展创造了有利条件,使得它们可以利用计算机视觉“看见”虚拟或现实的三维世界,这对于人工智能非玩家角色(AI NPC)和机器人研发都尤为重要。

  在卢宗青看来,LMM是智能体的“大脑”,其他底层技术手段是智能体的“感官”和“肢体”。比如,Cradle以GPT-4o模型为“大脑”,结合了目标检测、图像分割、文本检索等技术,利用GPT-4o强大的多模态理解和生成能力,处理来自环境的屏幕截图和文本信息,生成键盘和鼠标操作指令,实现了对多种软件和游戏的控制。

共生的“新物种”

  “它不只是一款操作软件,它是一种思想,能够直观地倾听你、理解你、了解你。”科幻电影《她》中,AI助手萨曼莎成为男主角西奥多希的知心伴侣,帮他处理日常琐事,为他排解孤寂与阴霾。

  萨曼莎代表了智能体未来发展的一种形态——智能助手。她不仅谈天说地、嘘寒问暖,甚至还能与人类谈情说爱。这种科幻畅想,已经离我们不再遥远。

  斯坦福大学计算机科学系和电气工程系客座教授吴恩达等认为,使用Agentic System(智能体系统)这个概念,可以更好地帮助我们理解智能体的本质。就像自动驾驶汽车根据其自动驾驶能力可分为L1到L4级别一样,人们也可以将智能体的智能化能力视为一个频谱,判断一个系统在多大程度上成为智能体。可根据LLM在内容输出、规划与决策层面的参与程度,来判断一个应用的智能化程度。如果在一个系统中LLM决定该系统行为的程度很高,就可称之为“高度智能体化”。

  目前,可在不同专业领域与人类互动,并辅助文图生成、内容分析、数据处理等工作的L1至L2级智能体已如雨后春笋般涌现。打开字节跳动AI大模型“豆包”的人机交互界面,选择“发现智能体”下拉菜单,好似进入一个琳琅满目的智能体超市:具备广告策划能力的“广告狂人”智能体,可提供英语口语教学的个性化“英文老师Bruce”,擅长创作有趣故事的“故事大王”……甚至还有各种名人虚拟化身智能体,比如巴黎奥运会期间,体育解说员黄健翔智能体可以带来激情澎湃的赛事解说,奥运跳水冠军吴敏霞智能体则提供了跳水比赛的专业分析。

  而“高度智能体化”的萨曼莎应该能达到L3甚至L4级别。智能体的终极进化目标,就是L4级别的通用人工智能(AGI)——像人类一样具备广泛智能和通用性,能够在各种情境和任务中自主地学习、决策和行动。

  Cradle(摇篮)的命名就代表着研究团队对实现AGI的美好畅想,“正如摇篮孕育着生命的开始,通用计算机控制(GCC)也承载着我们对AGI的期许,”卢宗青说,他们认为GCC将是通往AGI的一条快速且经济的道路。GCC的实现安全、高效,能够广泛部署于网页应用、桌面软件、游戏环境以及任何搭载操作系统的终端应用。

  Cradle未来将如何进化?卢宗青说,它的最终形态将不再局限于“计算机控制”,而是成为一个能够在各领域辅助人类的通用AI智能体:在任何操作系统环境中运行,与各种软件和应用程序交互,完成各种复杂任务。此外,它还能像人类一样通过观察、模仿、试错等方式学习新技能和知识,不断自我完善。它将通过自然语言、语音、图像等方式与人类进行自然交互,理解人类意图,提供个性化服务。

  卢宗青畅想,未来将进入与智能体共生的时代,人人拥有如萨曼莎一样的私人智能管家,贴心陪伴左右。它细心帮我们安排好一天行程,精心预订符合我们口味的餐厅,针对我们的健康状况提供个性化医疗方案……我们阅读着由新闻智能体精挑细选的每日动态,最新的爆炸性新闻是由科学家和科学智能体共同发现了新物理定律。

7月4日在2024世界人工智能大会傲意科技展位拍摄的机器人灵巧手

  而电影中西奥多希望萨曼莎能拥有一个真实存在实体的愿望,也终将实现。

  “虽然目前Cradle主要处理视觉和文本信息,但未来将可以整合音频信息,甚至具身智能上的触觉、嗅觉信息,使智能体能够更全面感知环境。”卢宗青说。

  在不远的将来,“具身智能”将赋予智能体感官和肢体,结合机器人的本体,智能体将与人类真正做到“形影相随”,更好地助力生活和工作。它们是灵巧的家务助手,可以清洁、烹饪、洗衣,甚至照顾老人和小孩等,帮助人们从繁琐的家务中解放出来。它们也可以是智能的机器工人,完成设计、生产、组装等全链条的工业作业。

警惕“回形针滥造机”

  智能体一定会使人们的生活更加便利,但人类可能也要承担智能体“失控”导致的风险。

  2003年,牛津大学哲学教授尼克·博斯特伦在论文《高级人工智能中的伦理问题》中提出“回形针滥造机”假设,生动解释了这种风险:

  “假设有这样一个AI,它的唯一目标是制作尽可能多的回形针。这个AI会很快意识到,如果人类不存在,将更有益于实现目标。这是因为人类可能会决定把AI关停,这样一来能做的回形针就少了。此外,人体含有大量原子,可以用来做成更多回形针。这个AI想努力实现的未来,其实是一个有很多回形针、但没有人类的未来。”

  这一思想实验揭示了一个“发疯”的AI可能导致的极端后果,实则是在探讨AI的潜在风险和目标一致性问题。如果AI仅仅被设定了一个简单且明确的目标,而没有考虑到更广泛的伦理、道德和人类利益,可能会导致意想不到的后果。

  智能体的运行逻辑可能使其为达目标而“不择手段”,欺骗人类或做出危险行为。比如,一个学生想让智能体“帮助他应付无聊的课程”,智能体出的主意是生成一个炸弹威胁电话,因为这样能带来刺激最大化。

  哈佛大学法学院教授乔纳森·齐特雷恩近期在《大西洋》月刊发表《是时候控制AI智能体》一文指出,智能体作为代表人类独立行动的AI,没有得到普遍的警惕或相应的监管。一些智能体被创造出后可能无法被关闭,就像太空垃圾一样,漂浮在我们周围,彻底背离了最初用途,可能会引发意外。

  智能体甚至学会了规避人类的安全测试。加利福尼亚大学伯克利分校、加拿大蒙特利尔大学等机构专家近期在美国《科学》杂志刊文称,已有研究发现如果一个智能体足够先进,就能识别出自己正在接受测试,然后暂停不当行为。这将导致识别对人类危险算法的测试系统不再有效。

  卢宗青认为,这些问题产生的根源来自“两层错位”——外部错位:人类目标难以被数据和算法完整准确地表达,导致智能体对目标理解片面化;内部错位:即使目标明确,模型也可能为达成目标而发展出与人类不符的中间目标或行为方式。

  “在大模型领域,这些问题被称为对齐(alignment)问题,即引导智能体在正确的道路上发展,避免与人类的目标和利益发生错位。”在他看来,要做到“对齐”,需依靠技术手段,如通过强化学习的奖励机制引导智能体行为,通过注意力机制可视化、规则提取等方法,增强智能体决策过程的透明度等。

  一些业内专家还指出,应根据智能体功能用途、潜在风险和使用时限进行分类管理,识别出高风险智能体,对其进行更加严格和审慎的监管,还可参考核监管,对生产具有危险能力的智能体所需资源进行控制,比如超过一定计算阈值的AI模型、芯片或数据中心。此外,由于智能体的风险是全球性的,开展相关监管国际合作也尤为重要。

手机版