ChatGPT Agent 正式发布,最卷 AI 打工人来了!

时间:2025-07-19 14:57:45 来源:必应
  原标题:ChatGPT Agent 正式发布,最卷 AI 打工人来了!
 
  当下,Agent 作为人工智能领域最热门的方向,OpenAI 自然不会缺席。
 
  7月18日凌晨,OpenAI 正式发布 ChatGPT Agent。20多分钟的演示,将 ChatGPT 从单一的对话工具升级为具备真实任务执行能力的全能 Agent。
 
  “这让我第一次真正感受到 AGI的存在,” Sam Altman在演示中感叹,“观看它思考、规划再行动的过程令人震撼。”
 
  从对话到行动:六大核心技术打造全能Agent
 
  ChatGPT Agent 的核心突破在于将 OpenAI 此前分散的能力—— Operator的网页交互能力、Deep Research的信息综合能力,以及ChatGPT的智能对话能力,融合为一个统一的任务执行系统。这背后是六项关键技术能力的协同:
 
  云电脑沙盒环境:Agent 拥有完整的虚拟桌面,包含可视化浏览器(能点击按钮、拖动图片)、文本浏览器(高效扫描网页内容)、终端工具(运行代码、调试脚本)和文件编辑器。这相当于给AI配备了一台专属工作电脑。
 
  多工具智能协作:Agent 能自主判断何时使用文本爬虫快速收集信息,何时切换到可视化浏览器操作复杂界面,以及何时调用API直接获取数据,无需用户指示工具切换。
 
  自主编程执行能力:内置的Codex引擎让Agent能够读取代码库、编写测试、修复bug,并实际运行脚本处理数据。Pro用户每月可触发高达400次Agent任务。
 
  一键交付工作成果:根据提示,Agent 直接生成可下载使用的文件。在发布会上,它仅用25分钟就完成了英伟达财报分析并生成演示PPT。
 
  多步骤任务闭环:从理解需求到最终执行,Agent能编排完整工作流。演示中,它在处理婚礼礼物时被临时要求“买双黑皮鞋”,立即响应:“确认中断,已加入新任务:查找9.5码男士黑色正装鞋。”处理完后又无缝返回原任务。
 
  三层安全防护机制:训练阶段屏蔽可疑网页指令;运行时实时监控异常行为;执行登录、支付等敏感操作前强制用户手动接管。OpenAI甚至为它激活了**最高级别的生物化学安全防护**,防止潜在滥用。
 
  真实场景演示:看Agent如何主动帮你干活
 
  发布会上,OpenAI 成员演示了令无数职场人共鸣的场景:为朋友婚礼做准备——选服装、挑礼物、订酒店。传统流程需耗费半天的时间,而Agent只需要一条提示,即可高效完成全套任务:
 
  一、主动澄清需求
 
  Agent 启动虚拟环境后,没有直接给出答案,而是先打开婚礼官网查找关键信息,并主动询问:“婚礼的确切日期是什么时候?”——这种澄清意图的能力标志着AI行为模式的根本转变。
 
  二、真实操作网页
 
  在男装电商网站,观众清晰看到 Agent 的 “鼠标”在页面上移动:点开详情页、阅读面料说明、筛选合适尺码。当选中一套深灰色西装时,它在旁边标注:“这套比较适合当天的天气。”这并非基于文字描述的判断,而是真实视觉浏览后的决策。
 
  三、自主延伸任务
 
  搞定服装后,Agent未停歇,自动延伸至酒店预订。它打开Booking.com,比较位置、价格和评分,最终筛选出三家最优选项,并提示:“如需下单,我可继续。”整个过程没有用户额外指令,完全基于初始任务意图。
 
  更惊人的是第二个演示:用手机发出一条指令:“为团队吉祥物设计500张贴纸,动漫风格”。
 
  Agent 随即调用图像API生成设计稿,自动打开贴纸定制网站,将成品加入购物车,最后弹出提示:“请确认是否付款。”
 
  传统需多次跳转的复杂流程,被压缩为一句自然语言指令。
 
  商业生态重构:AI从工具升级为交易平台
 
  ChatGPT Agent的野心不止于提升效率。当它能完成“搜索商品→比价→加入购物车→生成订单”的全流程时,OpenAI正在构建全新的商业模式。
 
  据披露,OpenAI正在测试平台内集成结账系统。未来当用户通过Agent完成交易,OpenAI可能向商家收取佣金。Altman在接受Stratechery采访时坦言:“如果你通过Deep Research发现并购买商品,我们会抽取约2%的联盟费用。”
 
  这彻底改变了互联网商业逻辑:
 
  传统搜索(Google模式):提供信息→用户跳转至商家→平台赚取广告费
 
  Agent新模式:理解需求→直接完成交易→平台收取佣金
 
  当用户对Agent说“帮我订周五晚餐”,它不仅推荐餐厅,还能直接完成OpenTable预订;当要求“分析Q3财报数据”,它直接生成带图表和洞察的PowerPoint文件。
 
  每一次任务执行,都可能是一次商业转化。
 
  安全与边界:可协作的智能体才是未来
 
  能力越大,责任越大。Agent能真实操作系统和支付,也让风险升级。OpenAI采取了多层防护:
 
  执行控制:涉及登录、支付等高危操作时,Agent会暂停并请求用户手动接管。如演示中,它始终停在付款确认环节:“请确认是否继续下单”。
 
  行为监控:特别设计的“Watch Mode”确保用户在金融等敏感页面离开标签页时,Agent自动停止运行。系统还实时检测异常行为,阻断可能的恶意指令注入。
 
  能力限制:尽管已激活高级生物化学防护,OpenAI仍明确表示暂不支持金融交易操作,并建议用户遵循“最小权限原则”——仅开放必要数据权限。
 
  “我们做的是可协作的 Agent,而不是失控的自动脚本。”OpenAI 工程师Edward在发布会上强调。这种设计哲学让Agent更像数字搭档而非自动化工具,它懂得何时该问、何时该等、何时该让用户接手。
 
  操作系统级革命:你的下一台电脑可能是个对话框
 
  ChatGPT Agent 的终极意义在于重构人机交互范式。过去完成复杂任务需要:打开浏览器→搜索信息→切换电子表格→手动整理数据→制作幻灯片。
 
  而现在,用户只需对ChatGPT说一句:“分析英伟达最新财报,制作10页摘要PPT。”
 
  Agent随即启动虚拟环境:用文本浏览器抓取财报数据、在终端运行Python分析、生成可视化图表、最后打包成可下载的PPT文件。整个过程无需用户点击任何软件或网页。
 
  正如OpenAI产品负责人Yash Kumar所言:“我们要做的不只是回答问题,而是替用户把事办完。”这标志着AI从“功能增强”转向“任务接管”——它不再是你使用的工具,而是替你操作工具的执行者。
 
  现在与未来:谁将掌握AI时代的入口?
 
  目前ChatGPT Agent已向Pro、Plus和Team用户开放。Pro用户每月400次查询额度,Plus和Team用户40次。
 
  在性能方面,ChatGPT Agent 交出了亮眼成绩单:
 
  41.6%的准确率通过人类最后考试(Humanity’s Last Exam),远超o3模型的24.9%;27.4%的得分刷新数学基准测试FrontierMath纪录,比Gemini Pro 2.5高出一倍多;85.5%的准确率完成数据建模任务,显著超越人类数据分析师的65%平均水平。
 
  Altman 在发布会上坦承:“这是人类与AI共存的实境测试,社会、技术与风险管理策略都需要同步发展。”当AI真正开始“动手”做事,我们不得不重新思考:哪些工作值得人类亲力亲为?
 
  随着微软Copilot、谷歌Gemini、xAI的Grok等竞品加速进化,AI代理大战已全面打响。但OpenAI通过ChatGPT Agent传递出清晰信号:未来的竞争不在回答质量,而在于谁能成为用户任务的第一入口,那个你开口说话,就能把事办妥的“云电脑”。
 
  当Altman看着Agent自动浏览网页挑选西装时,那句喃喃自语的“它真的在工作”,或许正是对这个新时代的最佳注解。
投稿:chuanbeiol@163.com
点击展开全文

你遇到过鬼打墙吗,科学家给出了合理的解释!