openai全新发布首个agentic模型 o3 - 谣言，不存在了

o3发布,谣言不存在了。

顶级的ai模型,在本质上就是一个“谣言终结者”。

人类进入智能时代,智能从人类独一份的特质,变成普普通通、按斤称的、200块包月的“资源”。而智能资源的普及,附带效应之一就是会把事实验证的价格“打下来”,戳穿任何谣言的成本无限近乎于0。

看下面的实例:

(感谢读者朋友提醒,删除案例1)

案例2 赫鲁晓夫持弹大笑

你看到了一张真假难辨的照片,于是,继续花费多达3秒的时间,让chatgpt o3 ”fact-check this“:

o3的批判性思维过程如下。o3会对你上传的照片进行了一系列操作,放大缩小旋转,这都是用内置的python工具实现的。

案例3 梁启超的儿媳妇是谁?

一年前,你问当时的顶级模型(gpt-4o)这个问题,得到的是一本正经的胡说八道。

不论你这么prompt,gpt-4o做不到就是做不到。

但是,时隔短短一年,再次测试这个问题,chatgpt的回答已经今非昔比,滴水不漏,准确全面。AI进化的速度,简直让人类汗颜。

2分43秒的思维过程如下。o3作为首个agentic llm,可以灵活调用search工具(gpt-4o当时的回答还是胡编乱造),而且,强大的reasoning 能力,有了search加持,就是名副其实的deep search。

对比gpt-4o的回答,想想这恐怖的进步速度,人类真的得好好重视ai,想想如何用好ai工具了。

案例4 根据照片识别地点

每个有突破的llm,都会带来一种新颖的、标志性的use case,有效展示自己的新能力。例如,gpt-4.5 就是greentext,以及我一直使用的“7层真相”系列。这些都是“only xxx cando”的事情。

而o3的标志性use case,就是geo-guessing,用直观的案例凸显了它的独特能力,它的agentic-ness。

你随手拍一张照片,让o3 “geo-guess this”:

这个过程最能体现o3的agentic-ness:灵活使用一切内部智能和时间、工具和外部资源,实现自身目标的主动性。

o3会把照片进行放大缩小扭转黑白x光等各种操作,寻找所有可能的线索,然后再联网搜索获取信息验证猜测......

启发

下面是我目前的一些思考和启发。

o3不是量变而是质变

上面的案例,都展示了o3的独特能力。o3之所以能做到这些,根本原因只有一个:

o3不是“o1+2”,而是首个“agentic llm”。

除了恐怖的cot逻辑推理能力之外,o3还有了full tool use,能灵活调用chatgpt内部的所有工具。chatgpt内部目前有8个工具,o3能全部充分灵活调用,指哪打哪:

对比之下,gpt-4.5只有python、联网和canvas文档;

而o1 pro的工具就更少了。

agent、agency、agentic-ness

o3模型最有趣的地方,就是它的“agentic-ness”(类似于cat的cat-ness,human的human-ness)。

或者,我们可以说,o3非常有“agency”(能动性)。

之前的o1只是reasoning model,因为缺乏full tool use,即使有思维过程,有cot,但是使用场景仅限于chat。

o3不再是o1的量变,不止是o1的下一个版本,而是因为full tool use而迎来了某种质变。o3不只是reasoning model,更是一个“agentic model”/“agent llm”/智能体模型/任务模型/目标模型(对新事物的命名尚未统一,多名词可以更精确地对齐我们对这一概念的理解)。

后退一步,看全局:在openai的agi路线图中,level3 agi是agents,是可以执行行动、完成目标的智能体系统。

o3,可能就是首个真正的agentic model,预示着llm的全新发展截断,会开启“ai的下半场”。

o3专题直播

o3才发布48小时,其“博大精深”、影响深远并非立刻现在马上就能完全充分掌握吃透的。我们需要更多的时间、实践和思考来总结提炼。

昨天晚上,我已经做了一次o3专题直播,毫无保留地分享了我的发现、案例和总结。这是会员内部直播,因为最近新朋友比较多,所以限时免费,有兴趣的朋友欢迎回看。

点赞 ♥︎ 转发 ♥︎ 评论