ChatGPT o4-mini
Thu, Apr 17
这两天最新发布的模型,推理能力显著,多步执行能力优秀。看来o4-mini 在实际任务执行表现上全面超越 o3-mini。
下图展示了我的一个使用的例子,问题是:“黑镜第七季第三集中出现了很多亚裔,这些亚裔是中国人还是韩国人,或者是日本人还是马来西亚人或者新加坡?”,模型成功的多次调用搜索引擎进行搜索,并获取到了正确答案:
另外,projects也能在该模式下正常被调用和使用了,由于模型可以自主搜索,而不是使用rag的方式,使得搜索文件的效率大幅上升。
ChatGPT (不包含o3、o4-mini)
-
GPT-4o:全能。满足日常交流学习,上下文足够大,轻松处理代码、文档检索等任务。支持多种附件格式和在线执行代码。缺点是生成的上下文长度过小,不适合生成太长内容。对过长的对话,上下文压缩严重,可能会忘记早前的内容。
-
Projects:略鸡肋。适合用于多个文件频繁搜索和检索文本的场景。
-
GPT-4o mini:弱于 GPT-4o,优点是上下文窗口巨大,推荐用于翻译超长文本的场合。
-
o1:还不错的思维链模型,用于解决复杂的代码、数学题。不擅长处理感情及需要使用直觉的问题。但思维链过短,且质量不高。建议在输出结果后,将结果作为Gemini-2.5pro 或者DeepSeek-R1 的输入,优化质量。
-
o3-mini:幻觉严重,不如 o1,但推理速度极快。
-
Search:略微鸡肋。新版本搜索结果被严重阉割,甚至不如模型不搜索时的输出质量。适合替代轻度搜索。
-
Deep Research:神器。同类功能中质量最好,输出结果最完善。
-
GPT-4.5-preview:优秀。上下文窗口巨大,对长文本理解能力强。拥有海量记忆和最强直觉。其实不擅长推理,但是由于幻觉低,反而表现最好。
-
Canvas:整体不如 Cursor。上下文输出太小,文本长度受限。适合边写边编辑的短文本场景。
-
Work with Apps on macOS:功能体验被 Cursor 碾压,相当于 Cursor 的精简版。
Claude
- Claude 3.7 Sonnet:优秀,适合生成各类代码。网页版支持超大上下文,几乎与 API 提供一致的上下文历史消息保留。模型非常适合撰写沟通类文本,如邮件,用词准确、简洁、不浮夸。缺点是免费版使用次数有限。
DeepSeek
-
R1:幻觉严重,发挥不稳定,偶尔影响使用,对提示词质量要求极高。提示词正确或上下文完整时超越 o1。可以作为 o1 输出结果的输入,优化质量。
-
V3:非常优秀,GPT-4o 平替。
Grok
-
Grok-3:生成文本流畅自然,AI 感较弱,适合自然写作和小说创作。整体中规中矩,生产力方面不如 GPT-4o 提供的工具多。
-
Grok-3 + search:优秀。坐拥英文社交数据,快速分析新闻实事。输出内容长,几乎不过滤索搜源内容,比 GPT-4o 搜索能力强。
-
Grok-Deep Search:略鸡肋,反而不如 Grok-3 + search。生成内容模板化严重,影响质量。
Gemini
-
2.5 Pro:非常优秀的模型,GPT-4o 平替,幻觉少,搜索结果质量高,思维链完整清晰,逻辑性强。支持与 Google 工具联动,特殊场景下非常有用,例如上传截图或文本并自动在 Google Calendar 中创建日程。缺点是经常声称自己使用了搜索,但实际上并未执行搜索。
-
Deep Research:一般,略优于旧版 GPT Search。偶尔存在理解偏差,搜索和文档生成是分阶段执行,过程割裂,模板化严重。目前唯一能替代 GPT Deep Research 的产品。
v0.dev
- 适合编写并在线预览前端组件。
chat.qwen.ai
- Qwen2.5-Max:非常优秀的模型,GPT-4o 平替,生成速度快,支持思考模式。
知乎直答
- 支持搜索知乎全网内容。可能的竞品是小红书直答。
Perplexity
- 支持基础搜索,质量平庸,略鸡肋。
Mistral.ai
- 速度快,上下文窗口大,GPT4o-mini 平替。
Cursor
- 神器。可对整个代码仓库建立索引,适合开发大型项目。支持多模型切换,支持本地命令行执行与终端接管,适合以下任务:
- 撰写 Latex 文档,替代 Overleaf
- 辅助完成各类作业
- 代码仓库搜索与特定功能定位
- 创建单元测试
- 执行 git 操作
- 执行部署任务
- 几乎可以执行一切涉及文档和命令行的功能,在开发、调试、Debug、文档撰写方面均有帮助
- 真正的现阶段最接近 Agent 的产品(于o3和o4-mini发布后不成立,因为o3和o4-mini也可以多步执行规划并完成任务了。不过o3和o4-mini仍然只能在自己的小环境里完成Agent,而Cursor可以在用户电脑上执行,这是一个优点。)
例子:Leetcode 跟踪器
在淘宝上存在大量的 Leetcode 会员共享账号,但是我们有的时候还是需要将做题记录追加到自己的账号中。购买共享会员账号后,我们可以将某个公司的题目导出为 csv 文件,然后,将自己的做题记录也导出为 csv 文件,之后,对比这两个文件,我们可以轻松的去追踪当前的做题进度。Cursor 非常擅长撰写类似的小工具:
我们只需要复制网页中的元素,Cursor 就可以为我们撰写完整的 csv 文件,并且自动生成完美的前端界面,极大的提高做题的效率。