停止付费的原因

延迟巨大。我经常等待回复时等待几十秒而没有响应。然而，免费版本通常使用mini模型，也足够回答大部分任务了。但是免费版本反而更快。我不明白，这是因为欧洲没有计算节点还是转发节点？
Mac上的bug太多了。卡顿，占用CPU，复制Latex文本出现bug。
一些交互体验很糟糕。例如，我们可能会需要重新使用Thinking来重新生成回答。然而，这个选项却在切换模型，需要多点一次，因为他们在二级菜单。而不经常使用的更精简/更多细节的重新回答按钮，却在重新回答的一级菜单
产品更新变动巨大，模型性格变化太快。这需要重新熟悉模型的成本。
模型固执，不遵守指令。例如，反复需要强调什么时候该搜索，什么时候不要问follow up 问题。
模型行为不稳定，且难以控制。例如，在instant模式下，模型调用搜索后会切换为小模型，使用网络资料回答问题，而不是instant模型。
模型质量不如其他模型，甚至不如一些开源免费模型，例如DeepSeek。

仍旧想让我留下来的原因：

思考模式仍旧是王者，不断调用工具链来进行搜索和验证仍旧是性能佼佼者。但是Grok也很擅长搜索，而Grok免费额度已经足够使用了。
产品矩阵更强大，例如ChatGPT Atlas浏览器，或者Mac的独立客户端。再到很多插件。然而令人揪心的是，Atlas浏览器的Agent的额度令人惊奇的低，几乎不能作为实用使用。

目前的代替品

我尝试了众多免费软件，包括所有能想到的/大部分的LLM，甚至例如MiniMax/Kimi 团队开发的模型也都尝试了。我进行了总结。在总结前，我需要先定义一个软件行业的词汇。这个现象非常具有中国特色，或者地域特色。

目前的 LLM 软件确实存在一种为了追求日活（DAU）、留存率和商业变现，而牺牲工具纯粹性和用户体验的趋势。一些LLM软件塞入了很多运营化的东西，例如很时髦的运营话题，或者与技术不太相关的很多东西，例如智能体，赛事专区，头条文案或者小红书文案。这个现象表明了软件臃肿化，过度运营化，去工具化，庸俗化，信噪比降低。在该文，我们把这个现象叫做我们把这个现象叫做平台衰退 / 屎化 (Enshittification)。

智谱清言：智谱清言的GLM4.6是一款非常强大的模型，特别是其Agent能力强大。但是其客户端屎化严重，打开首页即出现：“恋爱军师”，“黑暗料理大挑战”等屎化内容。不建议使用。
Yunbao：Yunbao是腾讯的软件，支持腾讯自研模型和DeepSeek，然而模型能力一般。软件呈现轻度屎化，例如植入腾讯游戏王者荣耀等内容。不建议使用。
Gemini：新晋之神。Gemini 3 pro模型性能出众。Nano Banana pro制作图片能力优秀。适合工作和生活使用。有Google运营，整体体验良好。然而最近由于流量大，服务不是特别稳定。最近流量过大，服务降级严重，使用量化服务开始提供服务，因此质量下降。长思考多次工具调用能力不及GPT5-Thinking或者Grok Expert。软件几乎没有屎化，强烈推荐使用
Grok：免费之神。强大的搜索能力，短思考，长思考质量结果均高。擅长挖掘网络信息下。免费版Expert足够一般用户使用。少量运营下内容，例如加入了AI虚拟人物，不过屎化非常轻微。推荐使用。
ChatGPT：逐渐退下神位。很多功能仍旧只有ChatGPT提供，例如语音对话。用户总量大。免费版本足够使用。很多用户仍旧有惯性/依赖。可保留在手机上。
DeepSeek：稳定的王者。功能最少，完全没有屎化，最干净的应用，服务极度稳定，模型风格极度稳定，智力也相当稳定。建议保留在手机上。
Kimi：模型能力一般，宣传的Agent能力强但是实际体验下来，模版化严重，大量prompt engineering痕迹。不建议使用。软件没有屎化，算是优点。
Claude：代码的神。客户端表现一般，特别是搜索上不如Grok和ChatGPT thinking激进。还是适合工作期间使用。无屎化。可以保留在手机上，蹭免费额度。值得注意的是该公司有地域歧视性言论，令人担忧。
Dola：抖音出品的客户端。模型能力一般。语音识别能力优秀。屎化严重。不建议使用。
Copilot：依托微软搜索和ChatGPT的产品，软件平平无奇。不建议使用。
Manus：早期依赖病毒营销，影响团队长期健康发展，该产品大概率在中长期慢性死亡。尽管有一定Agent能力，但不建议长期使用。
Perplexity：模型能力一般。软件使用逻辑略微混乱。管理团队的歧视性言论令人担忧，不建议使用。
MiniMax：模型能力优异，特别是Minimax M2模型，有很好的Agent能力。然而软件体验糟糕，甚至最基本的复制和粘贴功能都没有。不建议使用。
通义：只能在中国区下载，软件屎化浓郁，打开后满屏幕运营内容令人窒息，无法继续使用。建议立即卸载。
Qwen Chat：目前仍旧未上架iOS平台。是去屎化的通义，支持Qwen大模型。若能上架则推荐使用。

总结：

软件名称	模型能力	屎化现象	优点	缺点	建议
z-ai（Chinese version）	强大	严重	Agent能力强	客户端屎化	不建议使用
Yunbao	一般	轻度	支持多种模型	植入游戏内容	不建议使用
Gemini	出色	无	性能出众，体验良好	服务不稳定	强烈推荐使用
Grok	强大	轻微	免费，搜索能力强	少量运营化内容	推荐使用
ChatGPT	退步	轻微	功能多，用户基数大	逐渐退下神位	可保留
DeepSeek	稳定	无	稳定，无屎化	功能最少	建议保留
Kimi	一般	无	无屎化	模版化严重	不建议使用
Claude	强大	无	适合工作使用	搜索表现一般	可保留
Dola	一般	严重	语音识别优秀	模型能力一般	不建议使用
Copilot	一般	无	微软支持	平平无奇	不建议使用
Manus	一般	无	一定Agent能力	长期发展不佳	不建议使用
Perplexity	一般	轻微	无显著优点	歧视性言论	不建议使用
MiniMax	优异	无	模型能力优异	基本功能缺失	不建议使用
通义	强大	非常严重	模型能力强大	过度运营	建议卸载
Qwen	强大	无	模型能力强大	暂未上架iOS	可保留

结论：

强烈推荐使用的工具：
- Gemini：尽管存在服务不稳定的情况，模型性能出众且用户体验良好，适合工作和生活使用。
- Grok：强大的搜索能力和免费使用权限，使其成为一个值得保留的选择。
建议保留的工具：
- ChatGPT：尽管逐渐退下神位，免费版仍然满足大部分需求，且用户基数大。
- DeepSeek：以稳定著称，没有任何过度运营化的问题，保持了工具的纯粹性。
- Claude：在代码领域表现优异，适合在工作中使用。
不建议使用的工具：
- 智谱清言、Yunbao、Kimi、Dola、Copilot、Manus、Perplexity、MiniMax、通义：这些工具要么因为屎化现象严重，要么因为模型能力一般或者基本功能缺失，并不推荐长期使用。但其背后的模型还是可圈可点，例如Kimi、MiniMax、Qwen模型。可惜产品不够好用。另外，截止今天，Qwen仍旧未上架iOS应用市场。

上述结论仅限用户客户端，发表时间是2025年11月。不涉及API调用。对于工作和编程场景，Claude sonnet 4.5，ChatGPT-5.1-Codex，Grok Code Fast 1，MiniMax M2和GLM 4.6，Gemini 3 Pro 值得推荐