独立开发做AI应用，大模型该怎么选？

作者：独立开发做AI应用，大模型该怎么选？

我收到过几个类似的问题：写代码用什么模型？服务里用的是哪家？豆包、通义、文心一言、deepseek 怎么样？回答这个问题之前，我们还是要先定义使用场景：场景 A：个人在聊天框中输入，等待大模型回答场景 B：开发者调试 prompt 场景 C：开发者通过 API 将 LLM 接入自己的产品，为别人提供服务在场景 A 下，我没有详细对比过其他类型的问题，但就代码生成而言，用 Claude-3.5-sonnet 模型生成的代码质量是最好的，一次跑通率基本在 90% 以上，其他模型在我的试验中都达不到这个水平。在同等输入的情况下，有的大模型生成的代码一次都没有跑通过，这对于编程小白来说实在过于残忍。「我不说是谁，我希望这个大模型自己站出来」（当人类尝试对 AI 进行 PUA…… 在场景 B 下，Anthropic 提供了 Evaluate 功能，非常方便开发者导入或直接让 AI 生成测试用例，可以一键跑 N 个 prompt 版本来看效果对比。仅这一个功能就完全胜出了。在场景 C 下，因为 API 对接最需要的是输入稳定，这就要求 LLM 对 Prompt 输出格式要求的遵循要达到 99% 以上，这样才能节省做异常处理的精力。绝大多数的异常处理都是加一个正则节点做格式校验和数据清洗，但如果输入的东西本身格式就乱七八糟，你的正则表达式会写得异常痛苦。在这个场景的测试中，胜出的是 GPT-4o。以上仅代表个人观点，测试流程和标准大概率是不够科学的，结论仅供参考。所有测试中使用的 prompt 均为英文。 #AI工具 #独立开发者 #产品经理 #大模型 #大模型应用

文章详情

独立开发做AI应用，大模型该怎么选？

推荐阅读