文章详情

专注互联网科技,赋能企业数字化发展

独立开发做AI应用,大模型该怎么选?

作者:独立开发做AI应用,大模型该怎么选?

我收到过几个类似的问题:写代码用什么模型?服务里用的是哪家?豆包、通义、文心一言、deepseek 怎么样? 回答这个问题之前,我们还是要先定义使用场景: 场景 A:个人在聊天框中输入,等待大模型回答 场景 B:开发者调试 prompt 场景 C:开发者通过 API 将 LLM 接入自己的产品,为别人提供服务 在场景 A 下,我没有详细对比过其他类型的问题,但就代码生成而言,用 Claude-3.5-sonnet 模型生成的代码质量是最好的,一次跑通率基本在 90% 以上,其他模型在我的试验中都达不到这个水平。在同等输入的情况下,有的大模型生成的代码一次都没有跑通过,这对于编程小白来说实在过于残忍。「我不说是谁,我希望这个大模型自己站出来」(当人类尝试对 AI 进行 PUA…… 在场景 B 下,Anthropic 提供了 Evaluate 功能,非常方便开发者导入或直接让 AI 生成测试用例,可以一键跑 N 个 prompt 版本来看效果对比。仅这一个功能就完全胜出了。 在场景 C 下,因为 API 对接最需要的是输入稳定,这就要求 LLM 对 Prompt 输出格式要求的遵循要达到 99% 以上,这样才能节省做异常处理的精力。绝大多数的异常处理都是加一个正则节点做格式校验和数据清洗,但如果输入的东西本身格式就乱七八糟,你的正则表达式会写得异常痛苦。在这个场景的测试中,胜出的是 GPT-4o。 以上仅代表个人观点,测试流程和标准大概率是不够科学的,结论仅供参考。所有测试中使用的 prompt 均为英文。 #AI工具 #独立开发者 #产品经理 #大模型 #大模型应用

返回新闻列表