清华大学人工智能研究院基础模型研究中心针对国内外最优秀的大模型的技术性能做了一次全面的评测。评测的结果:GPT-4系列模型和Claude-3仍然处于领先地位,但领先距离已经被国内的GLM-4(来自智谱AI)等大幅缩小。 ① 整体来说,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。 ② 国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。 ③ 国内大模型中,GLM-4和文心一言4.0在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、moonshot以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。 🔘 AI四小龙横评:GLM-4(智谱AI)在所有评测单元中均位列四小龙之首,且领先于除百度之外的所有大厂,与Abab6(MiniMax),Baichuan (百川),Kimichat (月之暗面)拉开了半个身位的差距,剩下三家则各有所长。 🖊 paper个人认为,基座模型能力在当前AI发展阶段仍然占据主导地位,其背后的意义不仅局限于科技企业本身。以智谱清言,文心一言为代表的国产AI在追逐世界顶尖的道路上不断奋进,无论如何都需要多点掌声和鼓励,当然也不要把用户当成9⃣️菜,需要拿出真功夫,不断精进自己的模型和产品。 #大模型 #chatgpt #人工智能