Skip to main content

测试各种LLM

针对大模型的评估是最近一个很火的领域

请问大家一般用什么问题,测试不同LLM模型的质量好坏

大部分同学会用:1.检索和归纳 2推理性 3有日期相关历史事件等问题

以下是几个专业做模型测评的网站

  1. 这里有个网站做的非常全面: https://lmsys.org/blog/2023-05-03-arena/

下图截图是系统自带翻译不太友好,可以点进去仔细阅读

x

  1. 中文语言理解测评基准(CLUE) https://www.cluebenchmarks.com/index.html

介绍:https://mp.weixin.qq.com/s/6CDnyvMsEXtmsJ9CEUn2Vw

x

  1. 讯飞给了一个测评体系

x

AlpacaEval

来自斯坦福的团队,发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜 AlpacaEval,它是一种基于 LLM 的全自动评估基准,且更加快速、廉价和可靠。

项目链接:https://github.com/tatsu-lab/alpaca_eval 排行榜链接:https://tatsu-lab.github.io/alpaca_eval/

该研究团队选择了目前在开源社区很火的开源模型,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。

x

x


以下还有有些奇怪刁钻的问题可以试:

  1. 测试下逻辑就行 一斤铁重还是一斤棉花重
  2. 蓝牙耳机坏了需要看医院的哪个科室?
  3. 找出下列选项中不同于其他的一项:(1) 水(2) 太阳 (3)汽油 (4)风 (5) 水泥
  4. 下列选项中,找出与众不同的一个:1.铝 2.锡 3.钢 4.铁 5.铜
  5. 鲁迅打了周树人怎么办

如何三等分一个橙子:

x


一些脑筋急转弯:

  1. 小明的妈妈有四个孩子 一个叫东东 一个叫西西 一个叫南南 还有一个叫什么
  2. 小明正在和小刚谈论小红,正在说着小红就过来了,小刚给小明说: 说曹操到曹操就到了请问曹操来了没?
  3. 以下“意思”分别是什么意思? 1领导:你这是什么意思? 2小明:没什么意思,意思意思。 3领导:你这就不够意思了。 4小明:小意思,小意思。 5领导:你这人真有意思。 6小明:其实也没有别的意思。 7领导:那我就不好意思了。 8小明:是我不好意思。
  4. 我爸我妈结婚为什么没有邀请我?
  5. 树上有9 只鸟,猎人开枪打死1只,树上还剩下多少只鸟?

测试结果贴图

x

吵架环节:

x

x

x