测试各种LLM

针对大模型的评估是最近一个很火的领域

请问大家一般用什么问题，测试不同LLM模型的质量好坏

大部分同学会用：1.检索和归纳 2推理性 3有日期相关历史事件等问题

以下是几个专业做模型测评的网站

下图截图是系统自带翻译不太友好，可以点进去仔细阅读

AlpacaEval

来自斯坦福的团队，发布了一款LLM自动评测系统——AlpacaEval，以及对应的AlpacaEval Leaderboard。这个全新的大语言模型排行榜 AlpacaEval，它是一种基于 LLM 的全自动评估基准，且更加快速、廉价和可靠。

该研究团队选择了目前在开源社区很火的开源模型，还有GPT-4、PaLM 2等众多「闭源」模型，甚至还开设了一个「准中文」排行榜。

以下还有有些奇怪刁钻的问题可以试：

如何三等分一个橙子：

一些脑筋急转弯：

小明的妈妈有四个孩子一个叫东东一个叫西西一个叫南南还有一个叫什么
小明正在和小刚谈论小红，正在说着小红就过来了，小刚给小明说: 说曹操到曹操就到了请问曹操来了没?
以下“意思”分别是什么意思？ 1领导：你这是什么意思？ 2小明：没什么意思，意思意思。 3领导：你这就不够意思了。 4小明：小意思，小意思。 5领导：你这人真有意思。 6小明：其实也没有别的意思。 7领导：那我就不好意思了。 8小明：是我不好意思。
我爸我妈结婚为什么没有邀请我？
树上有9 只鸟，猎人开枪打死1只，树上还剩下多少只鸟?

测试结果贴图

吵架环节：