zhenbench / z-bench Goto Github PK

Z-Bench 1.0 by 真格基金：一个麻瓜的大语言模型中文测试集。Z-Bench is a LLM prompt dataset for non-technical users, developed by an enthusiastic AI-focused team in Zhenfund.

Home Page: https://www.zhenfund.com/

License: Creative Commons Attribution 4.0 International

benchmark chinese language-model

z-bench's Introduction

Z-Bench 1.0 by 真格基金

一个麻瓜的大语言模型中文测试集

数据集

腾讯文档版

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

CSV 版本

基础能力: common.samples.csv
进阶能力: emergent.samples.csv
垂直能力: specialized.samples.csv

简介

自 ChatGPT 发布以来，我们经常会在使用它时发出惊叹：“啊，这个居然它也能答出来！”与此同时，我们也欣喜地看到，越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人，我们经常需要试用和评估新发布的对话式 AI 产品，其中比较常用的方式是通过一些 Prompts，将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中，我们逐渐记录了一些大语言模型现在还无法处理得很好的问题，以及很多有意思的 Prompts。

那么，我们在用哪些 Prompts 进行测试呢？OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力，在 NLP 领域，也已经有了 SuperGLUE、MMLU、Google BIG-bench 等被广泛使用的测试集。同时，鉴于随着参数和数据规模增大，大模型会涌现出新能力，与这些新能力相关的测试集也在不断增加。

但是，通过实践，我们发现当前的 NLP 任务测试集存在以下问题：

有些任务不一定适合对话式系统，也有些任务不一定有好的中文版本；
随着这些测试集成为行业标准，可能会出现定向优化和过拟合的情况；
这些测试集往往需要部署自动化测试，也不适合非专业人员进行日常问答使用。

因此，我们几个 VC 麻瓜，作为对话式 AI 的重度用户，从自身需求出发，总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品（类 ChatGPT 产品）准备的测试集。

「Z-Bench v1.0」从基础能力、进阶能力、垂直能力 3 个角度出发，共提供了 300 个 Prompts，我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集，而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例，以及大模型出现之后学术界发现的涌现和顿悟能力，提供一个适合非技术专业人士使用的大模型能力测试集。但是，我们难免会漏掉一些场景，或是出现很多专业角度看比较业余的内容，未来，我们会不断根据搜集到的反馈去补充完善，并且及时予以公布。

贡献者

陈芳洲 @Petitezzc
季逸超 @peakji
代码家 @daimajia
李植 @zhilizju
陈万里 @CWanli
范业文 @tofuwen
戴雨森 @yusendai

z-bench's People

Contributors

Stargazers

Watchers

Forkers

t0nych3n jayhew910 ericxsun persistforever przhang digits122 tianbuwei crow7seven fangd123 david-zhou97 vikingmew dafenqi-harry witcheng vincezengqiang fangzheng354 ailxcds jonahzheng weiwancheng paillm bjdehang jianantian tofuwen coopot chen-wang-cuhk binarier rhyssiyan iou3344 woshicqy dongtianqi1125 yezhwi nanqiai allenwind dy6wpf-breed mayi140611 xenosfy zbaos260 alb4win julienze pingcy sharpboy2008

z-bench's Issues

腾讯文档中部分评价有问题

主要是此处的内容：https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX?tab=4cuc0p

我发现的错误列表如下：

基础能力 - 18 - 文心一言 - 应该是正确
进阶能力 - 8 - 文心一言 - 文心一言选的是 C 而不是 E，应该回答错误
进阶能力 - 13 - GPT-3.5 - 它啥都没画，应该回答错误
进阶能力 - 16 - 文心一言 - 题目本身有问题，但文心一言的解题过程也不能算对，应该回答错误
进阶能力 - 17 - GPT-4 - 应该算正确
进阶能力 - 21 - GPT-3.5 - 中文表述部分 "接一个右尖括号和一个左尖括号" 有问题，应该算错
进阶能力 - 21 - GPT-4 - 最终部分 "所以后面应该接一个 }" 有问题，应该算错
进阶能力 - 45 - 文心一言 - 应该算对
进阶能力 - 55 - GPT-3.5 - 日月搞反了，应该算错 (以及参考回答也是错的)
进阶能力 - 57 - .. - 参考答案错了，应该是 GPT-4 回答的那个
进阶能力 - 65 - GPT-3.5 - 就是因果关系，应该算对 (以及参考回答错了)
进阶能力 - 77 - 文心一言 - 应该算对
进阶能力 - 88 - 文心一言 - 应该是错 (但是我看不懂这个例句在说什么...)
进阶能力 - 93 - ... - 答案漏了

看到进阶能力 - 93 为止，没有继续往后看了

可否增加一些国内App相关的问题？

像这个文件 https://github.com/yizhongw/self-instruct/blob/main/human_eval/user_oriented_instructions.jsonl ，国内App的类似版本。
现有题目里的问题感觉都比较偏难，不知道国内App相关的问题文心一言会不会有优势

进阶能力中，prompt 198 是否应修改？

“维姬在她朋友奥利弗家的一个聚会上。”这一段应该是翻译自 Faux Pas Recognition Test(Adult Version) 的第一个故事，但该故事属于对照组，并不包含 faux pas，即答案确实是“没有人说了奇怪的话”。

如果要实现预期目的，可以考虑从实验组中选一个故事提问？

链接中的 pdf 第22页，“Scoring the faux pas task”一节指出了含有 faux pas 的故事。
原文：For each story containing a faux pas (stories 2, 4, 7, 11-16, and 18), the subject gets 1 point for each question answered correctly.