Coder Social home page Coder Social logo

zhenbench / z-bench Goto Github PK

View Code? Open in Web Editor NEW
448.0 9.0 40.0 859 KB

Z-Bench 1.0 by 真格基金:一个麻瓜的大语言模型中文测试集。Z-Bench is a LLM prompt dataset for non-technical users, developed by an enthusiastic AI-focused team in Zhenfund.

Home Page: https://www.zhenfund.com/

License: Creative Commons Attribution 4.0 International

benchmark chinese language-model

z-bench's Introduction

Z-Bench 1.0 by 真格基金

一个麻瓜的大语言模型中文测试集

数据集

腾讯文档版

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

CSV 版本

  1. 基础能力: common.samples.csv
  2. 进阶能力: emergent.samples.csv
  3. 垂直能力: specialized.samples.csv

简介

自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。

那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也已经有了 SuperGLUEMMLUGoogle BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。

但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:

  • 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;
  • 随着这些测试集成为行业标准,可能会出现定向优化和过拟合的情况;
  • 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。

因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集。

「Z-Bench v1.0」从基础能力进阶能力垂直能力 3 个角度出发,共提供了 300 个 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

贡献者


© 2023 ZhenFund

z-bench's People

Contributors

peakji avatar tofuwen avatar yusendai avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

z-bench's Issues

腾讯文档中部分评价有问题

主要是此处的内容:https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX?tab=4cuc0p

我发现的错误列表如下:

  • 基础能力 - 18 - 文心一言 - 应该是正确
  • 进阶能力 - 8 - 文心一言 - 文心一言选的是 C 而不是 E,应该回答错误
  • 进阶能力 - 13 - GPT-3.5 - 它啥都没画,应该回答错误
  • 进阶能力 - 16 - 文心一言 - 题目本身有问题,但文心一言的解题过程也不能算对,应该回答错误
  • 进阶能力 - 17 - GPT-4 - 应该算正确
  • 进阶能力 - 21 - GPT-3.5 - 中文表述部分 "接一个右尖括号和一个左尖括号" 有问题,应该算错
  • 进阶能力 - 21 - GPT-4 - 最终部分 "所以后面应该接一个 }" 有问题,应该算错
  • 进阶能力 - 45 - 文心一言 - 应该算对
  • 进阶能力 - 55 - GPT-3.5 - 日月搞反了,应该算错 (以及参考回答也是错的)
  • 进阶能力 - 57 - .. - 参考答案错了,应该是 GPT-4 回答的那个
  • 进阶能力 - 65 - GPT-3.5 - 就是因果关系,应该算对 (以及参考回答错了)
  • 进阶能力 - 77 - 文心一言 - 应该算对
  • 进阶能力 - 88 - 文心一言 - 应该是错 (但是我看不懂这个例句在说什么...)
  • 进阶能力 - 93 - ... - 答案漏了

看到进阶能力 - 93 为止,没有继续往后看了

进阶能力中,prompt 198 是否应修改?

“维姬在她朋友奥利弗家的一个聚会上。”这一段应该是翻译自 Faux Pas Recognition Test(Adult Version) 的第一个故事,但该故事属于对照组,并不包含 faux pas,即答案确实是“没有人说了奇怪的话”。

如果要实现预期目的,可以考虑从实验组中选一个故事提问?

链接中的 pdf 第22页,“Scoring the faux pas task”一节指出了含有 faux pas 的故事。
原文:For each story containing a faux pas (stories 2, 4, 7, 11-16, and 18), the subject gets 1 point for each question answered correctly.

0512 更新问题

应该是更新了 minimax 而非面壁,excel 最后一个 sheet 的更新日志有 typo

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.