Coder Social home page Coder Social logo

jayhew910 / z-bench Goto Github PK

View Code? Open in Web Editor NEW

This project forked from zhenbench/z-bench

0.0 0.0 0.0 306 KB

Z-Bench 1.0 by 真格基金:一个麻瓜的大语言模型中文测试集。Z-Bench is a LLM prompt dataset for non-technical users, developed by an enthusiastic AI-focused team in Zhenfund.

Home Page: https://www.zhenfund.com/

License: Creative Commons Attribution 4.0 International

z-bench's Introduction

Z-Bench 1.0 by 真格基金

一个麻瓜的大语言模型中文测试集

数据集

腾讯文档版

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

CSV 版本

  1. 基础能力: common.samples.csv
  2. 进阶能力: emergent.samples.csv
  3. 垂直能力: specialized.samples.csv

简介

自 ChatGPT 发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也能答出来!”与此同时,我们也欣喜地看到,越来越多的大模型团队和产品如雨后春笋般出现。

作为早期投资人,我们经常需要试用和评估新发布的对话式 AI 产品,其中比较常用的方式是通过一些 Prompts,将它们与标志性的 ChatGPT 的输出结果进行直观的横向对比。在这个过程中,我们逐渐记录了一些大语言模型现在还无法处理得很好的问题,以及很多有意思的 Prompts。

那么,我们在用哪些 Prompts 进行测试呢?OpenAI 已经在官网展示了 ChatGPT 的 48 个基本能力,在 NLP 领域,也已经有了 SuperGLUEMMLUGoogle BIG-bench 等被广泛使用的测试集。同时,鉴于随着参数和数据规模增大,大模型会涌现出新能力,与这些新能力相关的测试集也在不断增加。

但是,通过实践,我们发现当前的 NLP 任务测试集存在以下问题:

  • 有些任务不一定适合对话式系统,也有些任务不一定有好的中文版本;
  • 随着这些测试集成为行业标准,可能会出现定向优化和过拟合的情况;
  • 这些测试集往往需要部署自动化测试,也不适合非专业人员进行日常问答使用。

因此,我们几个 VC 麻瓜,作为对话式 AI 的重度用户,从自身需求出发,总结推出了「Z-Bench」—— 一个为非技术人员定性测试大模型对话式产品(类 ChatGPT 产品)准备的测试集。

「Z-Bench v1.0」从基础能力进阶能力垂直能力 3 个角度出发,共提供了 300 个 Prompts,我们的出发点是尽量覆盖更多类型的 NLP 任务。我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。但是,我们难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容,未来,我们会不断根据搜集到的反馈去补充完善,并且及时予以公布。

贡献者


© 2023 ZhenFund

z-bench's People

Contributors

peakji avatar yusendai avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.