Coder Social home page Coder Social logo

关于输出中的合法输出和非法输出以及boostrap对比实验图中的Ours指标是如何计算的? about llmrank HOT 3 OPEN

remember00000 avatar remember00000 commented on August 15, 2024
关于输出中的合法输出和非法输出以及boostrap对比实验图中的Ours指标是如何计算的?

from llmrank.

Comments (3)

hyp1231 avatar hyp1231 commented on August 15, 2024

您好!

  1. 非法输出大概有 1-5% 左右,论文中报告的结果是当作这些非法输出没有预测成功(大概等于赋了 0 分)。当然也可以写一些简单规则,比如遇到非法输出就重新跑一下,估计能再提升几个点。
  2. 这部分代码可以参考脚本 [link]:

Ours:

cd llmrank/

# ML-1M
python evaluate.py -m Rank

# Games
python evaluate.py -m Rank -d Games

Ours + Bootstrapping

cd llmrank/

# ML-1M
python evaluate.py -m Rank --boots=3

# Games
python evaluate.py -m Rank -d Games --boots=3

可以看到 Ours 就是第一部分使用 Sequential 这个 prompting 策略的 LLM-based recommendation model,和 #5 提到的赋分方式一样(当然 Ours 是没有 bootstrapping 的,相当于 boots==1)。拿到对每个商品赋的分数后,正常计算 NDCG 即可。

关于为什么这个策略可以起作用,可以参考论文 Alleviating position bias via bootstrapping 这个部分。

我们发现 LLM 受到 position bias 的影响,当 ground-truth item 在 candidate items 列表的位置靠后时,不容易被模型推荐到前面。因此我们通过多次打乱 candidate items 列表的顺序,希望缓解掉一部分 position 带来的影响(比如各个候选都有概率出现在各个位置上)。

from llmrank.

remember00000 avatar remember00000 commented on August 15, 2024

好的,我这边测试使用和论文中类似的prompt,但输出的格式比较多,另外也不能完全控制输出完全来自于候选集,这块请问处理上是在同一个parser下仍然能控制在1-5%吗

from llmrank.

hyp1231 avatar hyp1231 commented on August 15, 2024

嗯嗯我们也观察到了输出格式比较多、以及不一定完全属于候选集的情况。在我们当时的测试中,对于不同输出格式,只要能被 parser 解析,我们就认为是合法输出,并正常赋分;对于不一定完全属于候选集的情况,我们只解析了属于候选集的那部分。

之前提到的 1-5% 主要是针对第一个表格的实验来说的,即 ground-truth item 一定在候选集中的设定。这种设定下,没有生成 ground-truth 或者解析不了的大概有 1-5%。

from llmrank.

Related Issues (9)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.