Coder Social home page Coder Social logo

关于结果 about dsin HOT 5 CLOSED

shenweichen avatar shenweichen commented on June 26, 2024
关于结果

from dsin.

Comments (5)

shenweichen avatar shenweichen commented on June 26, 2024

可以看下readme里最后一段关于dsin的一些解释,dsin在我们离线实验的数据集偶然会出现loss变成nan的情况,怀疑是和参数的初始化有关系,这种情况下训练的到的auc很有可能是0.5+。建议观察下训练开始时的loss情况,如果出现异常请停止训练重新开始。

from dsin.

DoubleYing avatar DoubleYing commented on June 26, 2024

嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。

但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?

from dsin.

649435349 avatar 649435349 commented on June 26, 2024

嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。

但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?

不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。

from dsin.

DoubleYing avatar DoubleYing commented on June 26, 2024

嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。
但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?

不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。

嗯,我也是想要去学习兴趣的演化过程,然后是对Bi-LSTM有疑问,就是它学习了两个方向的演化,这不存在泄漏未来信息的问题吗?(self-attention是可以通过mask避免未来信息泄漏的问题的吧。) 所以我才想去尝试更改这个模块。
如果按照您的实验结果是略跌一点,那可能是我修改代码的问题,因为我始终停留在了0.5+,T-T
最后,也感谢您的回复。

from dsin.

649435349 avatar 649435349 commented on June 26, 2024

嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。
但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?

不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。

嗯,我也是想要去学习兴趣的演化过程,然后是对Bi-LSTM有疑问,就是它学习了两个方向的演化,这不存在泄漏未来信息的问题吗?(self-attention是可以通过mask避免未来信息泄漏的问题的吧。) 所以我才想去尝试更改这个模块。
如果按照您的实验结果是略跌一点,那可能是我修改代码的问题,因为我始终停留在了0.5+,T-T
最后,也感谢您的回复。

其实在 NLP 里面也经常有这样的疑问,不过确实双向模型一般比单向好,可能确实有顺序关系。泄漏未来信息只要不是透露 label 相关的信息就行。如果是0.5+,可以重跑或者去掉 bias encoding 试试,我们会持续跟进这个问题~
多谢关注~

from dsin.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.