想问一下您，在taobao ad数据集上，最终的AUC是能够得到论文中结果的嘛？因为我按照您的这个流程走下来，使用了5%的ad数据集（受硬件环境限制），但是最后AUC只有

关于结果 about dsin HOT 5 CLOSED

shenweichen commented on September 23, 2024

关于结果

from dsin.

Comments (5)

shenweichen commented on September 23, 2024

可以看下readme里最后一段关于dsin的一些解释，dsin在我们离线实验的数据集偶然会出现loss变成nan的情况，怀疑是和参数的初始化有关系，这种情况下训练的到的auc很有可能是0.5+。建议观察下训练开始时的loss情况，如果出现异常请停止训练重新开始。

from dsin.

DoubleYing commented on September 23, 2024

嗯，感谢您的回复，我增大了数据集，使用了25%的ad数据，结果能达到0.6+了。

但是，我仍然有一个问题，就是在Session Interest Interacting Layer，您的论文中是用了Bi-LSTM来做的，我觉得换成其他模块，比如self-attention应该也能达到同样的效果吧，但是好像结果并不理想，在训练过程中loss持续升高，这让我很费解。
或许您能给我一些建议来解决这个问题吗？

from dsin.

649435349 commented on September 23, 2024

嗯，感谢您的回复，我增大了数据集，使用了25%的ad数据，结果能达到0.6+了。

但是，我仍然有一个问题，就是在Session Interest Interacting Layer，您的论文中是用了Bi-LSTM来做的，我觉得换成其他模块，比如self-attention应该也能达到同样的效果吧，但是好像结果并不理想，在训练过程中loss持续升高，这让我很费解。
或许您能给我一些建议来解决这个问题吗？

不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点，而且每个模块（Bi-LSTM or CNN or self-attention）应该有自己的特殊作用，主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化，那似乎用 Bi-LSTM 会更贴切这个目标；想捕捉用户 session interest 之间的关系，那 self-attention 更合适。当然我是感觉前者更合适哈。

from dsin.

DoubleYing commented on September 23, 2024

嗯，感谢您的回复，我增大了数据集，使用了25%的ad数据，结果能达到0.6+了。
但是，我仍然有一个问题，就是在Session Interest Interacting Layer，您的论文中是用了Bi-LSTM来做的，我觉得换成其他模块，比如self-attention应该也能达到同样的效果吧，但是好像结果并不理想，在训练过程中loss持续升高，这让我很费解。
或许您能给我一些建议来解决这个问题吗？

不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点，而且每个模块（Bi-LSTM or CNN or self-attention）应该有自己的特殊作用，主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化，那似乎用 Bi-LSTM 会更贴切这个目标；想捕捉用户 session interest 之间的关系，那 self-attention 更合适。当然我是感觉前者更合适哈。

嗯，我也是想要去学习兴趣的演化过程，然后是对Bi-LSTM有疑问，就是它学习了两个方向的演化，这不存在泄漏未来信息的问题吗？（self-attention是可以通过mask避免未来信息泄漏的问题的吧。）所以我才想去尝试更改这个模块。
如果按照您的实验结果是略跌一点，那可能是我修改代码的问题，因为我始终停留在了0.5+，T-T
最后，也感谢您的回复。

from dsin.

649435349 commented on September 23, 2024

嗯，感谢您的回复，我增大了数据集，使用了25%的ad数据，结果能达到0.6+了。
但是，我仍然有一个问题，就是在Session Interest Interacting Layer，您的论文中是用了Bi-LSTM来做的，我觉得换成其他模块，比如self-attention应该也能达到同样的效果吧，但是好像结果并不理想，在训练过程中loss持续升高，这让我很费解。
或许您能给我一些建议来解决这个问题吗？

不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点，而且每个模块（Bi-LSTM or CNN or self-attention）应该有自己的特殊作用，主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化，那似乎用 Bi-LSTM 会更贴切这个目标；想捕捉用户 session interest 之间的关系，那 self-attention 更合适。当然我是感觉前者更合适哈。

嗯，我也是想要去学习兴趣的演化过程，然后是对Bi-LSTM有疑问，就是它学习了两个方向的演化，这不存在泄漏未来信息的问题吗？（self-attention是可以通过mask避免未来信息泄漏的问题的吧。）所以我才想去尝试更改这个模块。
如果按照您的实验结果是略跌一点，那可能是我修改代码的问题，因为我始终停留在了0.5+，T-T
最后，也感谢您的回复。

其实在 NLP 里面也经常有这样的疑问，不过确实双向模型一般比单向好，可能确实有顺序关系。泄漏未来信息只要不是透露 label 相关的信息就行。如果是0.5+，可以重跑或者去掉 bias encoding 试试，我们会持续跟进这个问题~
多谢关注~

from dsin.

关于结果 about dsin HOT 5 CLOSED

Comments (5)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent