Comments (5)
可以看下readme里最后一段关于dsin的一些解释,dsin在我们离线实验的数据集偶然会出现loss变成nan的情况,怀疑是和参数的初始化有关系,这种情况下训练的到的auc很有可能是0.5+。建议观察下训练开始时的loss情况,如果出现异常请停止训练重新开始。
from dsin.
嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。
但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?
from dsin.
嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。
但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?
不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。
from dsin.
嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。
但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。
嗯,我也是想要去学习兴趣的演化过程,然后是对Bi-LSTM有疑问,就是它学习了两个方向的演化,这不存在泄漏未来信息的问题吗?(self-attention是可以通过mask避免未来信息泄漏的问题的吧。) 所以我才想去尝试更改这个模块。
如果按照您的实验结果是略跌一点,那可能是我修改代码的问题,因为我始终停留在了0.5+,T-T
最后,也感谢您的回复。
from dsin.
嗯,感谢您的回复,我增大了数据集,使用了25%的ad数据,结果能达到0.6+了。
但是,我仍然有一个问题,就是在Session Interest Interacting Layer,您的论文中是用了Bi-LSTM来做的,我觉得换成其他模块,比如self-attention应该也能达到同样的效果吧,但是好像结果并不理想,在训练过程中loss持续升高,这让我很费解。
或许您能给我一些建议来解决这个问题吗?不好意思来晚了。。
我自己实验的时候换成 self-attention 会略跌一点,而且每个模块(Bi-LSTM or CNN or self-attention)应该有自己的特殊作用,主要看你想做什么。我们想捕捉用户的 session interest 的渐进和演化,那似乎用 Bi-LSTM 会更贴切这个目标;想捕捉用户 session interest 之间的关系,那 self-attention 更合适。当然我是感觉前者更合适哈。嗯,我也是想要去学习兴趣的演化过程,然后是对Bi-LSTM有疑问,就是它学习了两个方向的演化,这不存在泄漏未来信息的问题吗?(self-attention是可以通过mask避免未来信息泄漏的问题的吧。) 所以我才想去尝试更改这个模块。
如果按照您的实验结果是略跌一点,那可能是我修改代码的问题,因为我始终停留在了0.5+,T-T
最后,也感谢您的回复。
其实在 NLP 里面也经常有这样的疑问,不过确实双向模型一般比单向好,可能确实有顺序关系。泄漏未来信息只要不是透露 label 相关的信息就行。如果是0.5+,可以重跑或者去掉 bias encoding 试试,我们会持续跟进这个问题~
多谢关注~
from dsin.
Related Issues (20)
- tensorflow.python.framework.errors_impl.InvalidArgumentError: indices[6,0] = 9984 is not in [0, 5619) HOT 5
- 关于代码中Transformer输入格式的疑惑 HOT 3
- #Parameter is zero for gru and attention layer? HOT 4
- 关于dien,dsin实验结果的输入参数设置
- Transformer类中call()的问题 HOT 3
- 如何使用线上数据预测 HOT 4
- 结果和原文有差距。 HOT 9
- train_din error HOT 1
- 关于session的划分
- MemoryError
- 关于DIEN 的negsample
- SingleFeat不存在 HOT 1
- 报bug:DSIN特征穿越问题?
- The code file "train_dsin.py" fails to run. HOT 2
- in 0_gen_sampled_data.py why behavior_log.csv drop 'btag' columns
- 关于序列构造的问题 HOT 2
- run train_din error HOT 1
- train_dsin error HOT 14
- 0_gen_sampled_data.py error HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from dsin.