dantezhao / data-group Goto Github PK

View Code? Open in Web Editor NEW

77.0 77.0 12.0 91.21 MB

data-group's People

Contributors

Stargazers

Watchers

Forkers

qinchaofeng zhanglei738 ghostband liuxx532 hongsong2021 lxg2014 sunmeng68 rebiekong lxpzh detectivelcy wosow heaven1sky

data-group's Issues

app与web在基础数据的要求有所不同，如果app和web共同为同一业务服务，这两者之间的数据如何进行汇总处理？

sklearn只能处理数字型数据吗？还有one-hot编码就是哑编码吗？

数据相关的个人主页推荐！

自荐一下自己的个人主页。格式：网站名-主题-链接

比如：木东居士-数据仓库和数据挖掘-http://www.mdjs.info/

在设计数据表的时候，是一个宽表好，还是多个维度表好？

一个宽表解决需求，还是维度和订单表分开。这个你们是不是也有时候拆，有时候合。然后，自己也搞不清楚啥时候拆，啥时候合。都是被牵着鼻子走。

为什么把特征组合之后还能提升，反正这些基本都是增强了特征的表达能力，或者说更容易线性可分

我看到一个大神的博客写的这句话，但是不是很理解。

特征组合之后，为什么会更容易线性可分应该怎么理解呢

【问题】怎么控制埋点数据传输流量？

【场景】我手机上用某一个app，这个app上我做了一套用户行为埋点。那么我肯定不希望我操作这个app的时候这些数据信息随时同步到这个app的后台，因为我要花流量费。而上传信息对我本人来说没有什么效益。但是这部分我不清楚会耗费多少流量。那用户万一清理手机了呢，是不是行为信息就没了？那如果不是实时上传，就是检测到wifi环境上传。

关于从kafka消费到的实时数据如何在存入存储介质前去重的疑问

场景是：你的程序负责从kafka中按topic消费，数据来源是logstash采集的各个业务组生成的数据和日志。
要求是你的程序从kafka消费后，到写入存储前数据必须去重，怎么做到呢？
请大家给点思路谢谢

数据更新频率比较高的需求适合用Hive吗，有什么比较好的解决方案？

【问题】对于提升埋点数据效率，有什么坑可以规避，有什么经验可以分享。

【背景】我们现在遇到的一个问题是。运营部门或者产品部门，上一个新功能或者新页面或者新活动的时候，需要很久才能看到这一块的数据，因为要上新页面/新功能/新活动，要联系客户端开发，数据分析，大数据开发，数据产品，协调埋点，数据统计，上报，展示等环节，周期时间比较长而且有时候还容易出错。
【需求】目前就是想着能不能有一个快速的方法将这个问题解决掉，当一个新页面上去之后迅速就能看到这个页面的数据。
【目前想到的方案】目前我能想到的一个解决方案就是：做一套埋点系统，将所有的埋点都以变量的形式放在一个大的查询当中，每天晚上去跑这个查询，将查询的结果展现在页面上或者报表上，实现自动化。

对语言模型M0和M1做线性插值，M_=aM0+(1-a)M1。得到的模型更好吗

题主：看到解释说，因为信息熵是凸函数，所以M_的熵比M0和M1的熵的线性组合小，因此M_的不确定性少，是更好的模型。但是M0和M1模型都是通过最大熵算法求得的。。为什么插值模型是熵越小越好了。
困惑。。各位大佬有什么想法吗

【问题】如何打通产品多端的埋点数据，如何把他们识别为同一个客户？这个有好的解决方案么？

【场景】
1、多端识别方面，比如顾客通过网页SEM下载了APP，然后在APP内购物，计算ROI的时候肯定要算到这个SEM里面的，所以需要识别客户。
2、同一个用户，如果通过SEM访问后，再注册登陆，下载APP，如何识别到是同一个用户并且归功于哪个SEM？
3、SEM会有个有统计代码的链接，通过那个链接下载的就是那个渠道引流的用户，但是WAP和APP依旧不是同一个ID，通常是怎么处理的呢？

ods有的公司说几乎不处理，有的说这一层要做第一次数据清洗，大家怎么看？

[DISCUSS-1]指标系统的主题讨论

指标系统架构方面的内容讨论
指标系统实现方面的讨论
关于指标系统方面的疑惑

SparkStreaming如何有效的结合hdfs中的历史数据和接收的准实时数据进行聚合运算?

   有一个需求是关于实时统计平台的用户数的, 以身份证号码作为统计条件,及一个身份证号码代表一个用户.

问题是平台中每一个来注册的用户可能身份证信息已经存在于平台的mysql数据库中,一个身份证可以有多个注册账号, 后台业务开发会将日志信息落成文件,我使用flume进行实时采集,然后进入kafka,再由SparkStreaing接收数据进行计算 , 在开始运行SparkStreaming时我会使用sqoop将mysql的初始数据同步到hdfs中,因此在SprakStreaming计算的时候需要加载hdfs的数据进行聚合运算, 问题如下:
1.SparkStreaming的数据接收时间间隔往往很小,hdfs数据大,不能每个batch时间都去加载hdfs的数据
2.cache到内存的数据不能在一个batch处理时间之后被回收
3.SparkStreaming接收的数据与hdfs数据shuffle时影响了性能
4.不能频繁的进行checkpoint

[DISCUSS-2] 机器学习的算法和模型讨论

机器学习什么情况使用什么算法模型
机器学习中数据处理的奇特办法

是不是数据量越多越好，怎么样能产生有意义的计算数据，有意义的数据不是很多，如何使用起来是个大问题，是否可以得到结论：一定要这么多数据

TF训练的模型在不同的集群上落地有什么经验

如何做好埋点工作和研发的协调和落地？怎么进行埋点工作的验证和效果评估？

逻辑回归的连续型变量分箱处理问题

原提问

逻辑回归的连续型变量分箱处理，这一块除了基于业务经验，一般还有什么办法？大家平常做分箱处理在业务理解后，分箱用等频/等值的选择，以及分箱之后的Bing处理会怎么操作？

如何衡量推荐策略之间的互相影响作用？

在推荐或广告的业务中，我们经常采取以下方式选出最终的item：

召回：根据一定的规则，如query/user和item的相关性，得到一个item的候选集；
打分&排序：对item进行打分并排序；
策略：人为制定一些策略，对item进行过滤或调整排序队列，并将最终排序队列的TopN作为推荐结果。

问题：假设我们上了一个新策略，或对item的打分公式做了调整，如果衡量新的策略和已有的策略是否存在冲突或可能互相之间有影响？

极少量数据变化的场景下，如何保证大数据平台数据与上游系统一致

目前在做数据抽取时遇到这样的问题：某些表全量数据量很大，少量历史数据由于业务原因会做修改，此时面临两难选择。
全量同步时间太长，但能保证数据一致。
增量同步效率高，但某些修改数据不能被同步下来。

举个实际的例子：互金行业客户申请贷款后可能会发生提前还款，提前还款行为会导致后台系统将客户的还款行为计划和数据做修改，这是正常的业务场景，但毕竟少量发生（提前还款的人还是比较少的），这类数据的同步存在上述问题。
想请问大家有什么建议

埋点数据采集与企业数据资产建设（如用户画像）怎样更好的合作？

关于数据分层有什么好的建议？

在做机器学习的过程中，拿到数据，确定了你要做的是分类还是回归，那么你经常还会基于什么来选择机器学习模型？

可能利用matplotlib画一些数据可视化的图，
通过data.describe()查看数据的一些指标，包括最大最小值，平均值，方差，判断数据是否需要标准化，
通过箱线图查看数据的一些分布，查看一些异常值，

还有加上前面一个问题，在什么样的条件下，判断需要加上一些特征的组合，再去尝试模型的效果是否有提升。

【问题】 app数据采集可能会存在数据上报延时，倾向于采用数据的生成的时间还是服务器收到的时间？

【场景】
行业原因，车开进地库了，就没有4G信号了，然后车主可能一周后再出车，此时数据才上来。导致app数据采集可能会存在数据上报延，数据会存在两个时间，数据生成的时间、服务器收到的时间。我们在建立ODS的时候，表的分区一般会采用天来做分区。
【目前想到的解决方案】
无论按服务器时间还是数据生成时间，因为dw是定期执行的，数据延迟到达的话无论如何都无法避免。此时只能针对特定业务来处理，和业务确认一个合理的最大延迟时间。超过最大延迟的丢弃。合理时间内的dw按数据生成时间来做，然后某些在dw上汇总统计操作再定期重跑。

如何进行数据埋点方案及规范的定义，以及后续怎么进行维护和管理？

[DISCUSS-3] 数据仓库中数据管理的讨论

如何确定数据清洗后是否与源数据保持一致
如何追溯数据仓库中的表的血缘关系
如何管理数据仓库中的元数据

用户标签系统是怎么构建的？

现在有几点困惑：

假设数据有10亿，维度有1k维，还会持续增加。
比如说用户的标签，可能有几千维，那么底层该怎么存储？
假设用 Hive 的宽表来存，那么会有一个宽表要等所有的小表都算完才能拼起来的问题，而且还有频繁变更字段的问题
如果在 Hive 中用竖表来存，查询有比较麻烦。

通过订单表计算新客和用户下单留存应该怎么设计模型

背景如下：目前有个订单表记录着每个用户的订单明细。想通过这个表设计出一个模型表可以支撑计算当天新客数和连续N天下单的用户数，不知道有什么较好的实现方式。