Coder Social home page Coder Social logo

data-group's People

Contributors

dantezhao avatar rebiekong avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

data-group's Issues

【问题】怎么控制埋点数据传输流量?

【场景】我手机上用某一个app,这个app上我做了一套用户行为埋点。那么我肯定不希望我操作这个app的时候这些数据信息随时同步到这个app的后台,因为我要花流量费。而上传信息对我本人来说没有什么效益。但是这部分我不清楚会耗费多少流量。那用户万一清理手机了呢,是不是行为信息就没了?那如果不是实时上传,就是检测到wifi环境上传。

【问题】对于提升埋点数据效率,有什么坑可以规避,有什么经验可以分享。

【背景】我们现在遇到的一个问题是。运营部门或者产品部门,上一个新功能或者新页面或者新活动的时候,需要很久才能看到这一块的数据,因为要上新页面/新功能/新活动,要联系客户端开发,数据分析,大数据开发,数据产品,协调埋点,数据统计,上报,展示等环节,周期时间比较长而且有时候还容易出错。
【需求】目前就是想着能不能有一个快速的方法将这个问题解决掉,当一个新页面上去之后迅速就能看到这个页面的数据。
【目前想到的方案】 目前我能想到的一个解决方案就是:做一套埋点系统,将所有的埋点都以变量的形式放在一个大的查询当中,每天晚上去跑这个查询,将查询的结果展现在页面上或者报表上,实现自动化。

【问题】 如何打通产品多端的埋点数据,如何把他们识别为同一个客户?这个有好的解决方案么?

【场景】
1、多端识别方面,比如顾客通过网页SEM下载了APP,然后在APP内购物,计算ROI的时候肯定要算到这个SEM里面的,所以需要识别客户。
2、同一个用户,如果通过SEM访问后,再注册登陆,下载APP,如何识别到是同一个用户并且归功于哪个SEM?
3、SEM会有个有统计代码的链接,通过那个链接下载的就是那个渠道引流的用户,但是WAP和APP依旧不是同一个ID,通常是怎么处理的呢?

SparkStreaming如何有效的结合hdfs中的历史数据和接收的准实时数据进行聚合运算?

   有一个需求是关于实时统计平台的用户数的, 以身份证号码作为统计条件,及一个身份证号码代表一个用户.

问题是平台中每一个来注册的用户可能身份证信息已经存在于平台的mysql数据库中,一个身份证可以有多个注册账号, 后台业务开发会将日志信息落成文件,我使用flume进行实时采集,然后进入kafka,再由SparkStreaing接收数据进行计算 , 在开始运行SparkStreaming时我会使用sqoop将mysql的初始数据同步到hdfs中,因此在SprakStreaming计算的时候需要加载hdfs的数据进行聚合运算, 问题如下:
1.SparkStreaming的数据接收时间间隔往往很小,hdfs数据大,不能每个batch时间都去加载hdfs的数据
2.cache到内存的数据不能在一个batch处理时间之后被回收
3.SparkStreaming接收的数据与hdfs数据shuffle时影响了性能
4.不能频繁的进行checkpoint

逻辑回归的连续型变量分箱处理问题

原提问

逻辑回归的连续型变量分箱处理,这一块除了基于业务经验,一般还有什么办法?大家平常做分箱处理在业务理解后,分箱用等频/等值的选择,以及分箱之后的Bing处理会怎么操作?

如何衡量推荐策略之间的互相影响作用?

在推荐或广告的业务中,我们经常采取以下方式选出最终的item:

  1. 召回:根据一定的规则,如query/user和item的相关性,得到一个item的候选集;
  2. 打分&排序:对item进行打分并排序;
  3. 策略:人为制定一些策略,对item进行过滤或调整排序队列,并将最终排序队列的TopN作为推荐结果。

问题:假设我们上了一个新策略,或对item的打分公式做了调整,如果衡量新的策略和已有的策略是否存在冲突或可能互相之间有影响?

极少量数据变化的场景下,如何保证大数据平台数据与上游系统一致

目前在做数据抽取时遇到这样的问题:某些表全量数据量很大,少量历史数据由于业务原因会做修改,此时面临两难选择。
全量同步时间太长,但能保证数据一致。
增量同步效率高,但某些修改数据不能被同步下来。

举个实际的例子:互金行业客户申请贷款后可能会发生提前还款,提前还款行为会导致后台系统将客户的还款行为计划和数据做修改,这是正常的业务场景,但毕竟少量发生(提前还款的人还是比较少的),这类数据的同步存在上述问题。
想请问大家有什么建议

在做机器学习的过程中,拿到数据,确定了你要做的是分类还是回归,那么你经常还会基于什么来选择机器学习模型?

可能利用matplotlib画一些数据可视化的图,
通过data.describe()查看数据的一些指标,包括最大最小值,平均值,方差,判断数据是否需要标准化,
通过箱线图查看数据的一些分布,查看一些异常值,

还有加上前面一个问题,在什么样的条件下,判断需要加上一些特征的组合,再去尝试模型的效果是否有提升。

【问题】 app数据采集可能会存在数据上报延时,倾向于采用数据的生成的时间还是服务器收到的时间?

【场景】
行业原因,车开进地库了,就没有4G信号了,然后车主可能一周后再出车,此时数据才上来。导致app数据采集可能会存在数据上报延,数据会存在两个时间,数据生成的时间、服务器收到的时间。我们在建立ODS的时候,表的分区一般会采用天来做分区。
【目前想到的解决方案】
无论按服务器时间还是数据生成时间,因为dw是定期执行的,数据延迟到达的话无论如何都无法避免。此时只能针对特定业务来处理,和业务确认一个合理的最大延迟时间。超过最大延迟的丢弃。合理时间内的dw按数据生成时间来做,然后某些在dw上汇总统计操作再定期重跑。

用户标签系统是怎么构建的?

现在有几点困惑:

  1. 假设数据有10亿,维度有1k维,还会持续增加。
  2. 比如说用户的标签,可能有几千维,那么底层该怎么存储?
  3. 假设用 Hive 的宽表来存,那么会有一个宽表要等所有的小表都算完才能拼起来的问题,而且还有频繁变更字段的问题
  4. 如果在 Hive 中用竖表来存,查询有比较麻烦。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.