- 基本
*分为了两个类别
- 0代表FRA法国 文件数目总数是358
- 1代表INDIA 印度 文件总数目是326
- 采用训练比测试为7:3
- 准备
- 使用bash do_statistics.sh来生成基本的统计文件statistics.txt
- 用cat statistics.txt | python shuffle.py > statistics_shf.txt >/dev/null 来生成打乱后的清单文件
- 用bash shf_div.sh来讲打乱后的清单文件生成70%的训练清单文件,30%的测试清单文件
- 用bash tt.sh来生成包含训练与测试的数据集合data
- 为了解决小文件的问题,而且考虑到hadoop集群就只有两个tasktracker,这里将训练集合中的类别为0/1的数据分别拆分成tasktracker数量的文件。 通过执行sh train_div.sh来完成此操作从而得到train_0/1_xx.txt的分割文件。
tongkangheng / hust_cs_bayes Goto Github PK
View Code? Open in Web Editor NEWThis project forked from zhangqi1996/hust_cs_bayes
hadoop/mr课程的实现基于MR的贝叶斯分类器