datawhalechina / hands-on-data-analysis Goto Github PK

View Code? Open in Web Editor NEW

1.1K 20.0 348.0 6.17 MB

动手学数据分析以项目为主线，知识点孕育其中，通过边学、边做、边引导来得到更好的学习效果

Jupyter Notebook 100.00%

hands-on-data-analysis's People

Contributors

Stargazers

Watchers

Forkers

shenshunyao yongsgithub chw0806 start-advancer tdh62 science-drawer lzlloveys xuyili usesomebody sukeylee toplht jiesns christianoyao foldit chillimussel ambitious-li qiqirong xrosliang guapier jk20200101 biancheng666 cz-source zhangjiahuan17 amosjoseph ridongwang zlxcage yistar-traitor zongkailiu frankfan007 bearang seanxl light8990 weiyang22 zhiliangpersonal abbiny hao007007 allensmile 584186260 rebecca0001 notstandalone wly9761 sd3145265 andrew05200 jackleng zhanghongbo2019 slf836592345 pattonchen hell-to-heaven dm-num jiapengwei mrleung-yaya seanicu katyyu wohegangdan sunflowerxm lyndsey-xing cherishlyf username-yao dongyi1996 zhaoxiliang zhaolei5885 jnewgeek hellofishh tiny-924 xtingz 286736184 fghg123 shawncici yxyibb yuanshuaihuang patrick1992p wminc guiiwen binnhe baddate leom-h kikuwong cobra0926 pytinlcef yi-yi1 lyk0013 linglu-0112 daydayupup-git smile4today xuerusir piyazhen zzzzzy-1124 seven-jie mr-tchao pywcc zjcharge amoyyean fossby camelba kang-96 kai785 balabala-2 tian685 tim-taoxq yvonne-cau

hands-on-data-analysis's Issues

第二章项目集合-第二章：第一节数据清洗及特征处理.ipynb部分答案错误

1.df[df['Age']==None]

df[df['Age']==None]=0
df.head(3)

以上代码无法筛选出NaN值
2.df[df['Age'].isnull()]

df[df['Age'].isnull()] = 0 # 还好
df.head(3)

以上代码可以筛选出NaN值，但是df[df['Age'].isnull()] = 0会将NaN值所在行全部置0，使得结果有误，且后面的重复值相关代码使用的也是这一行代码生成的数据
3.df[df['Age'] == np.nan]

df[df['Age'] == np.nan] = 0
df.head()

以上代码中，np.nan不可以与任何数进行比较。使用np.isnan()进行修复

问题：

2.3.1任务1中(4)将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示，在参考答案中若设置结尾比例为0.9，则新加入的Age_bin即分类标签列会出现空值。

此处提供2种思路：

将[0,0.1,0.3,0.5,0.7,0.9]改为[0,0.1,0.3,0.5,0.7,0.9,1]，分组改为6组，即labels = range(1,7);
改为[0,0.1,0.3,0.5,0.7,1.0]，分组仍为5组

在任务二：对缺失值进行处理中，参考答案给出的
df[[df['Age']＝＝np.nan]＝0，实际上不能将缺失值替换为0。思考以及回答中给出None无法找到缺失值是因为数据类型的原因，所以比较的时候最好用np.nan。但是我去goole之后，得到的结果是由于np.nan是不可比较的，所以即使数据类型相同，甚至是np.nan＝np.nan，最后得到的结果也一定是False，所以不应该用”＝＝”的方法来判断空值。可以替换为np.isnan。

简介及第一部分

安东，
我把之前issue的文本跟序号问题提了一个PR

老徐

第二章第三节数据重构2任务7

2.4.7：任务七：得出不同年龄的总的存活人数，然后找出存活人数的最高的年龄，最后计算存活人数最高的存活率（存活人数/总人数）

任务描述与答案个人认为不够符合，如存活人数的最高的年龄，答案实际为存活人数最多的年龄，存活人数最高的存活率实际为存货人数最高的年龄段的人数/总存活人数

1. 存活人数计算与总人数计算
可以使用 data['Survived'].value_counts()(data为读取的result.csv文件)
或者使用
data['Survived'].count()
data['Survived'].sum()

2. 找出存活人数的最高的年龄
对存活人数根据年龄做一个从大到小的排序，第一个即为年龄最大的存活人数
data[(data['Survived'].values==1)].sort_values(by='Age',ascending=False)
或者直接给出最大存活人数的年龄

data_survived = data[(data['Survived'].values==1)]
data_survived['Age'].max()

3. 找出不同年龄的存活人数

survived_age = data['Survived'].groupby(data['Age']).sum()
survived_age.head()

4. 找出存活人数最多的年龄
survived_age[survived_age.values==survived_age.max()]

5. 计算各个年龄段的存活率

# 不同年龄段的存活人数
survived_age = data['Survived'].groupby(data['Age']).sum()
survived_age
# 不同年龄段的总人数
age_count = data['Survived'].groupby(data['Age']).count()
age_count
# 各个年龄段的存活率
survived_percent = survived_age / age_count * 1.00
survived_percent.head()
# 总存活率
data['Survived'].sum() / data['Survived'].count()

第一章第一节

"#### 1.2.4 任务三..."

这里面1.2.4应该改成1.2.3

【第三章】评估那里，，OCR曲线，，，疑似笔误~

【思考】什么是ROC曲线，OCR曲线的存在是为了解决什么问题？

第二章第三节数据重构2

思考题所给的答案与题目描述不符。
【思考】从任务二到任务三中，这些运算可以通过agg()函数来同时计算。并且可以使用rename函数修改列名。你可以按照提示写出这个过程吗？
任务二为：计算泰坦尼克号男性与女性的平均票价。
任务三为：统计泰坦尼克号中男女的存活人数。
给出的答案为：

text.groupby('Sex').agg({'Fare': 'mean', 'Pclass': 'count'}).rename(columns=
                            {'Fare': 'mean_fare', 'Pclass': 'count_pclass'})

我认为答案应为：

text.groupby('Sex').agg({'Fare':'mean','Survived':'sum'}).rename(columns=
                            {'Fare': 'fare_mean', 'Survived': 'survived_sum'})

2.4.4 任务四

”result“ 似乎少了一个t

第二章：第三节数据重构2

数据标2.6.x都写成了2.4.x

拼写错误

googel-->google