Coder Social home page Coder Social logo

stateacher's Introduction

What They Do!

项目介绍

忙啥呢!(What They Do!,简称 WTD!)是由统计学/数据科学开放社区统计之都 (https://cosx.org/) 发起的一个长期性、开放性、公益性的项目。WTD!项目为统计学/数据科学相关的教育、科研和产业界人士服务,项目将持续收集、整理全球高校、研究所统计/数据科学相关科研人员的科研履历和成果,并逐步产出科研开放数据、专题分析报告和在线应用系统。

预期成果

项目的预期成果包括如下3个层面:

  1. 科研开放数据。如科研人员履历、刊物文章数据、作者合作网络、文献引用网络等。
  2. 专题分析报告。如科研成果出圈状况分析、跨学科合作分析、某主题研究时序分析。
  3. 在线应用系统。将部分研究成果开发成为线上数据产品,方便大众在线访问和使用。

参与人员

本项目当前已有多个高校青年教师、在读博士和企业人员志愿参与,作者单位包括**人民大学、西安交通大学、**传媒大学、上海财经大学、卡耐基梅隆大学、宾夕法尼亚大学、华盛顿大学、德州农工大学等。

数据收集流程

文件初始化

字段填写流程

  1. 学习 MarkDown,YAML 用法及语法规范,初学者先阅读入门教程(MarkDown 入门参考YAML 入门参考
  2. 阅读 填写说明 中的规定。
  3. 阅读示例文件(example-Mikael-Kuusela.md, example-Yixuan-QIU.md
  4. 按要求开始填写。
    1. Yaml 部分,参考模板和示例填写即可。注意符合yaml语法规范。如果想增加字段,建议提前在微信群和大家讨论确定。
    2. Markdown 部分,如果从网页复制较多内容,务必通过浏览器安装copy-as-markdown插件,鼠标右键选择 Copy selection as Markdown,然后粘贴。这样才能保障内容格式以及相关超链接正常。
  5. 自查语法规范性,重复修改:
    1. YAML 部分(两个---中间的,在文件开头若干行)可借助 推荐工具 进行自查,看yaml文件是否能正常转换为json,如果有问题根据提示修改。
    2. Markdown 部分,如头像图片显示正常,内容层级正常,超链接文字正常跳转,正确换行。借助 Typora 等编辑器或 线上工具 检查。
  6. 确认内容无误后,根据 填写说明 中命名规范和路径上传文件,等待审核。
  7. 审核结果:
    1. 未通过:重新修改,返回第5步。
    2. 通过:完成提交。

字段填写说明

  • 阅读说明前先下载模板 template.md.
  • 注意 YAML 填写规范,如禁用 tab,冒号后需加空格构成完整的键值对,避免不必要的空行等。
  • 学者信息直接填写官网等查询到的一手资料,信息收集渠道可参考但不限于以下来源:
    • 学者官方主页(核心)
    • 学者个人主页(核心)
    • AMiner 主页(核心)
    • Google Scholar(核心)
    • Google 等搜索学者的得到其他相关信息(辅助)
    • 百度学术,必应学术,ResearchGate 等(辅助)
  • 字段填写规则:
    • school 字段注意添加链接,以避免混淆,格式如 school: 学院名称 [学院网址]
    • email,homepage 等字段如有多个应逐一列出。
    • collaboration, group 字段非必填,若学者有交叉合作研究可填写。
    • advisor 字段填写格式为:导师姓名 [导师邮箱/网址],邮箱信息优先,若无邮箱则填写导师信息网址。
    • aminer 字段必填,对应链接在 AMiner 网站 检索学者得到,注意
  • 头像尽量使用线上高清图,格式为 ![名称](图片链接),可在学者官方、个人主页或 AMiner 等网站 获取。
  • 学者的PhD经历包括导师信息可在学者官方、个人主页以及 Mathematics Genealogy Project 等地方获取。
  • 填写语言忠于信息来源,无需自行翻译,YAML 部分按信息来源填写,中英文均可,人物介绍等部分若为英文,填入 Biography[English],若为中文,填入 Biography[中文],研究方向(Interests),教育背景(Education)等同理。
  • 复制文字应包含网页原本的超链接,可使用 推荐工具 中的插件。
  • 在末尾 References 模块标明填写相关材料时候引用的资料链接,以便后续核查;尤其是参考的非作者主页的相关链接。
  • 文件命名格式:学校缩写-学者姓名.md,学者姓名部分,空格以(-)代替,华人学者英文名和其主页一致即可,名与姓氏之间用(-)连接,如 Mikael-Kuusela.md,Yixuan-QIU.md. 绝大部分文件以自动创建,无需修改。
  • 文件上传路径:学者姓名.md 上传到对应所属学校文件夹下,文件夹命名为学校缩写形式,学校缩写与全程对应见表格 tops_us.csv
  • 非特殊情况不增添模板中字段,不收集联系电话等信息。若发现其他有价值字段欢迎在 Issues 或微信群讨论。

YAML 填写自查

参考 网址,YAML 基本元素的概要如下:

  • YAML 中的注释以(#)字符开头。
  • 注释必须与其他标记用空格分隔。
  • 空格的缩进用来表示结构。
  • 不可使用 tab。
  • 列表成员由前导的连字符(-)表示。
  • 列表成员用方括号括起来,用逗号分隔。
  • 关联数组使用冒号(:)表示,键值对形式。它们用花括号 {} 括起来。
  • 单个流的多个文档用3个连字符(---)分隔。
  • YAML总是要求使用冒号和逗号作为列表分隔符,且其后带有英文空格。

推荐工具

脚本用例

数据填写不涉及以下操作,无需运行。

  • tools/school_list.R 生成各个学校-学院缩写,及初始化对应文件夹,不覆盖已有同名文件夹,项目开始时调用一次即可,项目进行中无需使用。
Rscript school_list.R CMU-DS
  • tools/teacher_list.R 生成对应学校-学院的 md 文件,基本字段自动填写,学校-学院名称(即文件夹名称)作为参数传递,以 CMU-DS(Carnegie Mellon University(Dept, of Statistics))为例,用法如下:
Rscript teacher_list.R CMU-DS
  • tools/summary.Rmd 生成对应学校-学院填写情况汇总,包括有效 YAML 行数,有效 MarkDown 行数等,用法如下:
Rscript -e "rmarkdown::render('summary.Rmd', output_file = '../Data/CMU-DS/CMU-summary.html')" CMU-DS

注意该命令有两处参数需要修改

提交方法

  • PR 命名应为对应学院缩写
  • PR 通过且无内容填写的 warning 信息即完成

联系方式 & 更多

stateacher's People

Contributors

arvvvvvvvin avatar carolwz avatar jiayaobo avatar ks-zz avatar linlinzhao-moon avatar linna21 avatar lwatermelonsgood avatar rucnyz avatar ryanna-github avatar szcf-weiya avatar taiyun avatar tdhou123 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

stateacher's Issues

WTD! 数据收集 PR 操作细节

本地测试

拉齐当前仓库

由于各位同学或多或少都修改了原有脚本代码,如修改路径等,以及现增添数据验证部分文件,要顺利完成 PR,第一步需要对齐仓库,下面提供两种方法:

  • 方法一:简单粗暴法
  1. 将本地填写完成的,以学院缩写为名称的文件夹暂时复制到其他地方
  2. 删除本地 repo
  3. 重新到原仓库 fork
  4. 把第一步暂存的文件夹放到 Data 文件夹下
  • 方法二:一般做法
  1. git fetch 远端仓库
  2. 自行解决本地文件冲突

本地测试

完成上述操作后,git push 到 origin 仓库(自己 github 账号下),检测代码自动运行

  1. 点击 Actions 模块

img

  1. 等待运行完成(大约3分钟),可以看到运行结果:
    1. 棕色圆圈:正在运行
    2. 红色叉叉:出现错误(填写字段少于 10 条,必填字段未填写完全,或其他错误)
    3. 绿色对钩:通过测试(不表示最终通过,参看第3步进行修改)

img

  1. 点击框内文字,即可查看对应 action 的运行详情

    1. 未通过的 action 样例:

点击红色框内文字将进入详情

img

img

查看报错细节

2. 通过的 action 样例,进入详情页的方法同上

img

其中:incomplete final line 报错不用处理,其报错内容可以辅助定位其他错误位置。False Value 报错表示填写格式有误,细节已输出在冒号后。

  1. 重复上面几步,直至通过测试,且无除 incomplete final line 以外的其他报错

提交

  1. 完成本地测试后,在 github 操作界面选择 Open pull request

img

  1. 点击 Create pull request(如果拉齐仓库,不会出现冲突)

img

  1. 修改名称为自己对应的学院缩写后,点击 Create pull request

img

  1. 若本地测试通过,pr 测试也会通过,提交后等待人工复核
  2. 人工复核结果会在 pr 下 comment 出,也会微信提示,若无问题,任务完成,否则进一步修改。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.