Coder Social home page Coder Social logo

yezhifei001 / translators_cn Goto Github PK

View Code? Open in Web Editor NEW

This project forked from l0o0/translators_cn

0.0 0.0 0.0 3.82 MB

Zotero translator中文网页抓取翻译器🎉This is Zotero translators for Chinese Sites(beta), not the official Zotero repo

License: GNU Affero General Public License v3.0

Shell 0.71% JavaScript 99.17% Python 0.12%

translators_cn's Introduction

Zotero translators 中文维护小组

目前 Zotero 中有许多抓取中文学术网站的插件,这些插件有些已经非常老旧,缺少及时的维护。希望能在这里召集一些志同道合的朋友,共同维护中文学术或其他类型网站的抓取插件。 如果 Github 下载速度慢,可以试试 Gitee

🎯 目标网站

  • 知网或知网海外 -> CNKI.js Update: 20210129
    • 搜索页面PDF附件下载
    • 期刊详细页面的信息收集
    • 文章格式都为PDF,学位论文的CAJ链接已经替换为PDF,注意学位论文的PDF应该是没有目录信息的。如何设置拆分姓名,保留CAJ格式
    • 修改旧版本将知网导出refworksCN字段保存为期刊条目中的 call number,修改后CN字段不保留
    • 修改了拉取知网refworks格式引文的网址,新网址提供的摘要字数最多为500字
    • 知网海外版PDF和CAJ附件下载支持
    • 支持文献类型:期刊,学位论文,会议论文,报纸,修改知网refworks会议论文类型错误的问题
    • 保存文献DOI,引用次数,中文核心期刊信息
    • 已同步到官方版本库中
  • 万方数据 -> WanFang Data.js Update: 20200930
    • 抓取引文信息
    • 支持文献类型:期刊,学位论文,专利,会议论文
    • PDF附件下载
  • 维普 -> WeiPu.js
    • 抓取引文信息
    • 支持文献类型:期刊
    • PDF附件下载
  • 百度学术 -> Baidu Scholar.js
    • 修复抓取图书时错误
    • 修复中文作者姓,名问题
  • 谷粉学术-谷歌学术 -> GFSOSO.js
    • 修改了网页匹配,识别抓取代码抄自Google Scholar。从搜索结果页识别搜索结果,引文信息正常
    • 部分文献的PDF下载可能会有问题,谷粉搜搜上可能没有相应的下载链接
    • 安装Adblock插件的朋友请注意下将谷粉学术*.glgoo.top添加到白名单,不然可能会出现问题
  • 专利搜索网站Soopat -> Snnopat.js
    • 搜索页面和单个专利页面信息抓取
    • PDF附件下载(需要登录,网站验证码可能会导致PDF下载失败)
  • 国家图书馆文津搜索 -> Wenjin.js
    • 抓取引文信息
    • 支持文献类型:图书,论文
  • ProQuest 学位论文全文检索平台 -> ProQuestCN Thesis.js
    • 抓取引文信息
    • 支持文献类型:学位论文
    • PDF附件下载(需要账号或者IP具有下载权限)
  • 专利之星 -> PatentStar.js
    • 抓取专利引文信息
    • PDF附件下载(需要注册账号)
  • 微信公众号 -> Weixin.js
    • 抓取网页引文信息
    • 公众号内容保存为笔记形式(仅保留文本)
  • 知乎 -> Zhihu.js
    • 抓取知乎回答与专栏
    • 文章内容保存于笔记中
  • 读秀 -> Duxiu.js
    • 读秀内容抓取
  • 豆瓣 -> DouBan.js
    • 保留豆瓣评价人数+豆瓣评分+原作名+定价
    • 作者优化:欧美作者区分开了名与姓(在这里吐槽下豆瓣编辑对作者的命名规范,尤其是外籍作者的命名规范真是各路牛鬼蛇神)
    • 摘要信息:作者简介 + 内容简介
    • 目录信息:目录存放至note附件里
    • 详细截图
  • 来自道格学社仓库的翻译器

📢 如何使用

👉 无聊的视频教程 图文教程 👇 1 下载网页翻译器(web translator)文件

2 解压下载的压缩包,找到translators目录,将目录中的文件复制到 Zotero 的 translators 目录


3 更新 translator 信息,Firefox 和 Chrome 浏览器操作类似。下面以 Firefox 为例

Chrome 浏览器按照下面信息找到更新按钮

更新时请多点几下,根据我的经验,Chrome 浏览器更新比较快,Firefox 会比较慢,也可多重启几次 Zotero 或浏览器

最新版的知网翻译器,能够识别VPN之后的知网,不必做额外的设置,如有问题可提交 issue

🍇 如何在Zotero Connector 中添加中文姓名处理以及保留知网CAJ格式文件的设置

需要特别注意的是,这里在 Zotero Connector 中添加的参数,只是方便控制的网页翻译器的数据抓取行为,限本页面列出的一些翻译器中起作用,并不影响其他翻译器和Zotero的其他功能。 添加的参数有:

  • translators.zhnamesplit,默认为true,抓取过程会拆分姓和名,如果想全并姓名,请设置为false
  • translators.CNKIPDF,默认为true,下载知网上文章的PDF文件,如果想要下载学位论文的CAJ格式,请设置为false

设置方法请参考下面:

为防止设置错误,可以把参数名复制过去。设置完成后,请刷新网页,再重新抓取。如果你参数名写错了也没事,不会有什么问题,放着就好。

📄 相关材料

在开始创建前,浏览下面这些材料可以帮你了解一些创建 translator 的基本知识和开发的工具。

🦸 其他热心参与者

@wanyzh
@smilevent
@Lemmingh
@Captain2021 (啊哈船长)
道格学社及学员Felix018

🎈问题交流

如果有问题的,可以加QQ群 913637964,一起交流。

translators_cn's People

Contributors

l0o0 avatar yfdyh000 avatar zepinglee avatar wohenbushuang avatar wanyzh avatar ericchxia avatar easyteacher avatar liuxsdev avatar tanguangzhi avatar wasmetqall avatar risshun avatar dofine avatar eatcosmos avatar kongmoumou avatar with9 avatar youka-sar avatar tenvili avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.