Coder Social home page Coder Social logo

ljllili23 / work_crawler Goto Github PK

View Code? Open in Web Editor NEW

This project forked from kanasimi/work_crawler

0.0 1.0 0.0 718 KB

小说漫画下载工具:腾讯漫画 大角虫漫画 有妖气 知音漫客 哦漫画 看漫画 漫画柜 漫画台 漫画160 汗汗酷漫 网易漫画 快看漫画 733动漫网 9妹漫画网 漫画DB 卡推漫画 动漫之家 动漫屋 動漫屋 古风漫画网 36漫画网 comico webtoons 咚漫 OVERLAP ComicWalker;アルファポリス カクヨム ハーメルン 小説家になろう 八一中文网 顶点小说 落霞小说网 努努书坊 卡提諾論壇→epub. Download online novels, comics. 小說漫畫下載

JavaScript 98.56% Batchfile 0.18% CSS 0.91% HTML 0.34% Shell 0.02%

work_crawler's Introduction

GitHub release GitHub Release Date Github commits (since latest release) GitHub commit activity the past week, 4 weeks, year Github All Releases Downloads Known Vulnerabilities

CeJS 線上小說漫畫下載工具 online novels / comics downloader

  • [en] Download novels → epub and comics with GUI and command-line interface.
  • [TW] 批量下載小說 → epub、漫畫網站的工具。視窗+命令行介面。
  • [CN] 批量下载小说 → epub、漫画网站的网络爬虫。图形+命令行界面。
  • [ja] ウェブ小説 → epub、ウェブ漫画作品を一括ダウンロードツール。グラフィカル+コマンドラインインターフェース。

TOC 快速瀏覽

Features 特點

  • 可自動下載小說封面以及章節中的插圖。
  • 自動檢核下載的圖片是否是否完整。若有破損將重新下載。
  • 採用 CeJS 線上作品爬蟲程式庫來製作 crawler,可自行配置與設定。
  • 對於漫畫,下載完畢後可以章節為單位自動產生壓縮檔,並自動刪除下載目錄原始圖檔/清除暫存檔。每次下載前將自動讀取壓縮檔資料,僅更新有問題的圖檔。(請注意:必須先安裝 7-Zip 18.01 以上的版本

Supported sites 已完成之網站工具

  • For novels, please install 7-Zip command-line version first. 請注意:必須先安裝 7-Zip 18.01 以上的版本,這樣才能製作 .epub 小說電子書、壓縮漫畫章節。
  • 各線上作品網站往往不時改版(更改結構),同時造成本工具無法正常作動;因此若有無法正常運作的情況請見諒,這通常得要更改原始碼方能回復正常。

已撰寫完的各大小說漫畫網站工具包括:

Japanese web fictions / Japanese light novels ライトノベル 日本輕小說 日本のオンライン小説

novel.ja-JP/*.js, web pages → epub

Site 平台名稱 Tool file Note 說明
アルファポリス AlphaPolis.js レンタルする話は取得できません
カクヨム kakuyomu.js
ハーメルン Hameln.js
小説を読もう! yomou.js 小説家になろう
ノクターンノベルズ noc.js 小説家になろう男性読者向けの18禁部門サイト

Chinese web fictions / novels **内地小说 **のオンライン小説

novel.cmn-Hans-CN/*.js, web pages → epub

Site 平台名稱 Tool file Note 說明
起点中文网 qidian.js 本工具無法下載 VIP章节內容
八一中文网 81xsw.js PTCMS系统
顶点小说 23us.js PTCMS
顶点小说 archive/23us.com.js PTCMS,限制了取得頁面的數量和頻率,暫時放棄。
八八读书网 88dus.js 88读书网(88dushu),PTCMS?
恋上你看书网 630book.js
飘天文学 piaotian.js NOT PTCMS
落霞小说网 luoxia.js WordPress,數量少、速度較慢但品質較高,較少錯字和自我審查。
努努书坊 kanunu.js 有些非流行網路小說的書。
稻草人书屋 daocaoren.js 有些非流行網路小說的書
卡提諾論壇 小說頻道 ck101.js Discuz! X3
  • 中國大陸之小說文字常常會被審查而消失、變造。例如黑名單關鍵字轉為拉丁字母或是打星號,以及數字 0 改成 o、9 改成 q 等等。有時需要多下載幾個網站的文件再做比較。

Chinese webcomics **内地漫画 **のウェブコミック

comic.cmn-Hans-CN/*.js, images → zip

  • 本工具無法下載需VIP付費、已屏蔽或刪除的內容。
Site 平台名稱 Tool file Note 說明
腾讯漫画 qq.js 本工具無法下載VIP付費內容 2017/8/15 起取消了今日限免
网易漫画 163.js 2017/7/13 本工具無法下載VIP付費內容
有妖气 u17.js 本工具無法下載VIP付費內容
知音漫客 zymk.js
大角虫漫画 dajiaochong.js 2018/6/12 開始永久付費制。
动漫屋网 dm5.js 似乎不能並行下載圖片,下載速度較慢。似乎拿來下載日本漫畫的人比較多。
快看漫画 kuaikan.js
漫画台 manhuatai.js
9妹漫画网 9mdm.js
乙女漫画 nokiacn.js 日本漫畫較多
晴天漫画系统改?
看漫画 manhuagui.js 漫画柜爱看漫
圣樱漫画管理系统 MHD模板?
晴天漫画系统改?
古风漫画网 gufengmh.js 圣樱漫画管理系统 MHD模板
36漫画网 36mh.js 圣樱漫画管理系统 MHD模板
动漫之家 dmzj.js 僅處理漫畫。有時會無法讀取。 圣樱漫画管理系统 DMZJ模板
733动漫网 733dm.js 僅處理漫畫。
733漫画网 733mh.js 有時會無法讀取。733mh與733dm其實是一樣的東西...
卡推漫画 katui.js 系統同 733dm.js
漫画DB manhuadb.js 以臺灣翻譯日本的漫畫單行本為主
漫画160 mh160.js 與 733漫画网 相同系統
哦漫画 omanhua.js
汗汗酷漫 hhcool.js 2018/4/27 最後一次存取域名 http://www.hhcool.com/
comico
コミコ
オトナ限定 コミコ
comico.js
comico_jp.js
comico_jp_plus.js
本工具經設定帳號資訊後,可自動使用閱讀卷(レンタル券),但無法處理互動式漫畫、coin收費作業。
WEBTOON webtoon.js NAVER WEBTOON 中文官網 韓國漫畫
本工具無法下載有動態效果的漫畫。
咚漫中文官网 dongman.js NAVER WEBTOON 中文官网 韩国漫画
本工具無法下載有動態效果的漫畫。
XOY XOY.js NAVER WEBTOON ja
热漫吧 archive/remanba.js 自 2016/12/27 14:42 最後一次成功連接後,下午起就持續 404 至 2018/6/11 未復原。
三七阅读 archive/37yue.js 自 2017/6/9 下午最後一次連接後,2017/6/10 9時起就持續 404 至 2018/6/11 未復原。
爱漫画 archive/2manhua.js 許多作品似乎從2017/9/3起就沒有更新。2017/5/16 4:43 最後一次成功連接,至 2018/6/11 未復原。
OVERLAP OVERLAP.js オーバーラップ コミックガルド
ComicWalker ComicWalker.js KADOKAWAの無料漫画(マンガ) コミックウォーカー

English webcomics 英語網路漫畫 英語のウェブコミック

comic.en-US/*.js, images → zip

Site Tool file Note
Manga Mew mangamew.js 一些圖片在檔案最後會多加個字元 0A,因此被判別為非正規圖片檔。
Manga New manganew.js Using Microsoft IIS?
Rocaca rocaca.js
WEBTOON webtoon.js NAVER LINE WEBTOON

Installation 安裝

若是想要使用圖形介面,您可以 直接下載安裝包GitHub release,惟 安裝包不含最新的功能,有些網站下載起來會出問題。安裝包現在落後最新測試版:Github commits (since latest release)。若是欲採用最新的版本,或者用作研究開發、想要使用命令行介面作批次處理,請採用下列步驟。

Lazy installation 懶人安裝法

為了想趕快嘗鮮的您~

  1. 先安裝 Node.js7-Zip 18.01 以上的版本。(已經安裝過的可以跳過)

  2. 下載並儲存本工具安裝檔 work_crawler.updater.js(按右鍵另存新檔)。安裝檔 預設會將所有組件放在 work_crawler-master 目錄下

  3. 在命令行介面下執行安裝檔 work_crawler.updater.js。(點擊本行可獲得更詳細的說明)
    1. 進入命令行介面

      • Windows 10 下,請按下⊞ Windows鍵 + X → 選擇 命令提示字元。(如下圖的示範)
      • Windows 7 下打開命令行介面,請從 開始 → 所有程式 → 附屬應用程式 → 選擇 命令提示字元

      Windows 10 下,進入命令行介面

    2. 進到本工具安裝檔 work_crawler.updater.js 所在的目錄

      • 若是您視窗的 背景為藍色,表示您使用的可能是 PowerShell,您應該使用這種形式的指令來切換目錄:cd "本工具安裝檔所在的目錄"
      • 若是您視窗的 背景為黑色,表示您使用的可能是 命令行介面,您應該使用這種形式的指令來切換目錄:cd/d "本工具安裝檔所在的目錄"cd/d 表示「同時變更工作磁碟機及其工作目錄」的意思)。
    3. 執行命令以下載 CeJS 程式庫

      node work_crawler.updater.js
  1. 然後就能開始試用囉。若是您希望使用圖形使用者介面,請執行 work_crawler-master 目錄下面的 start_gui_electron.batstart_gui_electron.sh

    下載 CeJS 程式庫後本工具安裝的目錄看起來的樣子:

    下載 CeJS 程式庫後本工具安裝的目錄看起來的樣子

    以下是在linux下直接操作上述作業時的指令,Windows用戶可以跳過,直接開始試用

    # sample commands to extract work_crawler + cejs
    mkdir work_crawler
    cd work_crawler
    curl -O https://raw.githubusercontent.com/kanasimi/work_crawler/master/work_crawler.updater.js
    # wget https://raw.githubusercontent.com/kanasimi/work_crawler/master/work_crawler.updater.js
    node work_crawler.updater.js
  1. 若是您將 CeJS 放置在其他目錄底下,您可以從 _repository_path_list.txt 這個檔案來設定放置的路徑。
  2. 您可設定 work_crawler_loder.configuration.js 以指定下載的作品檔案要放到哪個目錄底下。 (see work_crawler_loder.js)
  3. 每次要更新到最新 CeJS 程式庫時,只要重新執行一次本工具安裝檔即可。
    node work_crawler.updater.js
    由於本工具會 cache 作品資訊,更新幅度較大的時候您可能需要刪除作品目錄的 cache,重新下載作品。

Normal installation 一般正常安裝方法

  1. Please see Node.js usage section at CeJS for detail.
  2. Setup _repository_path_list.txt if necessary.
  3. Setup work_crawler_loder.configuration.js (see work_crawler_loder.js). 最後設定好設定檔 work_crawler_loder.configuration.js。例如指定 global.data_directory

Setup GUI 設定視窗型態介面

若是您在作研究開發時,希望使用圖形使用者介面,那麼您還需要安裝 Electron。若是您採用懶人安裝法,應該已經安裝過 Electron,可以直接採用圖形使用者介面。

  1. 請在命令行介面下,進到本工具安裝的目錄,執行命令以安裝 Electron 程式庫:

    npm i -D electron@latest
  2. 在本工具安裝的目錄下,執行 start_gui_electron.shstart_gui_electron.bat

    視窗型態介面

Execution 執行

所有操作都必須進到工具檔所在的目錄,在命令行介面下執行。

  1. 確認要下載的網站名與作品名。之後在命令行介面下,執行:(請在作品的名稱外面加上引號)

    node 工具檔名.js "作品名" [option=true] [option=value]
    node 工具檔名.js "l=作品列表檔案名" [option=true] [option=value]

    e.g.,

    cd comic.cmn-Hans-CN && node qq.js "狐妖小红娘" skip_error=true
    cd novel.cmn-Hans-CN && node qidian free && echo 下载 起点中文网限免作品
    cd novel.cmn-Hans-CN && node 23us "斗罗大陆Ⅲ龙王传说"
    cd comic.cmn-Hans-CN && node 2manhua "大主宰" recheck=true
    cd comic.cmn-Hans-CN && node ikanman "l=ikanman.txt" recheck=true
    cd novel.cmn-Hans-CN && echo "via id" && node 630book "267"
    cd novel.ja-JP       && node yomou "転生したらスライムだった件"

    命令行介面下執行命令

  2. 下載的檔案將放在設定檔 work_crawler_loder.configuration.jsglobal.data_directory 所設定的目錄下。若採懶人安裝法,則預設放在解壓縮後工具檔所在的目錄下。

  3. 本工具會循序下載每個章節,對於漫畫基本上每個章節的圖片會並行下載。不可並行下載同一個網站的同一個作品,否則會出現衝突。若是想要並行下載不同網站或是不同的作品,那麼您就需要再開一個命令行介面,

  4. 若是下載出錯,重新執行即可接續下載

Workflow 工作流程

  • 本工具將把所指定的漫畫下載至特定目錄中(預設為工具檔名,如 manhuatai),每套漫畫一個目錄。

    folder

    folder inside work

    folder inside chapter

  • 接續下載時,將從上次的進度(最後下載的章節)接著下載。

    接續下載

  • 若是下載小說,最後將包裝成可匯入 calibre 的 epub。

    小說 → epub list

    小說 → epub

Uninstallation 移除

  • 若是您採用安裝包,請利用系統的移除介面。否族要移除本工具,只需將解壓縮後工具檔所在的目錄整個刪除即可。
  • 作品下載的標的目錄(存放圖片檔與紀錄檔的目錄)需另外手動刪除。

FAQ 常見問題集

如何從某個章節開始下載
  • 若是使用命令列介面,您可以採用 start_chapter 這個參數與 recheck 參數,就可以挑選開始下載的章節。

    範例指令: node qq 作品名 start_chapter=20 recheck

  • 圖形介面在右手邊的 下載選項 應該可以看到有一個 start_chapter: 將開始/接續下載的章節編號。必須要配合 .recheck。 (number)

    請輸入章節的數字,之後指定 start_chapter 上面的 recheck,點擊開始下載就可以接續下載了。

下載圖片或電子書的資料夾內,有些不是圖片或電子書的檔案
  • 這些json檔是用來記錄程式執行的狀態。可以刪除,但若常常接續下載,可能會受影響。例如必須重新搜尋作品、重新檢查下載狀況等等。
掃毒軟體報錯!
  • 應該是因為使用的 CeJS 函式庫包山包海,裡面有一些專門用於檔案操作的函數、FileSystemObject 物件、WScript 物件,所以掃毒軟體以為有問題。這個程式天天都在測試,漫畫小說下載並不會用到這些功能,您大可放心。

Notes 附注

  • 目前本工具不支援自動更新。
  • 本工具尚未支援 Mac OS。
  • 對於本工具已經包含的下載模式,熟練後一般約需2至4小時新增或更新下載工具,以達初步可用狀態。
  • 小說作品採用單線程下載,以避免對網站造成過度的負荷。漫畫作品則以章節為單位多線程下載,每個章節的圖片下載完畢之後,再接著下一個章節。
  • 歡迎熱心友人參與開發,以改進這個工具。

Purpose 公開目的

  • 示範如何使用 CeJS線上作品爬蟲程式庫 (module) 批量下載各線上小說漫畫網站。
  • 展示程式撰寫當時,各線上小說漫畫網站之網站資料結構。
  • 提供離線瀏覽小說漫畫功能,以利個人化閱覽方式。增進閱覽體驗、掌控閱覽環境。
  • 增加對閱讀權的掌控能力,預防暫時無法連接網頁,或者數十年後找不到記憶中閱覽過的作品。

非常歡迎提供使用意見與改善建議

Announce 聲明

  • 本工具僅供同好學習和研究,嚴禁傳播或用於任何商業、非法用途!請小心利用本工具。所下載或備分之內容版權屬原作者所有,請勿公開散布傳播。利用本工具可能引起的任何糾紛或損失損害,本人恕不負責。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.