Coder Social home page Coder Social logo

ngapost2md's Introduction

Hi there 👋

ludoux's github stats

Welcome! This is Lu Chang, student at Northwestern Polytechnical University, Xi'an, China.

luu.moe

ngapost2md's People

Contributors

ludoux avatar oarinv avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

ngapost2md's Issues

检测reply的recommend值

在&lite=js里,如果一个回复的recommend值为10,则此回复会带有特殊标签,比如“全隐”“锁定”等等。

比如tid=28743773、26217637、28743773

修改页码检测部分免受论坛吞楼影响

tid=20363301,页码=416,当本页的最后一楼的内容被吞掉的时候,恒有int(tdict['replies']) > totalfloor[len(totalfloor)-1][0],然后程序会不断增加页码

"__R":{"0":{"pid":563445812,"fid":-39223361,"tid":20363301,"authorid":1277654,"type":0,"score":0,"score_2":0,"recommend":0,"postdate":"2021-11-03 22:49","subject":"","alterinfo":"","content":"从没见过这么高的楼!<br/><br/>有总结吗??","lou":82302,"content_length":32,"from_client":"8 Android","postdatetimestamp":1635950958}},"__T":{"fid":-39223361,"tid":20363301,"topic_misc":"AQAAAAQ","subject":"NGA肖战粉仙人跳AO3贴+魔道祖师相关","locked":0,"recommend":10,"quote_to":"","quote_from":0,"type":8420,"replies":82304,"authorid":35329383,"postdate":1581501134,"lastpost":1635951028,"author":"a116128544","lastposter":"京都看花天","digest":0,"lastmodify":1635951028,"tpid":0,"}

支持否决强制更新

使用某一参数运行,软件会检测当前时间距离编译时间已过多久。在一定范围内(例如:60天)内,则不会强制更新。超过此范围且有最新版本,则会忽视此参数继续要求强制更新

gitee的检查更新文件失效

image
2023.8.26 11:00左右发现一直报错“需要检查更新”,增加参数--force-no-check-update程序可以正常运行,查看源代码后发现是gitee的链接失效造成的。

func checkUpdate(dump bool) {
	resp, _ := req.C().R().Get("https://gitee.com/ludoux/check-update/raw/master/ngapost2md/version_neo.txt")
	//版本更新配置文件改为 DO_NOT_CHECK ,软件则不会强制使用最新版本
	if resp.String() != nga.VERSION && resp.String() != "DO_NOT_CHECK" {
		if dump {
			f, _ := os.OpenFile("NEED_UPDATE", os.O_CREATE|os.O_WRONLY, 0666)
			_, _ = f.Write(resp.Bytes())
			defer f.Close()
		}
		log.Printf("目前版本: %s 最新版本: %s", nga.VERSION, resp.String())
		log.Fatalln("请去 GitHub Releases 页面下载最新版本。软件即将退出……")
	}
}

我认为检查更新函数的条件是不是改成类似于

if resp.String() != nga.VERSION && resp.String() == "CHECK" {

会更好一点?毕竟gitee的奇妙审核机制抽风也不是一天两天了……

格式化改进的建议

1、支持[align=???]文本[/align]的对齐方式
2、对于不是ac娘系列的表情包,做一下处理,比如[s:dt:嘲笑]
3、支持格式化某些reply to的形式,参考图片 https://i.loli.net/2020/08/21/SUjKJwWQA5otnHf.jpg
4、支持删除线[del]标签

我自己也在做爬楼机,发现上面这些形式都有nga用户在用,所以提一些建议。

改了一下代码结构

基本测试可用,只能把代码放剪贴板
gzip解压:


能否在强制更新时产生一些独立于CLI的提醒信息,例如产生一些文件?

感谢您的工作。请问在未来的版本里,触发强制更新后本地软件能否提供一些除了CLI之外的信息,例如生成一个YouNeedxxx的文件?
我的应用场景使用了Windows power shell作为驱动,其中我采用了Jobs方法来运行您的程序,但是Jobs方法不一定总能抓取到程序的输出,在无人值守的情况下突然强制更新有可能会导致服务中断。如果有除了CLI外的检测方法(例如基于文件的程序运行状态简报),则可以更方便的处理异常情况。

文件夹名带上帖子的标题

tid拉取了帖子的内容后,生成的文件夹名只有tid,这样不方便知道拉取的到底是哪个帖,所以建议把文件夹的名字里添加帖子的标题,比如25615215-[其他问题] 关于京东七天无理由退货。

def main():input('press to exit.')之前,加上dir_with_title(),这个函数的定义:

def dir_with_title():
    dir_oldname=str(tid)
    dir_newname=str(tid)+"-"+title
    re.sub('\?', ' ', dir_newname)  # slugify filename if you need
    os.rename(dir_oldname, dir_newname)

不同的操作系统、云盘可能对文件名有一些限制,这里就没有对规范文件名的操作细写了。

获取tid=23259348异常

获取tid=23259348异常,在down:./23259348/9184841e.jpg Floor[1404/1432] 之后报错 Oops! '[/quote'

我检查一下,应该是第1410楼,

[quote][pid=451719713,23259348,71]Reply[/pid] [b]Post by [uid=61815177]青青园中韭[/uid] (2020-09-11 15:54):[/b]<br/><br/>大师还是很厉害的,隆基我来说两句吧(省略……)机构票贸然跑进去容易被一顿胖揍。大师挺住![s:ac:[/quote]<br/><br/>本周发言背景准备:<br/>周末陪孩子参加教师节活动,很有意义的一周(省略……)以维系在这波新人中自己的形象。

由于用正则匹配表情包bbcode在正则匹配引用bbcode之前,而这里 [s:ac:[/quote] 是nga自己的格式错乱问题,所以正则匹配表情包的时候在smile_ac词典里找不到键名[/quote,从而抛出KeyError异常。

cookie里添加guestJs=有效期内unix时间戳

用curl.exe测试,cookie设置Uid和Cid访问晴风村板块帖子(无登录要求)会先弹出“访客不能直接访问”网页(此处cookie设置了lastvisit),后面浏览器重定向至帖子详情页,观察发现cookie设置了guestJs=lastvisit,guestJs是unix时间戳值且有时效限制

未使用这个python脚本测试

Posts of the main zone cannot be processed.

windows cmd>python nga_20200623.py
tid:22959845
22959845
localmaxpage1
localmaxfloor-1
trypage1
Traceback (most recent call last):
File "nga_20200623.py", line 185, in
main()
File "nga_20200623.py", line 144, in main
holder()
File "nga_20200623.py", line 163, in holder
while single(cpage) != False:
File "nga_20200623.py", line 41, in single
usertext = re.search(r',"__U":(.+?),"__R":', content, flags=re.S).group(1)
AttributeError: 'NoneType' object has no attribute 'group'

I am a Chinese user.貌似网事杂谈区主区的很多帖子都抓取不了,提示错误如上;但是分区的帖子可以抓取。建议多从主区找帖子来试试。

format代码collapse部分代码修改

379~381行的ritem[0]改为1

rt = '<details>\n  <summary>已折叠,点击展开</summary>\n  <pre>' + \
                ritem[1].replace('\n', '<br>') + '</pre>\n</details>'
            raw = raw.replace('[collapse]%s[/collapse]' % ritem[1], rt)

部分帖子会一直在try page

30729057为例,只有5页内容try page大概500页
另外测试被锁的帖子也会有不停try page的情况

2/19更新新版后解决

v1.4.0,无法对已爬取的帖子进行更新

查看文件夹内部process.ini的内容正常写入了max_floor和max_page,但重新运行此tid时发现无法像v1.2.0那样增量更新文件,仍然从第一页开始爬取处理。且运行程序后查看markdown文件发现文件内容没有增加,process.ini中的内容没有改变。
config.ini中的相关配置为

thread=1
page_download_limit=100
get_ip_location=False
enhance_ori_reply=True
use_local_smile_pic=False
local_smile_pic_path=../smile/
use_title_as_folder_name=True
use_title_as_md_file_name=True

匿名功能:从#anony_散列生成随机六位数中文名

匿名功能:从#anony_散列生成随机六位数中文名
(不会用Github相关功能,只提issue算了)
我是写其他语言的,这个Python代码我是临时学的,验证了5组匿名用户名。

# coding=utf-8
anony_string1 = '甲乙丙丁戊己庚辛壬癸子丑寅卯辰巳午未申酉戌亥'
anony_string2 = '王李张刘陈杨黄吴赵周徐孙马朱胡林郭何高罗郑梁谢宋唐许邓冯韩曹曾彭萧蔡潘田董袁于余叶蒋杜苏魏程吕丁沈任姚卢傅钟姜崔谭廖范汪陆金石戴贾韦夏邱方侯邹熊孟秦白江阎薛尹段雷黎史龙陶贺顾毛郝龚邵万钱严赖覃洪武莫孔汤向常温康施文牛樊葛邢安齐易乔伍庞颜倪庄聂章鲁岳翟殷詹申欧耿关兰焦俞左柳甘祝包宁尚符舒阮柯纪梅童凌毕单季裴霍涂成苗谷盛曲翁冉骆蓝路游辛靳管柴蒙鲍华喻祁蒲房滕屈饶解牟艾尤阳时穆农司卓古吉缪简车项连芦麦褚娄窦戚岑景党宫费卜冷晏席卫米柏宗瞿桂全佟应臧闵苟邬边卞姬师和仇栾隋商刁沙荣巫寇桑郎甄丛仲虞敖巩明佘池查麻苑迟邝'

'''
  测试数据, 论坛网页处理Javascript函数是commonui.anonyName()
  # '#anony_9c51a20a7c7e7d1c6a92e3de2fda8e78'  癸芦邓甲靳褚
  # '#anony_b34a67e8d3d527fb3be72768afaa6afd'  丑傅辛辰符金
  # '#anony_33b9c16f49748c9179d16cc12493765a'  丁汪苗庚虞季
  # '#anony_692ac06925dfd03c7f328c5636f968bb'  庚梅华庚梅严
  # '#anony_1af8b011e25dd2be72e84e8ee011e6e1'  乙蒲宁乙曾袁
'''

def anony_alias(anony_name):
  # 根据匿名散列生成随机六位中文名, 函数传入形式: '#anony_9c51a20a7c7e7d1c6a92e3de2fda8e78'
  res = ''
  str16 = '0x0' + anony_name[7]
  res += anony_string1[int(str16, 16)]
  str16 = '0x' + anony_name[8:10]
  res += anony_string2[int(str16, 16)]
  str16 = '0x' + anony_name[10:12]
  res += anony_string2[int(str16, 16)]
  str16 = '0x0' + anony_name[13]
  res += anony_string1[int(str16, 16)]
  str16 = '0x' + anony_name[14:16]
  res += anony_string2[int(str16, 16)]
  str16 = '0x' + anony_name[16:18]
  res += anony_string2[int(str16, 16)]
  res += '?'
  return res

aname = '#anony_1af8b011e25dd2be72e84e8ee011e6e1'
print(anony_alias(aname))

建议用 https://bbs.nga.cn/read.php?tid=23362790&page=6 来测试。这个网页不会过时,且以下匿名用户有对应的很多楼层:
癸芦邓甲靳褚?:0、31、41、51、73、78、104、111、124、135楼
丑傅辛辰符金?:9、39楼
卯柯郑辰赖龚?:117楼

同时回帖内容bbcode里的

r'\[quote\].+?\[uid.*?\](.+?)\[/uid\].*?\((\d{4}.+?)\):\[/b\](.+?)\[/quote\]((?:\n){0,2})'

r'\[b\]Reply to .+? Post by \[uid.*?\](.+?)\[\/uid\] \((.+?)\)\[\/b\]((?:\n){0,2})'

里也可能会出现#anony_XXX的形式。

利用回帖的reply_to键值来查看/跳转被回复楼

今天见到两次带有reply_to键值的回帖的显示效果有些异常,其中一个帖子被封了,现在只发另一个:pid=454945232是tid=23362790帖子的第179楼。

086RBt.jpg


086WHP.jpg
该回帖的xml源码,可见content里没有“要相信缘分这东西”,但reply_to键值指向的pid=454943638就有“缘分”:
086cjA.jpg

提这个issue的原因是想在离线文件里看到如图2的能看到被回复楼的效果,我比较懒,只加了个跳转到被回复楼的链接。

这是我做的html版的效果,此时鼠标悬浮在177数字上。
0862nI.jpg

注:reply_to的值pid对应的楼层可能会被删除,写入文件前应先检验是否有对应pid的楼层。

NEO 版本测试

ngapost2md_NEO_PRE_0.0.1_20230515

@CatSayInk @proItheus @oarinv @crella6

目前新版本基本实现了大多数旧版功能,具体参见 neo 分支的 README

假如各位方便或者正在使用旧版的话,欢迎用这个新版的测试一下,捉捉 bug。多谢多谢 :) 😄 (特别是reply等格式在md文件里的排版等bug)

使用说明也请见 neo 分支的 README。简单来说就是需要更改 cookies.json 里面的两个 MODIFY_ME 文本 和 config.ini 里的 UA MODIFY_ME 文本。

Windows 调用方式如下
图片

文件在下文链接的压缩包里,里面有AMD64架构的Linux版和Windows版,任一测试即可。

下载:ngapost2md_NEO_PRE_0.0.1_20230515.zip
(20230516: 应用了PR #51 ,已修复 config.ini 字段错误)

仅在配置文件版本号相异时“覆盖”本地配置文件

          > > 感谢感谢,顺便问一下,请问v1.4.0中每次运行的时候强制覆盖config.ini是有什么特殊的考虑吗?

准确来说不能叫“强制覆盖”,只是把旧的配置文件读取后,填充进标准配置里头再重新输出覆盖config.ini文件。配置信息(比如cid uid和个性化配置等)都不会变,只是会影响到注释,和软件不存在的配置项。比如有些用户可能会在注释里备注一些信息,这种情况在1.4.0后就会被覆盖成为原始的注释信息。

这个变动是由于引入了配置文件自动更新而来的,即跨版本更新后,假如配置项有变化,软件会自动将旧版的更新为新版。注释被覆盖这个问题,主要是比较少用户会这么用吧。

更新日志里头提这个,主要是配置文件会被软件修改这个行为,相对来说确实比较奇怪…

明白了,既然是这样的话我认为完全可以独立一个专门用于更新配置项的.exe或者.ps1,毕竟这个过程理论上在大版本更新后只需要进行一次。

Originally posted by @Gungnir762 in #21 (comment)

tid=25009036不能保存

Oops! 'NoneType' object has no attribute 'group'
Press to exit.

其他帖子可以正常使用

偶发情况,隔了一段时间后之后又可以,原因未知,推测可能是浏览速度有限制

cookies相关

cookie好像只需要

  1. ngaPassportUid
  2. ngaPassportCid

就可以了

支持折叠区域

折叠区域,示例帖子tid:23362790

<br/>感觉自己有种“姐系”的气质,举些例子:<br/>[collapse=和认识的仅有几个男生相处]<br/>实验室坐我旁边的男A:.......[del]人生三大错觉[/del],现在已经异地实习去了<br/><br/>[/collapse]<br/><br/>

按发帖时的用法提示:

[collapse=提要]
隐藏的内容……
[/collapse]

[collapse]
没有提要也可以……
[/collapse]

Markdown的

<details><summary>

标签应该是可以用的

NEO_1.4.2存在无意中覆盖用户配置文件到默认配置的情况

现象:NEO_1.4.2存在无意中覆盖用户配置文件到默认配置的情况。
推断:在config.ini被外部编辑、占用或者ngapost2md.exe存在多个实例同时调用config.ini时,NEO_1.4.2有可能会直接将用户的有效配置文件覆写为空白的配置文件。
复现方法:模拟config.ini暂时不可用的场景(例如外部编辑或同时调用),随后使用一个脚本来观察文件是否有更改。
本地复现结果:
图片
使用的脚本:
filetest.zip

[设定Cookie] 24409319这个pid的帖子无法保存

❯ python nga.py
tid:24409319
24409319
localmaxpage1
localmaxfloor-1
trypage1
Oops! 'NoneType' object has no attribute 'group'
press to exit.

以上是输出,看了一下代码没找到group,还是把Bug抛给你吧23333

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.