必趣阁的小说爬行工具可以批量下载相关网站的小说资源,保存在本地。软件主要由Python开发,用户可以在下面找到源代码内容。整体使用也很简单,只需要输入相应的连接地址就可以完成。需要Biquge网文的用户要快速体验。
程序运行方法:解压,找到并打开dist文件夹在这个文件夹中,有一个“下载。exe ",双击即可运行
1.去xbiquge.la/,找要保存的小说,复制那个小说的目录页链接
2.根据需要输入链接地址和小说名称
3.开始爬行
(因为是单线程操作,所以爬行速度稍微慢了1-2秒左右)
4.爬行后,所有章节内容将被整合到一个txt文件中
进口re
标题={ 0
用户代理' : ' Mozilla/5.0(Windows NT 6.1)applebwebkit/537.36(KHTML,类似Gecko)Chrome/78 . 0 . 3904 . 97 Safari/537.36 '
}
#定义全局变量,用于保存所有获取的小说内容
story_all=[]
#获取标题和章节链接地址
def main():
Url=输入('请输入小说目录页面地址(仅限).暂时支持站上的xbiquge.la/'novels):')
Book_name=input('请输入小说名:')
打印('-')
#获取目录页面的HTML文本
text=requests.get(url,标头). content.decode('utf-8 ')
#获取每章的章节名称
title=re.findall(r'dd。*?a.*?(.*?)/a ',文本,re。DOTALL)
#获取每章的链接地址
loca=re.findall(r'dd。*?='(.*?)' ',文字,re。DOTALL)
#因为title和loca具有相同的长度,所以索引遍历它们,这便于取值
对于范围内的I(len(title)):
内容(标题[i],f '.xbiquge.la{loca[i]} ')
#爬完小说,保存。
打印(' @'*500)
使用open(r'%s.txt'%book_name,' w ',编码='utf-8 ')作为文件:
#遍历每个项目,并按顺序保存章节名称和内容
对于story_all中的故事:
file.write(story['title'] '\n ')
印刷品(故事[标题])
file.write(story['story'])
#解析章节内容并保存
def内容(标题、url):
#获取章节页面的HTML文本
text=requests.get(url,标头). content.decode('utf-8 ')
#因为我之前写过直接抓取所有内容,抓取的文本很难处理。
#所以我一个接一个地得到了它
story_content=re.findall(r '(。*?)br ',文本,re。DOTALL)
#因为章节名中有" "空格,不能作为文件名,所以去掉空格
title=re.sub(','-',title)
#有时候不知道小说内容为什么会爬上空数组,所以这里增加了一个检测程序
#如果爬网是空的,请再次爬网,直到您得到它。
if story_content==[]:
内容(标题、网址)
返回0
故事=' '
#如前所述,因为我是一句一句地爬过来的,所以在这里拼接,顺便去掉空格
对于story _ content:中的story_contents
story=story story _ contents . strip()' \ n '
#将章节名称和章节内容保存为词典
this _ story={
标题' :title,
故事' :年历史
}
打印(这篇文章['标题])
#将字典添加到开头定义的全局变量中
故事_全部。附加(这个故事)
if __name__=='__main__':
main()