汤不热抓取工具(附小白使用指南)

  • A+
所属分类:软件应用教程

5月份时候写了一个简单的脚本,用于抓取汤不热内容。后来几次更新,代码乱成一团糟,昨晚用了几个小时,全部重写了一下。独乐乐不如众乐乐,把这个工具介绍给大家,可以试用一下。

不能附链接,请手动复制并访问以下网址
Github项目地址:  github.com/seanhuai/tumblr-source-list

tumblr-source-list

一个简单的Tumblr资源工具,用于获取指定用户的图片或视频信息

当前文档版本: 0.170811.1 S

GitHub: https://github.com/seanhuai/tumblr-source-list

 

技术文档随项目变化不定期更新

工具下载

克隆本仓库到本地 命令如下

1
git clone https://github.com/seanhuai/tumblr-source-list

使用方法

运行 app.py 文件,同时传递参数

用户模式

1
tumblr-source-list> python .\app.py username username mediatype limit

app.py username 后接 用户名(即用户二级域名)、媒体类型(photo 或 video)和 获取内容页数。

示例:

1
tumblr-source-list> python .\app.py username u44002 photo 3

本例获取 u44002 用户近 3 页的图片内容

1
tumblr-source-list> python .\app.py username u44002 video 5

本例获取 u44002 用户近 5 页的视频内容

生成的列表文件位于用户同名文件夹,请使用下载工具完成下载

链接模式

1
tumblr-source-list> python .\app.py posturl url

app.py posturl 后接 内容所在网页地址。

示例:

1
tumblr-source-list> python .\app.py posturl https://wsyghf.tumblr.com/post/150478441406/

本例获取 wsyghf 用户指定的图片内容

汤不热抓取工具(附小白使用指南)

1
tumblr-source-list> python .\app.py posturl https://donshofer.tumblr.com/post/163730046536/

本例获取 donshofer 用户指定的图片内容

汤不热抓取工具(附小白使用指南)

两例均为图片,视频为同样使用方法。

生成的列表文件位于用户同名文件夹,请使用下载工具完成下载。

代理设置

在中国大陆使用,需设置网络代理。

默认设置代理为监听本地 1080 端口,适用 Shadowsocks 用户。

更改代理设置,修改 packages/_profiles.py host/port 变量值即可。

获取限制

官方限制,每一认证密钥每小时访问次数仅限 1000 次,同一密钥同一天限制访问 5000 次。

更换密钥,或设置备用密钥,修改 packages/_profiles.py api 变量值(组)即可。

更新计划

近期将发布工作在 Windows 平台的 exe 程序。

下一版本计划:实现根据关键字搜索并获取内容,实现多 key 负载均衡。

 

面向小白的使用指南:

注意:以下说明需要建立在已翻墙的基础上,你需要知晓你的代理软件的工作端口。

准备工作:
1. 百度 'git' ,进入 git-scm.com 下载客户端。百度 'python'  下载 3.0 版以上客户端。(Windows 用户下载 Windows 版本即可)
2. 安装 git 客户端,安装完成后,开始菜单中选择 git 文件夹,启动 git-bash。
3. 执行命令 cd /d (此处的 d 意为你设定的下载位置,/d 即指设定为 D盘,/d/abc  即指设定为 D盘下abc文件夹,其余同理 ),执行完成后,输入命令 git clone https://github.com/seanhuai/tumblr-source-list 下载本工具代码
4. 执行命令 cd tumblr-source-list 进入本工具文件夹
(可选:修改 packages 文件夹下 _profiles.py 文件中 port 属性值为你的代理软件的工作端口)

操作指南:
1. 基本命令: python app.py (模式) (值)
2. 模式:当前支持 username / posturl 两个模式
3. 用户模式:获取指定用户的图片或视频资源,该模式下值按 ‘python app.py username 用户名 资源类型 获取内容页数’ 输入,媒体类型仅支持 photo / video 两种类型。
举个栗子:
获取 u44002 用户的 3页 图片,输入  python app.py  username  u44002 photo 3 回车即可。
获取 u44002 用户的 6页 视频,输入  python app.py  username  u44002 video 6  回车即可。
4. 链接模式:获取指定 tumblr链接 包含的内容,该模式下值按 ‘python app.py posturl 链接’ 输入。
举个栗子:
获取 https://wsyghf.tumblr.com/post/150478441406 这个页面的内容,输入 python app.py posturl https://wsyghf.tumblr.com/post/150478441406 回车即可。

常见问题:
1. 提示 ‘你正在获取的内容不宜于未成年人......’  等内容:
如果你获取的是敏感内容(不适宜于未成年人的内容)时,会有此提示,如输入 Y 后回车将继续执行,输入其他内容将中断执行。
2. 不提示 ‘你正在获取的内容不宜于未成年人......’  等内容,但有乱码提示:
可能是字符集设置问题,不影响操作,可参考上一条处理。