平方X

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2863|回复: 0

网站抓取-TeleportUltra-WinHTTrack

[复制链接]

414

主题

709

帖子

3658

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3658
QQ
发表于 2017-10-12 17:08:03 | 显示全部楼层 |阅读模式
[md]

想抓取 https://git-scm.com/book/zh/v2/  
使用以前自己珍藏的 Teleport Pro ,居然不可以抓 https 的。  
搜了一圏,
# 使用wget
```
wget -r -p -np -k --no-cookie --no-check-certificate –restrict-file-names=anscii https://git-scm.com/book/zh/v2/
-r 表示递归下载,会下载所有的链接,不过要注意的是,不要单独使用这个参数,因为如果你要下载的网站也有别的网站的链接,wget也会把别的网站的东西下载下来,所以要加上-np这个参数,表示不下载别的站点的链接.
-np 表示不下载别的站点的链接.
-k 表示将下载的网页里的链接修改为本地链接.
-p 获得所有显示网页所需的元素,比如图片什么的.
--no-cookie --no-check-certificate 使支持https
–restrict-file-names=anscii 否则中文乱码
```
可是还是带来了问题,就是内部链接在转为本地链接时无法正常转换,并且还要重命名所有文件。

# 于是又找了 WinHTTrack
可是下载后为什么会有 .z 的压缩包,是我没设置对吗

# 换回 Teleport Ultra
搜索过程中知道
>Teleport Ultra 是著名的离线浏览软件Teleport Pro版本的增强版!

于是想着会不会支持 https 了,试了一下,果然成功了,前面白折腾 wget 、 WinHTTrack 了……  
可是……虽然支持 https 了,还是中文乱码啊,最后还是用的 WinHTTrack

# 换回 WinHTTrack
[官网下载](http://www.httrack.com/page/2/en/index.html)

[/md]
我是平方X~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|平方X ( 冀ICP备14018164号 )

GMT+8, 2024-11-24 08:09 , Processed in 0.099253 second(s), 21 queries .

技术支持:Powered by Discuz!X3.4  © 2001-2013 Comsenz Inc.

版权所有:Copyright © 2014-2018 平方X www.pingfangx.com All rights reserved.

快速回复 返回顶部 返回列表