平方X

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4068|回复: 0

[2547]抖音爬虫总结

[复制链接]

414

主题

709

帖子

3657

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3657
QQ
发表于 2018-7-14 17:06:47 | 显示全部楼层 |阅读模式
[md]
以前刷抖音觉得浪费时间,想要爬取出来,直接按点赞数排序,看看点赞多的就行。  
抖音早已卸载,这个爬虫计划却一直在进行。

# 0x00 进度
最早一次有记录的提交是 20180313,实际尝试爬取可能更早  
但是被网络请求的参数校验阻挠,一直难以进展  
20180613 拜读多篇博文,正式攻破加密算法,开始写爬虫  
20180615 爬虫完成,但是连续爬取一段时间后, ip 总是会被禁,严重影响爬虫效率  
20180616 爬虫稳定(龟速)运行10天,爬取 100w 数据  
20180624 开始重构,添加代理并开始写爬代理的爬虫  
20180711 爬虫正式完工,成就感满满  
20180714 测试爬取效率,并发设为 16 时,ip 爬取速度略小于消耗速度  
实际维持有效 ip 数约 200 个。  
爬取数据约 2000 items/分钟,一天可爬约 288 w  
如果 ip 足够,不知道一天能不能冲击 1000 w。

后来经过检查,上述的 100w 数据,是包括重复数据的,无语。  
后来将请求地址拼上完整参数,继续爬取。

整理一下整个过程,也是留下多篇笔记,学到不少东西。  

后续的数据呈现、服务器定时爬取、App 端展示等计划就算了,到此已经浪费很多时间了。

![](https://pingfangx.github.io/resource/blogx/2547/1.png)

# 0x01 逆向网络请求
## jadx 的使用
## xposed 的使用
* 模拟器安装
* 模块开发
## IDA动态调试SO
## 加密算法分析

# 0x02 爬取
## 爬取
* Scrapy
* XPath
* 单元测试
* 并发与防 ban
* 多 spider 同时运行

## scrapy
* Items
* Spiders
* Pipeline
* Logging
* Middleware
* Settings

## 保存
* PostgresSQL
* asyncpg

## 并发
* 协程
* 多线程

# 0x03 代理
* 爬虫 spider
* 解析 parser  
端口解密
* 过滤 filter
* 校验 validator
* 管理 manager[/md]
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|平方X ( 冀ICP备14018164号 )

GMT+8, 2024-11-21 23:53 , Processed in 0.099704 second(s), 21 queries .

技术支持:Powered by Discuz!X3.4  © 2001-2013 Comsenz Inc.

版权所有:Copyright © 2014-2018 平方X www.pingfangx.com All rights reserved.

快速回复 返回顶部 返回列表