
资料内容:
什么是抓包 
不论⽤哪种⽅式去写爬⾍代码,对于 下载 来说,具体要请求⽹ 
站 url 是什么,调⽤什么 api 接⼝,传递什么 参数 ,以及获取到数据 
后,⽤什么规则提取出需要的数据等等内容,都需要事先去分析和研究清 
楚,这个抓取⽹络请求的数据包的过程,⼀般叫做: 抓包 
即: 
下载 
需要访问的⽹⻚ url 地址或 api接⼝ 是什么 
以及传递什么 参数 
提取 
对于返回数据,需要抓取具体哪⼀部分 
对应的数据的 提取规则 是什么 
提示: 
虽然对于爬⾍的核⼼流程是先要抓包分析搞清楚逻辑,然后才能去写爬⾍ 
代码,不过实际上很多时候,是边分析,边写代码的。 
尤其是对于⼀些复杂的⽹站或app来说,往往是分析的同时,也要写⼀些 
代码去验证和测试抓取的逻辑是否⾏得通的。 
总之,对于爬⾍的流程: 
逻辑上是:先抓包分析,再写爬⾍代码 
实际上(往往)是:边抓包分析,边写代码 
抓包的难度 
普通⽹⻚ :抓包分析,⼀般⽐较简单 
复杂⽹站 :对于需要登录才能获取到数据,且加了验证码等做了其 
他反爬措施和⼿段的⽹站和app,抓包分析起来,⼀般都很复杂 
复杂⽹站的抓包分析和破解,往往⽐(之后的,单纯的)写爬⾍ 
去 下载+提取+保存,要难多了 
 
                