资料内容:
1.1 发送 HTTP 请求
requests 模块:最常用的 HTTP 请求库,支持 GET、POST、PUT、DELETE 等
方法。
import requests
# 发送 GET 请求
response = requests.get('https://example.com')
print(response.status_code) # 打印状态码
print(response.text) # 打印响应内容
1.2 设置请求头
headers:设置请求头,伪装浏览器,避免被网站识别为爬虫。
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110
Safari/537.3'
}
response = requests.get('https://example.com',
headers=headers)
1.3 使用代理
proxies:通过代理服务器发送请求,避免 IP 被封。
proxies = {
'http': 'http://10.10.1.10:3128',
'https': 'https://10.10.1.10:1080',
}
response = requests.get('https://example.com',
proxies=proxies)