百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python 网络爬虫实战:从零到部署的完整流程

off999 2025-08-01 20:05 78 浏览 0 评论

适用人群:初-中级 Python 开发者、数据分析师、运维/测试自动化工程师

工具栈:Python 3.11 + requests + BeautifulSoup / lxml + pandas + (可选) Selenium / Playwright





目录


  1. 环境准备
  2. 目标网站分析
  3. 编写基础爬虫(requests + BS4)
  4. 增强:并发爬取 & 反爬绕过
  5. 数据持久化(CSV / MySQL / MongoDB)
  6. 全流程异常处理与日志
  7. 项目打包部署 & 定时任务
  8. 合规与反爬道德守则






1 环境准备


python -m venv venv && source venv/bin/activate

pip install requests beautifulsoup4 lxml pandas tqdm

# 如需 JS 渲染:

pip install playwright && playwright install chromium

确保:pip >= 23,系统时间正确,否则 SSL 握手易报错。





2 目标网站分析(以某博客文章列表为例)



  1. F12 打开开发者工具 → Network → Doc
  2. 找到列表页 URL,观察分页参数:

  3. https://example.com/page/1 → 规律 /page/{pageNo}
  4. 右键 Copy > Copy selector 确定元素路径:


<h2 class="entry-title"><a href="文章链接">标题</a></h2>



  1. 判断是否需要登录/JS 渲染。若纯 HTML,可用 requests;否则使用 Playwright。






3 基础爬虫示例


import requests, time, random

from bs4 import BeautifulSoup

from urllib.parse import urljoin


HEADERS = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "

"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124 Safari/537.36"

}


def fetch_page(url: str) -> str:

resp = requests.get(url, headers=HEADERS, timeout=10)

resp.raise_for_status()

return resp.text


def parse_list(html: str, base: str) -> list[dict]:

soup = BeautifulSoup(html, "lxml")

for h2 in soup.select("h2.entry-title a"):

yield {

"title": h2.text.strip(),

"link": urljoin(base, h2["href"])

}


def main():

base = "https://example.com"

all_posts = []

for page in range(1, 6):

url = f"{base}/page/{page}"

html = fetch_page(url)

all_posts.extend(parse_list(html, base))

time.sleep(random.uniform(1, 3)) # 给服务器喘息

print(f"抓到 {len(all_posts)} 篇文章")

# TODO: 进一步抓取详情页 / 写入文件

if __name__ == "__main__":

main()





4 增强:并发爬取 & 反爬绕过




4-1 异步 + 协程


pip install httpx[http2] asyncio aiofiles

import asyncio, httpx, aiofiles, json

SEM = asyncio.Semaphore(10)


async def fetch(url, client):

async with SEM, client.get(url) as r:

r.raise_for_status()

return r.text


async def crawl(urls):

async with httpx.AsyncClient(headers=HEADERS, http2=True) as client:

tasks = [fetch(u, client) for u in urls]

return await asyncio.gather(*tasks)


# 调用: data = asyncio.run(crawl(url_list))


4-2 常见反爬应对


反爬手段

解决方案

UA / Referer 检测

伪造 headers

Cookie / 登录态

requests.Session + 手工/自动登陆

IP 黑名单

住宅代理 / VPN注意合法合规

JS 动态渲染

Playwright 或 Selenium

CAPTCHA

极验/谷歌验证码需人工或打码平台





5 数据持久化




5-1 写 CSV / Excel


import pandas as pd

pd.DataFrame(all_posts).to_csv("posts.csv", index=False, encoding="utf-8-sig")


5-2 写 MySQL


import pymysql

conn = pymysql.connect(host="127.0.0.1", user="root", password="pwd", database="spider", charset="utf8mb4")

with conn.cursor() as cur:

cur.executemany("INSERT IGNORE INTO article(title,link) VALUES(%s,%s)",

[(d["title"], d["link"]) for d in all_posts])

conn.commit()





6 异常处理与日志


import logging, os

logging.basicConfig(

level=logging.INFO,

filename="spider.log",

format="%(asctime)s %(levelname)s %(message)s"

)


try:

html = fetch_page(url)

except (requests.Timeout, requests.HTTPError) as e:

logging.error("抓取失败 %s → %s", url, e)





7 部署与定时任务



Linux 系统 (crontab):

crontab -e

# 每日凌晨 2 点运行

0 2 * * * /usr/bin/python /home/spider/main.py >> /home/spider/cron.log 2>&1

Docker 打包:

FROM python:3.11-slim

COPY . /app

WORKDIR /app

RUN pip install -r requirements.txt

CMD ["python", "main.py"]





8 合法合规 & 道德守则



  1. 尊重 robots.txt:若站点明确禁止抓取,请勿爬取。
  2. 流量友好:控制并发、限速,避免压垮服务器。
  3. 勿爬敏感/隐私信息:遵守 GDPR、网络安全法。
  4. 遵照授权协议:对商业站点先取得书面许可。
  5. 标注数据来源:二次发布数据时注明原站点。






结论


  • 核心流程:确定目标 → 模拟请求 → 解析 → 存储 → 迭代优化
  • 充分利用异步、并发、分布式队列 (Redis + RSMQ/Celery) 获得更高抓取速率。
  • 安全与合规永远排第一;任何超限操作都可能导致法律风险。

相关推荐

tplogin管理员登录入口(tplogin重新设置密码)

tplogin.cn是新版tplink路由器的登录地址(管理页面地址),在浏览器中输入tplogin.cn,就可以打开tplink路由器的管理页面(登录页面)。具体的登录方法如下:1、打开电脑上的浏...

psp模拟器怎么导入游戏(psp模拟器怎么导入游戏 Vivo手机)

方法如下:1、打开能操作文件的助手软件,用pp链接后点击左下文件,然后点常用目录下的程序用户,会出现ppsspp的文件夹。2、打开ppsspp文件夹,会出来四个选项文件夹,第一个进去后是psp文件夹,...

电脑系统怎样升级(电脑系统怎么升级)

电脑系统升级方法步骤,1、打开电脑,点击电脑左下角的开始菜单,在弹出的菜单选项中选择“控制面板”。2、点击“开始”,点击“控制面板”3、在控制面板中,点击“系统和安全”。4、点击启用或禁用自动更新。5...

win10正版系统下载网站(win10官方下载网站)
  • win10正版系统下载网站(win10官方下载网站)
  • win10正版系统下载网站(win10官方下载网站)
  • win10正版系统下载网站(win10官方下载网站)
  • win10正版系统下载网站(win10官方下载网站)
windows无法激活(windows无法激活有什么影响)

1.如果修复或重新组装了电脑,则可能是安装了不同版本的Windows。或者,如果在修复过程中为电脑使用了其他产品密钥,当使用该密钥的电脑数大于Microsoft软件许可条款允许的电脑数时,该密钥...

新机怎么激活windows10(新机怎么激活电池)
  • 新机怎么激活windows10(新机怎么激活电池)
  • 新机怎么激活windows10(新机怎么激活电池)
  • 新机怎么激活windows10(新机怎么激活电池)
  • 新机怎么激活windows10(新机怎么激活电池)
u盘文件恢复软件免费(恢复u盘数据免费的软件)
u盘文件恢复软件免费(恢复u盘数据免费的软件)

u盘损坏文件恢复方法:1、打开电脑桌面的“计算机”或“我的电脑”。2、然后再找到需要修复的u盘。3、打开“运行”窗口(可以直接按“Windows+R”快捷打开),输入“CMD”并点击“确定”按钮以进入命令提符界面。4、从打开的“命令提示符”...

2025-12-28 22:03 off999

win10蓝屏代码大全以及解决方法
  • win10蓝屏代码大全以及解决方法
  • win10蓝屏代码大全以及解决方法
  • win10蓝屏代码大全以及解决方法
  • win10蓝屏代码大全以及解决方法
电脑uac是什么意思

UAC就是用户帐户控制,在对计算机进行更改之前,用户帐户控制(UAC)会通知您。比如安装软件驱动什么的,默认UAC设置会在程序尝试对计算机进行更改时通知您,但您可以通过调整设置来控制UAC...

笔记本找不到自己家的wifi怎么办

1.笔记本电脑缺少无线网卡驱动,需要下载驱动如果笔记本电脑开机之后,无法显示WiFi网络的图标,这个时候多半是因为电脑缺少无线网卡驱动造成的,有时候自己在清理电脑的时候,不小心清理了驱动程序,便会...

电信宽带办理电话是多少(电信宽带办理联系电话)

电信宽带不一定需要电信手机号码,可以根据自身需要选择,有单独的宽带业务,一般要求预存一定时间的使用费。不过一般包含了宽带、手机号码的融合套餐总体上更优惠,对客户来说更划算。如果有相应需求的话,建议同时...

开机进入ghost启动项(电脑启动进入ghost)

电脑启动的时候进入GHOST界面方法:  1、首先确认电脑装了GHOST软件。  2、重启电脑,注意仔细观察电脑屏幕,会有一个3s或者10s的选择界面。让选择是进入GHOST界面,或者正常启动进入系...

华硕bios修复蓝屏图解(华硕bios修复蓝屏视频教程)

先看下BIOS是否可以识别到硬盘设备,若看不到,硬盘故障的可能性很大。若可以看到硬盘,建议先尝试进行BIOS兼容性设置:1,在BIOS界面,通过方向键进【Secure】菜单,通过方向键选择【Sec...

老电脑怎么装win7系统(老电脑装win7系统可以吗)

6年前的电脑,如果是用的当时最新的CPU的话,应该是第7代或者第6代酷睿等级的。运行windows7和windows10都应该没有压力。从软件的兼容性来说,还是建议安装windows10,因为现在有好...

电脑怎么设置到点自动关机(电脑怎样设置到点关机)

1、首先我们点击电脑屏幕左下角的开始按钮,在所有程序里依次选择附件---系统工具,接着打开任务计划程序。2、我们打开任务计划程序后,在最右边的操作框里选择创建基本任务,然后在创建基本任务对话框的名称一...

取消回复欢迎 发表评论: