Python入门到脱坑案例:简单网页爬虫

off999 2025-06-28 15:50 41 浏览 0 评论

网页爬虫是Python的一个非常实用的应用场景。下面我将介绍一个适合初学者的简单爬虫案例，使用Python的requests和BeautifulSoup库来抓取网页内容。

准备工作

首先需要安装必要的库：

pip install requests beautifulsoup4

案例1：获取网页标题和所有链接

import requests
from bs4 import BeautifulSoup

def simple_crawler(url):
    try:
        # 发送HTTP请求
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功
        
        # 解析HTML内容
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 获取网页标题
        title = soup.title.string
        print(f"网页标题: {title}")
        
        # 获取所有链接
        print("\n网页中的链接:")
        for link in soup.find_all('a'):
            href = link.get('href')
            if href and href.startswith('http'):  # 只显示完整的URL
                print(href)
                
    except requests.exceptions.RequestException as e:
        print(f"请求出错: {e}")

# 使用示例
url = input("请输入要爬取的网页URL: ")
simple_crawler(url)

案例2：抓取特定内容（例如新闻标题）

import requests
from bs4 import BeautifulSoup

def news_crawler():
    url = "https://news.baidu.com/"
    try:
        response = requests.get(url)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        news_titles = soup.select('.hotnews a')  # 根据实际网页结构调整选择器
        
        print("百度热点新闻:")
        for i, title in enumerate(news_titles, 1):
            print(f"{i}. {title.get_text(strip=True)}")
            
    except Exception as e:
        print(f"发生错误: {e}")

news_crawler()

案例3：简单的图片下载器

import requests
from bs4 import BeautifulSoup
import os

def image_downloader(url, save_dir='images'):
    try:
        # 创建保存目录
        if not os.path.exists(save_dir):
            os.makedirs(save_dir)
            
        # 获取网页内容
        response = requests.get(url)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.text, 'html.parser')
        img_tags = soup.find_all('img')
        
        print(f"找到 {len(img_tags)} 张图片，开始下载...")
        
        for i, img in enumerate(img_tags):
            img_url = img.get('src')
            if img_url and img_url.startswith('http'):
                try:
                    img_data = requests.get(img_url).content
                    with open(f"{save_dir}/image_{i+1}.jpg", 'wb') as f:
                        f.write(img_data)
                    print(f"已下载: image_{i+1}.jpg")
                except:
                    continue
                    
        print("下载完成！")
        
    except Exception as e:
        print(f"发生错误: {e}")

# 使用示例
url = input("请输入包含图片的网页URL: ")
image_downloader(url)

案例4：简单的豆瓣电影Top250爬虫

import requests
from bs4 import BeautifulSoup
import csv

def douban_top250():
    base_url = "https://movie.douban.com/top250"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    movies = []
    
    for start in range(0, 250, 25):
        url = f"{base_url}?start={start}"
        try:
            response = requests.get(url, headers=headers)
            soup = BeautifulSoup(response.text, 'html.parser')
            
            for item in soup.select('.item'):
                title = item.select_one('.title').get_text(strip=True)
                rating = item.select_one('.rating_num').get_text(strip=True)
                movies.append((title, rating))
                
        except Exception as e:
            print(f"获取数据出错: {e}")
    
    # 保存到CSV文件
    with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow(['电影名称', '评分'])
        writer.writerows(movies)
    
    print("数据已保存到 douban_top250.csv")

douban_top250()