当前位置：网站首页 > 技术资源 > 正文

Python学不会来打我(34)python函数爬取百度图片_附源码

off999 2025-06-28 15:52 39 浏览 0 评论

随着人工智能和大数据的发展，图像数据的获取变得越来越重要。作为Python初学者，掌握如何从网页中抓取图片并保存到本地是一项非常实用的技能。

本文将手把手教你 使用Python函数编写一个简单的百度图片爬虫程序，能够根据关键词搜索并下载指定数量的图片，适合刚入门的新手学习。

文章内容包括：

爬虫基本流程分析
使用 requests 和 BeautifulSoup 抓取网页数据
图片链接提取与下载
数据保存技巧
完整可运行代码示例

注意：本文仅用于技术学习交流，请勿用于非法用途或违反网站协议的行为。

一、目标说明

我们要实现的功能是：

根据用户输入的关键词，在百度图片中搜索相关图片
指定要下载的图片数量
将这些图片自动保存到本地文件夹中

二、准备工作

1. 安装所需库

pip install requests beautifulsoup4

我们主要使用以下两个库：

库名	功能说明
requests	发送 HTTP 请求获取网页内容
BeautifulSoup	解析 HTML 内容，提取图片链接

三、百度图片页面结构分析

百度图片的搜索结果页面地址格式如下：

https://image.baidu.com/search/index?tn=baiduimage&word=关键词

我们打开这个页面后，会发现它返回的是一个包含大量 <img> 标签的网页，其中每个 <img> 对应一张图片。

但注意：百度图片页面中的 <img> 是预览图，并非原图地址。我们需要找到真实图片地址。

百度图片的真实地址通常在 JavaScript 中以 JSON 形式嵌入在网页中，例如：

"objURL":"http://example.com/image.jpg"

所以我们需要解析网页中的这部分 JSON 数据来获取图片链接。

四、爬虫流程详解

整个爬虫可以分为以下几个步骤：

构建请求 URL
发送请求，获取网页源码
解析网页，提取所有图片的真实链接
下载并保存图片到本地

我们将用函数的方式逐步封装以上步骤。

五、第一步：构建搜索 URL

def build_search_url(keyword):
    """
    构建百度图片搜索的URL
    :param keyword: 搜索关键词
    :return: 完整的搜索URL
    """
    import urllib.parse
    base_url = "https://image.baidu.com/search/index"
    params = {
        "tn": "baiduimage",
        "word": keyword
    }
    return f"{base_url}?{urllib.parse.urlencode(params)}"

六、第二步：发送请求，获取网页HTML内容

import requests

def fetch_html(url):
    """
    发送GET请求，获取网页HTML内容
    :param url: 要访问的网址
    :return: 返回HTML文本，失败返回None
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
          AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.encoding = 'utf-8'  # 设置编码防止乱码
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码：{response.status_code}")
            return None
    except requests.RequestException as e:
        print(f"请求异常：{e}")
        return None

七、第三步：解析HTML，提取图片链接

from bs4 import BeautifulSoup
import re

def extract_image_urls(html, max_count=10):
    """
    提取网页中所有图片的真实链接
    :param html: 网页HTML内容
    :param max_count: 最多提取多少个图片链接
    :return: 包含图片链接的列表
    """
    if not html:
        return []

    soup = BeautifulSoup(html, 'html.parser')
    script_tags = soup.find_all('script')

    image_urls = []
    pattern = re.compile(r'"objURL":"(http[s]?://[^"]+)"')

    for script in script_tags:
        if script.string:
            matches = pattern.findall(script.string)
            for url in matches:
                image_urls.append(url)
                if len(image_urls) >= max_count:
                    break
            if len(image_urls) >= max_count:
                break

    return image_urls

八、第四步：下载并保存图片

import os

def download_images(image_urls, 
                    folder_name='downloaded_images'):
    """
    下载并保存图片到本地文件夹
    :param image_urls: 图片链接列表
    :param folder_name: 存储图片的文件夹名称
    """
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)

    count = 1
    for url in image_urls:
        try:
            print(f"正在下载第 {count} 张图片：{url}")
            response = requests.get(url, timeout=10)
            if response.status_code == 200:
                ext = url.split('.')[-1]
                filename = f"{folder_name}/image_{count}.{ext}"
                with open(filename, 'wb') as f:
                    f.write(response.content)
                count += 1
            else:
                print(f"图片下载失败：{url}")
        except Exception as e:
            print(f"下载出错：{url}, 错误信息：{e}")

九、第五步：整合主函数执行爬虫

def main():
    keyword = input("请输入你要搜索的图片关键词：")
    num_images = int(input("请输入要下载的图片数量（建议不超过20）："))

    search_url = build_search_url(keyword)
    html_content = fetch_html(search_url)
    image_links = extract_image_urls(
                 html_content, num_images)
    
    if image_links:
        print(f"共找到 {len(image_links)} 张图片，开始下载...")
        download_images(image_links)
        print("图片下载完成！")
    else:
        print("未找到任何图片链接，请尝试其他关键词。")

if __name__ == '__main__':
    main()

十、运行效果展示

输入关键词如“猫”，数量设为5：

请输入你要搜索的图片关键词：猫
请输入要下载的图片数量（建议不超过20）：5
正在下载第 1 张图片：https://example.com/cat1.jpg
正在下载第 2 张图片：https://example.com/cat2.jpg
...
图片下载完成！

此时你会在当前目录看到一个名为 downloaded_images 的文件夹，里面包含了你下载的图片。

十一、注意事项与优化建议

推荐做法：

设置合理的超时时间，避免卡死
添加 User-Agent 防止被识别为爬虫
控制下载数量，避免频繁请求影响服务器
使用日志记录代替 print 输出

常见问题及解决方法：

问题类型	解决方案
图片无法下载	检查图片链接是否有效，添加重试机制
编码乱码	设置 response.encoding = 'utf-8'
提取不到链接	检查正则表达式是否匹配 objURL 字段
文件写入失败	检查文件路径是否存在，权限是否正确
反爬限制	使用代理 IP、降低请求频率