Crawl4AI: 适合大语言模型的开源网页爬取与信息提取利器
off999 2024-12-15 16:05 39 浏览 0 评论
Crawl4AI
Crawl4AI是一款专为简化网页爬取和信息提取而设计的工具,特别适合大语言模型(LLMs)和AI应用。
无论你是通过REST API、Python 库,还是Google Colab笔记本来使用,Crawl4AI都能提供强大的功能,让网页数据提取变得更加简单和高效。你无需安装任何额外的库,就能轻松地从多个网页获取所需的信息。
Crawl4AI提供了多种使用方式:你可以直接使用官方服务器上的 REST API,也可以在本地运行服务器。
此外,Crawl4AI的Python库允许你根据具体需求自定义爬取和提取策略,提供更高级的控制。
通过Crawl4AI,你可以高效地提取网页上的文本、图片、音频、视频和链接,为你的LLMs和AI应用提供强大的数据支持。
主要功能
功能描述完全免费和开源Crawl4AI 是免费使用且开源的,任何人都可以访问。适用于 LLM 的输出格式支持 JSON、清理后的 HTML 和 markdown 格式。并发爬取可以同时爬取多个 URL,节省时间。媒体提取提取所有媒体标签,包括图片、音频和视频。链接提取从网页中提取所有外部和内部链接。元数据提取提取网页的元数据以获取更多上下文信息。自定义钩子定义自定义钩子,用于身份验证、头部信息和爬取前的页面修改。用户代理支持自定义 HTTP 请求的用户代理。截图功能在爬取过程中对网页进行截图。JavaScript 执行在爬取前执行自定义 JavaScript。高级分块和提取策略使用基于主题、正则表达式、句子分块、余弦聚类和 LLM 的提取策略。支持 CSS 选择器使用 CSS 选择器提取特定内容。指令/关键词优化传递指令或关键词以优化提取过程。
安装
使用 Crawl4AI 有三种方式:
1、作为库使用(推荐)
pip install "crawl4ai[all] @ git+https://github.com/unclecode/crawl4ai.git"2、作为本地服务器(Docker)或使用 REST API
这个选项安装与transformer相关的依赖项并下载模型。
# 对于 Mac 用户 (M1/M2)
docker build --platform linux/amd64 --build-arg INSTALL_OPTION=transformer -t crawl4ai:transformer .
# 对于其他用户
docker build --build-arg INSTALL_OPTION=transformer -t crawl4ai:transformer .
# 运行容器
docker run -d -p 8000:80 crawl4ai:transformer3、作为本地服务器(Docker),使用 Docker Hub 上的预构建镜像
你可以使用Docker Hub上的预构建Crawl4AI镜像,这些镜像适用于所有平台(Mac,Linux,Windows)
# 拉取镜像
docker pull unclecode/crawl4ai:latest
# 运行容器
docker run -d -p 8000:80 unclecode/crawl4ai:latest运行容器后,你可以测试是否正常工作:
在Windows (PowerShell)上:
Invoke-WebRequest -Uri http://localhost:8000或者打开浏览器,导航到http://localhost:8000
快速入门指南
首先,我们创建一个WebCrawler实例并调用warmup()函数。
第一次运行Crawl4AI时可能需要几秒钟,因为它需要加载所需的模型文件。
from crawl4ai import WebCrawler
def create_crawler():
    crawler = WebCrawler(verbose=True)
    crawler.warmup()
    return crawler
crawler = create_crawler()基本用法
只需提供一个URL!
result = crawler.run(url="https://www.nbcnews.com/business")
print(f"Basic crawl result: {result}")截图
让我们对页面进行截图!
result = crawler.run(url="https://www.nbcnews.com/business", screenshot=True)
with open("screenshot.png", "wb") as f:
    f.write(base64.b64decode(result.screenshot))
print("Screenshot saved to 'screenshot.png'!")理解参数
默认情况下,Crawl4AI会缓存爬取结果,这意味着对相同URL的后续爬取会更快!让我们看看这个功能。
第一次爬取(缓存结果):
result = crawler.run(url="https://www.nbcnews.com/business")
print(f"First crawl result: {result}")强制重新爬取
result = crawler.run(url="https://www.nbcnews.com/business", bypass_cache=True)
print(f"Second crawl result: {result}")添加分块策略
让我们添加一个分块策略:RegexChunking!这个策略根据给定的正则表达式模式拆分文本。
from crawl4ai.chunking_strategy import RegexChunking
result = crawler.run(
    url="https://www.nbcnews.com/business",
    chunking_strategy=RegexChunking(patterns=["\n\n"])
)
print(f"RegexChunking result: {result}")你还可以使用NlpSentenceChunking,它利用NLP技术将文本拆分为句子。
from crawl4ai.chunking_strategy import NlpSentenceChunking
result = crawler.run(
    url="https://www.nbcnews.com/business",
    chunking_strategy=NlpSentenceChunking()
)
print(f"NlpSentenceChunking result: {result}")添加提取策略
让我们变得更聪明,使用提取策略:CosineStrategy!这个策略利用余弦相似度提取语义上相似的文本块。
from crawl4ai.extraction_strategy importCosineStrategy
result = crawler.run(
    url="https://www.nbcnews.com/business",
    extraction_strategy=CosineStrategy(
        word_count_threshold=10,
        max_dist=0.2,
        linkage_method="ward",
        top_k=3
)
)
print(f"CosineStrategy result: {result}")你还可以传递其他参数,如semantic_filter,以提取特定内容。
result = crawler.run(
    url="https://www.nbcnews.com/business",
    extraction_strategy=CosineStrategy(
        semantic_filter="inflation rent prices"
    )
)
print(f"CosineStrategy result with semantic filter: {result}")使用 LLMExtractionStrategy
这个策略利用大型语言模型从网页中提取相关信息。
from crawl4ai.extraction_strategy import LLMExtractionStrategy
import os
result = crawler.run(
    url="https://www.nbcnews.com/business",
    extraction_strategy=LLMExtractionStrategy(
        provider="openai/gpt-4o", 
        api_token=os.getenv('OPENAI_API_KEY')
    )
)
print(f"LLMExtractionStrategy (no instructions) result: {result}")你还可以提供特定的指令来指导提取。
result = crawler.run(
    url="https://www.nbcnews.com/business",
    extraction_strategy=LLMExtractionStrategy(
        provider="openai/gpt-4o",
        api_token=os.getenv('OPENAI_API_KEY'),
        instruction="I am interested in only financial news"
    )
)
print(f"LLMExtractionStrategy (with instructions) result: {result}")目标提取
使用CSS选择器只提取H2标签!
result = crawler.run(
    url="https://www.nbcnews.com/business",
    css_selector="h2"
)
print(f"CSS Selector (H2 tags) result: {result}")交互提取
传递JavaScript代码点击“加载更多”按钮!
const loadMoreButton = Array.from(document.querySelectorAll('button')).find(button => button.textContent.includes('Load More'));
loadMoreButton && loadMoreButton.click();result = crawler.run(
    url="https://www.nbcnews.com/business",
    js=js_code
)
print(f"JavaScript Code (Load More button) result: {result}")使用爬虫钩子
import time
from crawl4ai.web_crawler importWebCrawler
from crawl4ai.crawler_strategy import*
defdelay(driver):
print("Delaying for 5 seconds...")
    time.sleep(5)
print("Resuming...")
defcreate_crawler():
    crawler_strategy =LocalSeleniumCrawlerStrategy(verbose=True)
    crawler_strategy.set_hook('after_get_url', delay)
    crawler =WebCrawler(verbose=True, crawler_strategy=crawler_strategy)
    crawler.warmup()
return crawler
crawler = create_crawler()
result = crawler.run(url="https://www.nbcnews.com/business", bypass_cache=True)入门体验
拿之前文章做个验证。Redka = SQLite 重新实现 Redis
from crawl4ai.web_crawler import WebCrawler
crawler = WebCrawler()
crawler.warmup()
result = crawler.run(
    url='https://mp.weixin.qq.com/s?__biz=Mzg2MDg5NzE5NA==&mid=2247489168&idx=1&sn=9d7cee1d5641b0ad89568d48ccdef75c&chksm=ce1e3c55f969b5439f0efbbee58ebd3654238a90b049c603f13cc98450f5893e64d222d23f89&token=1468678215&lang=zh_CN#rd',
    screenshot=true
)
print(result)                适用于 LLM 的输出格式
导出markdown
JSON格式
截屏
相关推荐
- 阿里云国际站ECS:阿里云ECS如何提高网站的访问速度?
- 
        TG:@yunlaoda360引言:速度即体验,速度即业务在当今数字化的世界中,网站的访问速度已成为决定用户体验、用户留存乃至业务转化率的关键因素。页面加载每延迟一秒,都可能导致用户流失和收入损失。对... 
- 高流量大并发Linux TCP性能调优_linux 高并发网络编程
- 
        其实主要是手里面的跑openvpn服务器。因为并没有明文禁p2p(哎……想想那么多流量好像不跑点p2p也跑不完),所以造成有的时候如果有比较多人跑BT的话,会造成VPN速度急剧下降。本文所面对的情况为... 
- 性能测试100集(12)性能指标资源使用率
- 
        在性能测试中,资源使用率是评估系统硬件效率的关键指标,主要包括以下四类:#性能测试##性能压测策略##软件测试#1.CPU使用率定义:CPU处理任务的时间占比,计算公式为1-空闲时间/总... 
- Linux 服务器常见的性能调优_linux高性能服务端编程
- 
        一、Linux服务器性能调优第一步——先搞懂“看什么”很多人刚接触Linux性能调优时,总想着直接改配置,其实第一步该是“看清楚问题”。就像医生看病要先听诊,调优前得先知道服务器“哪里... 
- Nginx性能优化实战:手把手教你提升10倍性能!
- 
        关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构而核心,下面我重点详解Nginx性能@mikechen文章来源:mikechen.cc1.worker_processe... 
- 高并发场景下,Spring Cloud Gateway如何抗住百万QPS?
- 
        关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。高并发场景下网关作为流量的入口非常重要,下面我重点详解SpringCloudGateway如何抗住百万性能@m... 
- Kubernetes 高并发处理实战(可落地案例 + 源码)
- 
        目标场景:对外提供HTTPAPI的微服务在短时间内收到大量请求(例如每秒数千至数万RPS),要求系统可弹性扩容、限流降级、缓存减压、稳定运行并能自动恢复。总体思路(多层防护):边缘层:云LB... 
- 高并发场景下,Nginx如何扛住千万级请求?
- 
        Nginx是大型架构的必备中间件,下面我重点详解Nginx如何实现高并发@mikechen文章来源:mikechen.cc事件驱动模型Nginx采用事件驱动模型,这是Nginx高并发性能的基石。传统... 
- Spring Boot+Vue全栈开发实战,中文版高清PDF资源
- 
        SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序... 
- Docker-基础操作_docker基础实战教程二
- 
        一、镜像1、从仓库获取镜像搜索镜像:dockersearchimage_name搜索结果过滤:是否官方:dockersearch--filter="is-offical=true... 
- 你有空吗?跟我一起搭个服务器好不好?
- 
        来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。昨天闲的没事的时候,随手翻了翻写过的文章,发现一个很严重的问题。就是大多数时间我都在滔滔不绝的讲理论,却很少有涉及动手... 
- 部署你自己的 SaaS_saas如何部署
- 
        部署你自己的VPNOpenVPN——功能齐全的开源VPN解决方案。(DigitalOcean教程)dockovpn.io—无状态OpenVPNdockerized服务器,不需要持久存储。... 
- Docker Compose_dockercompose安装
- 
        DockerCompose概述DockerCompose是一个用来定义和管理多容器应用的工具,通过一个docker-compose.yml文件,用YAML格式描述服务、网络、卷等内容,... 
- 京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统
- 
        前言:Java的各种开发框架发展了很多年,影响了一代又一代的程序员,现在无论是程序员,还是架构师,使用这些开发框架都面临着两方面的挑战。一方面是要快速开发出系统,这就要求使用的开发框架尽量简单,无论... 
- Kubernetes (k8s) 入门学习指南_k8s kubeproxy
- 
        Kubernetes(k8s)入门学习指南一、什么是Kubernetes?为什么需要它?Kubernetes(k8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。它... 
欢迎 你 发表评论:
- 一周热门
- 
                    - 
                            
                                                                抖音上好看的小姐姐,Python给你都下载了
- 
                            
                                                                全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
- 
                            
                                                                Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
- 
                            
                                                                python入门到脱坑 输入与输出—str()函数
- 
                            
                                                                宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
- 
                            
                                                                Python三目运算基础与进阶_python三目运算符判断三个变量
- 
                            
                                                                (新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
- 
                            
                                                                失业程序员复习python笔记——条件与循环
- 
                            
                                                                慕ke 前端工程师2024「完整」
- 
                            
                                                                8÷2(2+2) 等于1还是16?国外网友为这道小学数学题吵疯了……
 
- 
                            
                                                                
- 最近发表
- 标签列表
- 
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
 
