百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

如何编写python爬虫?以及在张大妈比价项目中的应用!

off999 2024-10-02 18:37 56 浏览 0 评论

最近打算买一些家电,但是电商平台众多,于是我想看看每天到底有多少商品进行降价了,同一款商品在不同平台中的价格又是多少?于是我从0开始翻阅了一些python资料,写了几个python小爬虫。

项目背景:电商平台众多,监测每个电商平台每日价格出现历史新低的商品,同一型号商品在不同电商平台的价格并且在同一张图标中绘制出来,方便筛需要的商品

项目名称:Hi张大妈比价(hizdm.com)

方案实施:如果要进行价格比对,当然少不了对数据的抓取,由于本人比较擅长php但通过百度(如果能用狗哥,谁还用它啊,虽说有vpn好像被360收集了经常断)得知python抓取会更好一些,于是就选择了python,之前没有用过python,于是在网上学了学python。

由于是比价固得先有思路,因为有些商品没法标准化,还好要买的电器还是能找到标准化的规则(爬虫爬取每个商品的说明找到产品型号,没错我进行数据标准化的规则就是按着商品型号来的)

首先选一些种子选手,京东、苏宁、国美,谁让你们在家电方面是龙头呢,O(∩_∩)O哈哈~,由于是新手我一次就抓取了所需要的产品缩略图、产品链接、产品参数、产品名称以及产品型号进行独立存取,这样文件在以后再进行比对筛选唯一(对型号进行字符串规则化,替换中文括号横线等等然后在strtolow,这样比对起来成功匹配率在98%),然后在入库(网站基础规划就不详解了,如感兴趣可联系我)。

以京东为例爬虫如下:

! /usr/bin/python

#utf-8

import re

import os

import sys

import time

import urllib2

import cookielib

from bs4 import BeautifulSoup

reload(sys)

sys.setdefaultencoding('utf-8')

class jdSpider:

def __init__(self, url, header, header2, brand):

self.url = url

self.header = header

self.header2 = header2

self.brand = brand

def crawl(self):

req = urllib2.Request(self.url, headers = self.header)

con = urllib2.urlopen(req)

html = con.read()

con.close()

soup = BeautifulSoup(html)

one = soup.find('ul', {'class' : 'gl-warp'})

two = one.find_all('li', {'class' : 'gl-item'})

i = 0

c = ''

img = ''

base = 'http:'

for three in two:

i = i + 1

print i

if i > 0:

img = base + str(three.find('img').get('data-lazy-img'))

four = three.find('div', {'class' : 'p-name'})

product_link = base + str(four.find('a').get('href'))

product_name = four.find('em').get_text()

req2 = urllib2.Request(product_link, headers = self.header2)

con2 = urllib2.urlopen(req2)

html2 = con2.read()

con2.close()

soup2 = BeautifulSoup(html2)

five = soup2.find('table', {'class' : 'Ptable'})

if five:

six = five.find_all('td')

j = 1

tag = ''

brand = ''

param = ''

for seven in six:

if j == 2:

brand = seven.get_text().strip()

if j == 4:

tag = seven.get_text().strip()

if j % 2 == 1:

param = param + seven.get_text().strip() + '||'

else:

param = param + seven.get_text().strip() + '|||'

j = j + 1

c = 'jd^^^' + brand + '^^^' + tag + '^^^' + product_name + '^^^' + product_link + '^^^' + img + '^^^' + param + '\n'

print c

if __name__ == '__main__':

'

header = {'Host': 'list.jd.com',

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:26.0) Gecko/20100101 Firefox/26.0',

'Accept': 'textml,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Encoding': 'deflate',

'Connection': 'keep-alive'}

header2 = {'Host': 'item.jd.com',

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:26.0) Gecko/20100101 Firefox/26.0',

'Accept': 'textml,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Encoding': 'deflate',

'Connection': 'keep-alive'}

brand = raw_input("Product: ")

url = raw_input("Url: ")

spider = jdSpider(url, header, header2, brand)

spider.crawl()

以上代码可供大家研究版权归属Hi张大妈比价,由于python是速成,请大家轻喷,当然也希望大家支持Hi张大妈(hizdm.com)!

相关推荐

无线路由器密码在哪看(无线路由器密码在哪里看)

笔记本已连接wifi密码查看:1.同时按住按键上面的Win和R这2个按键,打开运行程序。2.在运行程序中输入“ncpa.cpl”,并点击“确定”。3.找到WLAN或者无线网络连接图标,...

office2003的主要功能(word2003的主要功能)

是一套Office2003专业版的精简版,包含常用的Word、Excel、PowerPoint三个应用,使用者甚多。楼主如果有需要,请上电脑在本帖下载我的附件。

ie浏览器异常怎么修复(ie浏览器出现问题怎么办)
  • ie浏览器异常怎么修复(ie浏览器出现问题怎么办)
  • ie浏览器异常怎么修复(ie浏览器出现问题怎么办)
  • ie浏览器异常怎么修复(ie浏览器出现问题怎么办)
  • ie浏览器异常怎么修复(ie浏览器出现问题怎么办)
怎样准备一个带pe的u盘的(带pe系统的u盘)

一、U盘安装系统前期准备:  1、首先需要预备一个空的4G或以上U盘,用来存储启动程序跟系统文件。  2、接着我们需要安装的ghost系统。  3、U盘启动盘制作工具:U盘启动工具  二、U盘启动盘制...

怎样拷贝文件到u盘里(怎么文件拷贝到u盘)

方法/步骤分步阅读1点击安全打开等电脑的桌面中弹出U盘插入成功的提示框之后,点击安全打开,将U盘打开。2点击文件将U盘打开之后,在电脑的桌面中找到需要拷贝的文件,点击鼠标右键等弹出序列。3点击复制弹出...

固态硬盘怎么安装win7(固态硬盘怎么安装在电脑上)
固态硬盘怎么安装win7(固态硬盘怎么安装在电脑上)

1.首选需要找一个4GB以上的U盘2.用来存放Win7的ISO镜像文件。带有光盘标识的即为“光盘映像文件”3.在点击写入之前,一定要确保U盘里面没有任何数据,如果有数据应该及时备份,否则里面的数据将被删除,不过在做完启动盘后,仍然可以向里面...

2025-12-27 13:03 off999

苹果手机忘记密码怎么办(很久没用的苹果手机忘记密码怎么办)

在苹果官网中搜索忘记iphone密码,点击置于恢复模式的链接,根据步骤完成解锁即可,以下是详细的操作步骤:方法/步骤1点击搜索图标网页上搜索进入apple官网,进入官网主页面之后,点击页面上方的放大镜...

win10系统防火墙在哪里设置(windows10的防火墙怎么设置)

Windows10的防火墙设置非常简单。首先,您可以点击“开始”菜单,然后在搜索框中输入“防火墙”来打开防火墙设置。接下来,您可以根据需要为不同的网络(包括公用网络、专用网络和域网络)设置不同的防火...

软件市场下载(软件市场下载安装)

是的,因为酷安已经被下架了,目前在所有手机自带的应用市场下载的酷安都是阉割版本。不仅是酷安,其它应用市场比如腾讯的应用宝目前在手机自带的应用商店全都已经下架了。并且申请上架也会被拒绝,拒绝理由是:“暂...

u盘有东西但是显示文件夹为空

u盘里面有文件,却显示文件夹为空是因为文件被隐藏了,开启方法如下:需要用到的工具有:电脑、U盘。1、打开我的电脑,找到并点击进入U盘,2、在U盘目录里面,点击上方的属性功能。3、在属性页面,把隐藏对勾...

五笔86版输入法下载(86版五笔安装包)

要下载王码五笔86版官方,可以前往官方网站进行下载。安装时,先打开下载的安装文件,按照提示完成安装向导。在安装过程中,可以自定义安装路径,也可以选择安装组件。安装完成后,可以在输入法设置中选择王码五笔...

360游戏中心怎么关闭(360游戏中心怎么关闭自动更新)

1.你把360卸载了,换成QQ管家2.你把360卸载,再安装的时候,别一键安装要,改为自定义安装,在安装过程中,如果有弹出窗口,上面显示360游戏大厅,你把360游戏大厅前面的那个选择口里点一下,里面...

宽带安装哪个便宜(安装宽带哪个好)

我认为光纤宽带是目前最便宜和最好用的选择。1.光纤宽带拥有更高的传输速度和稳定性,可以提供更好的上网体验。相比其他宽带类型,如ADSL和电缆宽带,光纤宽带的速度更快,不容易受到网络拥堵的影响。2....

pubg加速器免费版(pubg加速器免费版无广告)

现在加速吃鸡的游戏加速器是有专线路线的比较好,专线的稳定很多,不过目前是没有完全免费的加速软件,很多都可以先体验,注册就可以体验的,可以多去体验几款,对比一下。目前的加速器可以分为三个等级第一等级:全...

如何用u盘重装电脑系统win7(用u盘怎样重装系统win7)
如何用u盘重装电脑系统win7(用u盘怎样重装系统win7)

u盘怎么装win7系统步骤如下:1、先下载Windows7镜像,根据自己需求选择下载的版本:简化版、家庭基础版、家庭高级版、企业版等。2、下载工具软碟通。直接在搜索引擎中输入“软碟通”,选择合适的下载地址,直接下载安装即可。3、制作系统U...

2025-12-27 08:51 off999

取消回复欢迎 发表评论: