百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫(网页重定向怎么破?)(python网页爬虫案例)

off999 2024-10-02 18:50 46 浏览 0 评论


*****声明:此实例仅用于学习 *****

1.网页重定向 。

在分析房天下网站,不难发现每个网页有个重定向,比如:访问网页https://cd.esf.fang.com/chushou/3_211293494.htm会跳转至https://cd.esf.fang.com/chushou/3_211293494.htm?rfss=1-b71f212cbb874a451c-3a 这个网页,其实两个地址打开的是同一个网页

解决方法:在原网页源代码中找到重定向网址,request 新网址即可。

response=requests.get(url,headers = headers)

html=response.text

#网页重定向

pat=re.compile(r'<a class="btn-redir".*?href="(.*?)">点击跳转')

url=re.findall(pat,html)[0]

response=requests.get(url,headers = headers)

return response.text

2.bs4获取标签内容,部分代码

BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据,Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。网上相关文章和介绍很多,不在此啰嗦。

temp_dict['房源']=soup.find('title').string

temp_dict['小区'] = soup.find('div',id="xq_message").get_text()

temp_dict['总价']=soup.find('div',class_="tab-cont-right").find('div',class_="trl-item price_esf sty1").get_text()

3.将数据保存在csv文件中。

我们将获取房源信息的数据保存在一个temp_dict字典中,然后我们定义一个函数传入一个列表(表头用)和字典数据,就可以将数据保存在CSV文件中啦。

def save_data_csv(keyword_list,dict_data):

if not os.path.exists('fang.csv'):

with open('fang.csv', "w", newline='', encoding='utf-8') as csvfile: # newline='' 去除空白行

writer = csv.DictWriter(csvfile, fieldnames=keyword_list) # 写字典的方法

writer.writeheader() # 写表头的方法

# 接下来追加写入内容

with open('fang.csv', "a", newline='', encoding='utf-8') as csvfile: # newline='' 一定要写,否则写入数据有空白行

writer = csv.DictWriter(csvfile, fieldnames=keyword_list)

writer.writerow(dict_data) # 按行写入数据

print("^_^ write success")

4.完整代码

感觉写的还是有点啰嗦。

import re,requests,time,os

from bs4 import BeautifulSoup

from lxml import etree

import json

import csv

def get_html(url):

headers={

'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36',

'cookie':'city=cd; __utma=147393320.989730142.1589024416.1589024416.1589024416.1; __utmc=147393320; __utmz=147393320.1589024416.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; global_cookie=9ekumblkqetgf7unt5iefiegk1nk9zk41by; logGuid=08b2183e-66fd-4851-8c49-20b9c55f4562; Integrateactivity=notincludemc; csrfToken=ZEhmg2XlXN8rivcJcEqBk4FO; budgetLayer=1%7Ccd%7C2020-05-09%2019%3A41%3A50; g_sourcepage=esf_fy%5Exq_pc; lastscanpage=0; __utmb=147393320.15.10.1589024416; unique_cookie=U_9ekumblkqetgf7unt5iefiegk1nk9zk41by*4',

'authority': 'cd.esf.fang.com',

'path': '/staticsearchlist/EsfListAjax/GetAIDaoGou?pagesize=5',

}

response=requests.get(url,headers = headers)

html=response.text

#网页重定向

pat=re.compile(r'<a class="btn-redir".*?href="(.*?)">点击跳转')

url=re.findall(pat,html)[0]

response=requests.get(url,headers = headers)

return response.text

#print(html)

def get_fang_url(html):

soup = etree.HTML(html)

urls = soup.xpath('//dd/h4[@class="clearfix"]/a/@href')

return urls

def save_data_csv(keyword_list,dict_data):

if not os.path.exists('fang.csv'):

with open('fang.csv', "w", newline='', encoding='utf-8') as csvfile: # newline='' 去除空白行

writer = csv.DictWriter(csvfile, fieldnames=keyword_list) # 写字典的方法

writer.writeheader() # 写表头的方法

# 接下来追加写入内容

with open('fang.csv', "a", newline='', encoding='utf-8') as csvfile: # newline='' 一定要写,否则写入数据有空白行

writer = csv.DictWriter(csvfile, fieldnames=keyword_list)

writer.writerow(dict_data) # 按行写入数据

print("^_^ write success")

def parse_page(url,html):

#去除网页html里面的换行,以便更好的获取数据

html = "".join(line.strip() for line in html.split("\n"))

#定义一个字典

temp_dict={}

soup=BeautifulSoup(html,'lxml')

#采集房源信息

temp_dict['房源']=soup.find('title').string

temp_dict['小区'] = soup.find('div',id="xq_message").get_text()

temp_dict['总价']=soup.find('div',class_="tab-cont-right").find('div',class_="trl-item price_esf sty1").get_text()

temp_dict['户型']=soup.find('div',class_="trl-item1 w146").find('div',class_="tt").get_text()

temp_dict['建筑面积'] = soup.find('div', class_="trl-item1 w182").find('div', class_="tt").get_text()

temp_dict['单价'] = soup.find('div', class_="trl-item1 w132").find('div', class_="tt").get_text()

temp_dict['详情页'] = url

temp_dict['经纪人'] = soup.find('a',id="kesfsfbxq_A01_03_03").get_text()

print(temp_dict)

keyword_list=['房源','小区','总价','户型','建筑面积','单价','详情页','经纪人']

save_data_csv(keyword_list,temp_dict)

#主函数

if __name__ == '__main__':

#构造网址序列

urls=['https://cd.esf.fang.com/house-a016749-b014906/i{}'.format(i) for i in range(1,101)]

for url in urls:

#获取单页数据

html = get_html(url)

#获取单页上房源的链接

new_urls = get_fang_url(html)

for url in new_urls:

new_url = 'https://cd.esf.fang.com' + url

#获取HTML

html = get_html(new_url)

#解析网页,保存数据

parse_page(new_url,html)

#防止被禁IP,每访问完一页,睡眠5秒

time.sleep(5)

5.获取数据截图


相应的数据就get到了。

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: