百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python数据分析之爬虫第五练:如何得到我们需要的日期数据?

off999 2024-09-29 16:13 31 浏览 0 评论

问题背景

《Python数据分析第二练:如何用爬虫一次爬取多个页面》给出的例子中,我们对于新闻的日期是通过下面的方式获取得到的。

    page_date = '<span class="c-color.*?aria-label="发布于:(.*?)"'
    date = re.findall(page_date, web, re.S)

对照下网页源代码就会发现,这个日期的格式不是“2022-05-01”的格式,而是“X天前”、“XX时XX分”等进行了转译的内容,可能这么做的原因是想让我们更加懂得“自己动手、丰衣足食”吧~~~

那么,我们怎么搞一哈子才能把日期转换成标准的日期格式呢?以下enjoy~~~

Python datetime库

Dateime库提供了提供用于操作日期和时间的函数类,可通过help(datetime)查看相信信息,有需要的伙伴还是请自行查阅(切记:自己动手、丰衣足食呦)。

import datetime

help(datetime)

其它相关的库还包括:

我们在本文中暂时只对使用到的部分进行简单介绍,详细内容可以根据自己的需求随时深挖。

from datetime import datetime  # 注意前后两个datetime的含义不同,前者是模块,后者是函数类
 
now = datetime.now()
print(now)
print(now.strftime('%a, %b %d %H:%M'))

其中,Python中时间日期格式化符号用法如下:

  • %Y 四位数的年份表示(000-9999)
  • %y 两位数的年份表示(00-99)
  • %m 月份(01-12)
  • %d 月内中的一天(0-31)
  • %H 24小时制小时数(0-23)
  • %I 12小时制小时数(01-12)
  • %M 分钟数(00-59)
  • %S 秒(00-59)
  • %a 本地简化星期名称
  • %A 本地完整星期名称
  • %b 本地简化的月份名称
  • %B 本地完整的月份名称
  • %c 本地相应的日期表示和时间表示
  • %j 年内的一天(001-366)
  • %p 本地A.M.或P.M.的等价符
  • %U 一年中的星期数(00-53)星期天为星期的开始
  • %w 星期(0-6),星期天为星期的开始
  • %W 一年中的星期数(00-53)星期一为星期的开始
  • %x 本地相应的日期表示
  • %X 本地相应的时间表示
  • %Z 当前时区的名称
  • %% %号本身

在我们的案例中,由于日期信息获取的为“X天前”等形式,这就还需要进行日期之间的间隔计算,这需要使用到datetime中的timedelta类。

from datetime import datetime,  timedelta
 
now = datetime.now()
print(now)
 
cur_time1 = now + timedelta(hours=10)
print(cur_time1)
 
cur_time2 = now - timedelta(days=1)
print(cur_time2)
 
cur_time3 = now + timedelta(days=2, hours=12)
print(cur_time3)

上面的两个内容是我们在案例学习中主要涉及到的,其它的部分就不做过多赘述。

案例代码

对应到我们的第二讲案例,需要把date转换成标准的日期,具体的代码如下:

page_date = '<span class="c-color.*?aria-label="发布于:(.*?)"'
date = re.findall(page_date, page, re.S)

print(date)

if ('天前' in date[0]):
    date[0] = (now - timedelta(days=int(date[0][0]))).strftime('%Y-%m-%d %H:%M')
else:
    date[0]

print(date[0])

一起练习吧

最后,又到了激动人心的一起思考一起练环节,伙伴们,动动脑、动动手,“咯滴咯滴,咯滴咯滴,咯滴咯滴,啊哩斯呔哩”~~~

欢迎交流和讨论。

相关推荐

国产linux操作系统(国产linux操作系统有什么版本)

中国对于操作系统的探索其实并不晚。  早在20世纪60年代中期中国就开始操作系统的研发,那时的比尔·盖茨还只是个迷恋计算机的小字辈,南京大学教授孙钟秀、北京大学杨芙清院士等都是我国操作系统的拓荒者...

免费无需排队的云电脑(不需要排队的云电脑)

目前市场上有一些云游戏平台提供无限时长且无需排队的服务。这些平台通常采用先进的云计算技术和高性能服务器,能够提供稳定流畅的游戏体验。用户可以随时登录并畅玩游戏,无需等待排队。这些平台还提供多种游戏选择...

视频播放器下载量排名(2020视频播放器排行榜)
  • 视频播放器下载量排名(2020视频播放器排行榜)
  • 视频播放器下载量排名(2020视频播放器排行榜)
  • 视频播放器下载量排名(2020视频播放器排行榜)
  • 视频播放器下载量排名(2020视频播放器排行榜)
wps官方下载(wps官方下载官网电脑版网址)

具体的步骤如下:1、首先在电脑上打开浏览器,在浏览器中输入“WPS”,找到WPS官方网站。2、接下来进入WPS官方网站中,找到WPS软件,点击“免费下载”。3、点击下载后在弹出来的对话框中修改下载位置...

win vista与win7有什么区别(win7与vista关系)

WindowsVista和Windows7是微软公司推出的两个桌面操作系统,它们之间有以下主要区别:1.界面设计:Windows7的界面设计更加简洁明了,而WindowsVista的界面...

winxp系统版本(winxp 版本)

1、微软官方3个版本:WINDOWSXPHOME(家庭版)、Professional(专业版)、MediaCenter2005(媒体中心版),每个版本的功能不一样。使用最多的是Professional...

打印机无法共享怎么回事(打印机无法共享出去)

共享打印机无法打印原因一:可能是由于病毒死机解决方法:确定是否由于病毒死机,找一张干净(确信无病毒)的系统盘,从A驱动舒上启动电脑,检查此时打印机和主机能否联机。如果正常联机,估计这种故障是由攻击硬件...

ipv6无网络访问权限怎么解决

ipv6无网络访问权限解决方法如下1、点击电脑左下角的开始,进入到开始的菜单栏,在菜单栏中找到“运行”。或者通过快捷键Windows+R打开运行窗口。  2、打开运行的窗口页面后,在页面上输入“CMD...

office ltsc版(Office LTSC版本区别)

office2021和2021ltsc的区别如下:1.更新策略不同。前者采用每个月月度更新的方法,提供功能更新、安全更新。后者不采用每个月月度更新的方法,且不提供功能更新。2.界面不同。2021采用了...

安装win7需要激活吗(现在安装win7旗舰版还需密钥吗)

要激活  Windows7如果是预装在计算机中的,买来之后便不用激活,这里预装指的是在厂商那里。正版的Windows7安装到计算机中,有三十天的试用期,若要永久使用,就要使...

originos 3升级计划公布(originos升级包)

2023年2月。1.OriginOS3.0系统第一批升级时间为11月25日。2、包含iQOONeo7,X80系列,S15系列,iQOO9、iQOO10系列,以及折叠屏XFold系列和大屏XNo...

鸿蒙系统适配第三方机型(鸿蒙 第三方适配)

最新华为官方公布了鸿蒙系统3.0支持的机型名单,具体如下。鸿蒙系统3.0升级名单:1.Mate系列:MateXs2、MateX2、MateXs、Mate40、Mate40Pro、Mate...

imei怎么下载(imei changer apk)

如果您的steam序列号激活了,可以尝试以下方法下载:1.使用steam自带的下载工具,如“下载工具”,在软件的“下载”选项卡中选择“序列号下载”。2.在下载页面中,选择要下载的游戏,然后点击“下...

电脑系统优化软件哪个好(系统优化软件排行榜)

有必要用,非常好用,WINDOWS优化大师是一个网络上下载率极高的系统维护软件。多年未曾清理过系统和硬盘的电脑,系统内部将产生大量的垃圾文件、临时文件、废旧程序等等win10系统不需要经常更新,关闭...

重装系统后硬盘不见了(重装系统后磁盘不见了)

硬盘不见可能是因为重装系统时未正确安装驱动程序或未对硬件进行正确设置。你可以按以下步骤排查问题:进入BIOS检查硬盘是否被识别,尝试重新连接数据线和电源线,更新或安装适当的硬件驱动程序,或者使用硬件故...

取消回复欢迎 发表评论: