百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

手把手教你利用python代码快速获取双色球历史数据(附源码)

off999 2025-04-27 15:34 11 浏览 0 评论

一、windows安装python环境

1、打开浏览器,在搜索框中输入Python,进入到Python的官网中。


2、在Python官网中进入Downloads菜单栏,我们选择windows版本


3、下载对应的Python安装包


4、找到下载的Python包,双击安装



5、cmd命令验证是否安装成功


至此,Python安装完成

6、安装Python依赖库

cmd直接运行命令pip install requests beautifulsoup4 openpyxl


二、编写代码

1、桌面新建文件夹test,文件夹内新建文件test.py。

2、复制代码到test.py中(代码私信获取)

import requests

from bs4 import BeautifulSoup

from openpyxl import Workbook

import concurrent.futures

import re

import time

import random


# 初始化工作簿

wb = Workbook()

ws = wb.active

ws.append(['期号', '开奖日期', '红球1', '红球2', '红球3', '红球4', '红球5', '红球6', '蓝球'])


# 配置中心(动态适配)

CONFIG = {

'BASE_URL': 'https://kaijiang.zhcw.com/zhcw/html/ssq/list_%d.html',

'HEADERS': {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',

'Accept-Language': 'zh-CN,zh;q=0.9',

'Connection': 'keep-alive'

},

'MAX_WORKERS': 20,

'RETRIES': 3,

'DELAY_RANGE': (0.1, 0.3),

'PAGINATION_SELECTORS': [

'p.pg',

'div.pagination',

'nav.pagination'

],

'PAGE_PATTERN': re.compile(r'pageNum=(\d+)'),

'TABLE_SELECTORS': [

'table.wqhgt',

'table.lottery-table'

]

}


def get_valid_pages():

"""智能分页解析(动态适配不同网页结构)"""

try:

response = requests.get(CONFIG['BASE_URL'] % 1, headers=CONFIG['HEADERS'], timeout=10)

print(f"请求状态码: {response.status_code}")

print(f"请求内容(前500字符): {response.text[:500]}")

response.raise_for_status()

soup = BeautifulSoup(response.text, 'html.parser')


# 尝试所有分页选择器

pagination = None

for selector in CONFIG['PAGINATION_SELECTORS']:

pagination = soup.select_one(selector)

if pagination:

print(f"找到分页区域,选择器为: {selector}")

print(f"分页区域完整HTML内容: {pagination.prettify()}")

break


if not pagination:

print("未找到分页区域,默认返回1页")

return [1]


# 提取总页数

total_pages_text = pagination.find_all('strong')[0].get_text(strip=True)

try:

total_pages = int(total_pages_text)

except ValueError:

print("无法提取总页数,默认返回1页")

return [1]


# 生成完整的页码列表

pages = list(range(1, total_pages + 1))

print(f"生成完整页码列表: {pages}")

return pages


except Exception as e:

print(f"分页解析错误: {str(e)}")

return [1]


def download_page(page):

"""带智能重试的页面下载"""

url = f'https://kaijiang.zhcw.com/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum={page}'

for retry in range(CONFIG['RETRIES']):

try:

time.sleep(random.uniform(*CONFIG['DELAY_RANGE']))


response = requests.get(url, headers=CONFIG['HEADERS'], timeout=10)

print(f"页面 {page} 请求状态码: {response.status_code}")

print(f"页面 {page} 请求内容(前500字符): {response.text[:500]}")

response.raise_for_status()


soup = BeautifulSoup(response.content, 'html.parser')

table = None

for selector in CONFIG['TABLE_SELECTORS']:

table = soup.select_one(selector)

if table:

print(f"页面 {page} 找到表格,选择器为: {selector}")

break


if not table:

# 打印所有表格,辅助定位

all_tables = soup.find_all('table')

print(f"页面 {page} 未找到表格数据,页面上共有 {len(all_tables)} 个表格:")

for idx, tbl in enumerate(all_tables):

print(f"表格 {idx + 1} 内容(前200字符): {tbl.text[:200]}")

return []


return parse_table(table)


except Exception as e:

print(f"页面 {page} 重试 {retry + 1}/{CONFIG['RETRIES']}: {str(e)}")


return []


def parse_table(table):

"""鲁棒的数据解析(处理结构变化)"""

data = []

for row in table.find_all('tr')[1:]:

tds = row.find_all('td')

if len(tds) < 3:

continue


try:

cells = [td.get_text(strip=True) for td in tds[:3]]

if len(cells) < 3:

continue


issue, date = auto_detect_issue_date(cells)

balls = []

# 尝试不同的球号提取方式

em_tags = tds[2].find_all('em')

if em_tags:

balls = [em.get_text(strip=True) for em in em_tags]

else:

balls = cells[2].split()


if len(balls) == 7:

data.append([issue, date] + balls[:6] + [balls[6]])


except Exception as e:

print(f"行解析错误: {str(e)}")


return data


def auto_detect_issue_date(cells):

"""智能检测期号和日期(处理列顺序变化)"""

for i, cell in enumerate(cells):

if re.match(r'\d{4}-\d{2}-\d{2}', cell):

date = cell

issue = cells[(i + 1) % 3]

return issue, date

return cells[0], cells[1]


def main():

start_time = time.time()

total_rows = 0

all_data = []


# 智能分页解析(支持结构变化)

pages = get_valid_pages()

total_pages = max(pages) if pages else 1

print(f"检测到有效页数: {total_pages} 页,具体页码: {pages}")


# 并发下载(线程池)

with concurrent.futures.ThreadPoolExecutor(max_workers=CONFIG['MAX_WORKERS']) as executor:

futures = {executor.submit(download_page, page): page for page in pages}


for future in concurrent.futures.as_completed(futures):

data = future.result()

all_data.extend(data)

for row in data:

total_rows += 1

print(f"页面 {futures[future]} 完成: {len(data)} 条")


# 按日期降序排序

all_data.sort(key=lambda x: x[1], reverse=True)


# 将排序后的数据写入 Excel

for row in all_data:

ws.append(row)


# 保存文件

try:

wb.save('双色球历史数据.xlsx')

print(f"\n操作完成!共获取 {total_rows} 条数据(表头1行)")

except PermissionError:

print("错误:请关闭已打开的Excel文件后重试")

finally:

wb.close()


# 性能报告

if time.time() - start_time > 0:

print(f"耗时: {time.time() - start_time:.2f} 秒 | 速度: {total_rows / (time.time() - start_time):.1f} 条/秒")

else:

print("耗时过短,无法计算速度。")


if __name__ == '__main__':

main()



3、右击桌面test文件夹,选择在终端中打开。

4、运行命令python test.py,几秒钟后会在test文件夹中生成一个名为“双色球历史数据.xlsx”的文件,即为爬到的双色球历史数据,

三、总结

1、该代码生成的 Excel 文件中的数据将按日期降序排列。

2、大大缩短时间,并发下载。提高效率。

3、动态适配页面。

4、防止反爬。

作者观点:好多网友认为获取到这个数据没什么意义。能获取到本期未开奖的号码才是牛逼。个人认为获取这个数据:1 是让大家了解下python爬虫的技术,可以慢慢掌握这个技能,举一反三,在生活学习中提高工作效率。2 是个人认为双色球是一个统计学,不是概率学,什么是统计学,就是哪组号码买的人少,主任开哪组,并不是有了这些数据,根据哪些号码长期没开,下次就一定会开,每期开奖的号码都是一次独立性事件,上次的开奖结果并不会影响下期的开奖号码。最后,祝大家好运,好好学习python技术。人人中大奖。

#python##双色球分析#

相关推荐

python gui编程框架推荐以及介绍(python gui开发)

Python的GUI编程框架有很多,这里为您推荐几个常用且功能强大的框架:Tkinter:Tkinter是Python的标准GUI库,它是Python内置的模块,无需额外安装。它使用简单,功能较为基础...

python自动化框架学习-pyautogui(python接口自动化框架)

一、适用平台:PC(windows和mac均可用)二、下载安装:推荐使用命令行下载(因为会自动安装依赖库):pipinstallPyAutoGUI1该框架的依赖库还是蛮多的,第一次用的同学耐心等...

Python 失宠!Hugging Face 用 Rust 新写了一个 ML框架,现已低调开源

大数据文摘受权转载自AI前线整理|褚杏娟近期,HuggingFace低调开源了一个重磅ML框架:Candle。Candle一改机器学习惯用Python的做法,而是Rust编写,重...

Flask轻量级框架 web开发原来可以这么可爱呀~(建议收藏)

Flask轻量级框架web开发原来可以这么可爱呀大家好呀~今天让我们一起来学习一个超级可爱又实用的PythonWeb框架——Flask!作为一个轻量级的Web框架,Flask就像是一个小巧精致的工...

Python3使用diagrams生成架构图(python架构设计)

目录技术背景diagrams的安装基础逻辑关系图组件簇的定义总结概要参考链接技术背景对于一个架构师或者任何一个软件工程师而言,绘制架构图都是一个比较值得学习的技能。这就像我们学习的时候整理的一些Xmi...

几个高性能Python网络框架,高效实现网络应用

Python作为一种广泛使用的编程语言,其简洁易读的语法和强大的生态系统,使得它在Web开发领域占据重要位置。高性能的网络框架是构建高效网络应用的关键因素之一。本文将介绍几个高性能的Python网络框...

Web开发人员的十佳Python框架(python最好的web框架)

Python是一种面向对象、解释型计算机程序设计语言。除了语言本身的设计目的之外,Python的标准库也是值得大家称赞的,同时Python还自带服务器。其它方面,Python拥有足够多的免费数据函数库...

Diagram as Code:用python代码生成架构图

工作中常需要画系统架构图,通常的方法是通过visio、processon、draw.io之类的软件,但是今天介绍的这个软件Diagrams,可以通过写Python代码完成架构图绘制,确实很co...

分享一个2022年火遍全网的Python框架

作者:俊欣来源:关于数据分析与可视化最近Python圈子当中出来一个非常火爆的框架PyScript,该框架可以在浏览器中运行Python程序,只需要在HTML程序中添加一些Python代码即可实现。该...

10个用于Web开发的最好 Python 框架

Python是一门动态、面向对象语言。其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性。除了语言本身的设计目的之外,Python标准库也是值得大家称赞的,Python甚至还...

使用 Python 将 Google 表格变成您自己的数据库

图片来自Shutterstock,获得FrankAndrade的许可您知道Google表格可以用作轻量级数据库吗?GoogleSheets是一个基于云的电子表格应用程序,可以像大多数数据库管...

牛掰!用Python处理Excel的14个常用操作总结!

自从学了Python后就逼迫用Python来处理Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。这也是我写这篇文章的初衷。废话不说了,直接进入正题。数据是网上找到的...

将python打包成exe的方式(将python文件打包成exe可运行文件)

客户端应用程序往往需要运行Python脚本,这对于那些不熟悉Python语言的用户来说可能会带来一定的困扰。幸运的是,Python拥有一些第三方模块,可以将这些脚本转换成可执行的.exe...

对比Excel学Python第1练:既有Excel,何用Python?

背景之前发的文章开头都是“Python数据分析……”,使得很多伙伴以为我是专门分享Python的,但我的本意并非如此,我的重点还是会放到“数据分析”上,毕竟,Python只是一种工具而已。现在网上可以...

高效办公:Python处理excel文件,摆脱无效办公

一、Python处理excel文件1.两个头文件importxlrdimportxlwt其中xlrd模块实现对excel文件内容读取,xlwt模块实现对excel文件的写入。2.读取exce...

取消回复欢迎 发表评论: