用Python导入数据方法汇总(如何用python导入数据)
off999 2024-10-04 00:20 52 浏览 0 评论
Python可以使用各种各样的文件作为数据源:
- flat files?—?csv, txt, tsv etc.
- pickled files
- excel spreadsheets
- SAS and Stata files
- HDF5
- MATLAB
- SQL databases
- web pages
- API
Flat files
平面文件--txt,csv - 很简单,可以使用numpy或pandas导入。
numpy.recfromcsv - 加载存储在逗号分隔文件中的ASCII数据。返回的数组是一个记录数组(如果usemask = False)或masked记录数组(如果usemask = True)。Python示例代码:
data = np.recfromcsv(file)
numpy.loadtxt - 此函数旨在成为简单格式化文件的快速阅读器。该genfromtxt函数提供了更复杂的处理,例如,缺失值的行。
data = np.loadtxt('file.csv', delimiter=',', skiprows=1, usecols=[0,2])
numpy.genfromtxt - 从文本文件加载数据,并按指定处理缺失值。是更复杂的函数,有很多参数来控制你的导入。
data = np.genfromtxt('titanic.csv', delimiter=',', names=True, dtype=None)
使用pandas更容易 - 一行,你准备好DataFrame中的文件。还支持可选地将文件迭代或分解为块。
data = pd.read_csv(file, nrows=5, header=None, sep='\t', comment='#', na_values='Nothing')
Pickle
它用于序列化和反序列化Python对象结构。可以对python中的任何对象进行pickle,以便将其保存在磁盘上。pickle的作用是在将对象写入文件之前先将其“序列化”。Pickling是一种将python对象(list,dict等)转换为字符流的方法。这个想法是这个字符流包含在另一个python脚本中重建对象所需的所有信息。下面的代码将打印一个在某处创建并存储在文件中的字典 - 非常酷,不是吗?
import pickle
with open('data.pkl', 'rb') as file:
d = pickle.load(file)
print(d)
Excel
与pandas.read_excel将Excel表读入panda DataFrame中,并进行了大量的自定义导入数据,这个函数的文档很清楚,你可以用Excel文件做任何你想做的事情。
df = pd.read_excel('file.xlsx', sheet_name='sheet1')
SAS和Stata
SAS代表统计分析软件。SAS数据集包含组织为观察(行)和变量(列)表的数据值。要打开此类文件并从中导入数据,请看下面的Python代码示例:
from sas7bdat import SAS7BDAT
with SAS7BDAT('some_data.sas7bdat') as file:
df_sas = file.to_data_frame()
Stata是一款强大的统计软件,可以让用户分析、管理和生成数据的图形化可视化。它主要被经济学、生物医学和政治学领域的研究人员用于研究数据模式。存储在.dta文件中的数据,导入它的最好方法是pandas.read_stata
df = pd.read_stata('file.dta')
HDF5
分层数据格式(HDF)是一组文件格式(HDF4, HDF5),用于存储和组织大量数据。HDF5是一个独特的技术套件,可以管理非常大和复杂的数据集合。HDF5简化了文件结构,只包含两种主要类型的对象:
- Datasets,是同构类型的多维数组
- Groups,它是可以容纳数据集和其他组的容器结构
这就产生了一种真正的层次化、文件系统式的数据格式。实际上,HDF5文件中的资源甚至可以使用类似/ path / to / resource访问HDF5文件中的资源。元数据以用户定义的、附加到Groups和Datasets的命名属性的形式存储。然后,可以使用数据集、组和属性构建表示图像和表的更复杂的存储api。
要导入HDF5文件,我们需要h5py库。下面的Python代码示例使我更轻松,完全可以理解。
import h5py
# Load file:
data = h5py.File('file.hdf5', 'r')
# Print the keys of the file
for key in data.keys():
print(key)
# Now when we know the keys we can get the HDF5 group
group = data['group_name']
# Going one level deeper, check out keys of group
for key in group.keys():
print(key)
# And so on and so on
MATLAB
很多人使用MATLAB并将数据存储在.mat文件中。那些文件是什么?这些文件包含在MATLAB工作空间中分配给它们的变量和对象列表。将它作为字典导入Python并不奇怪,其中键是MATLAB变量和值 - 分配给这些变量的对象。要编写和读取MATLAB文件,请使用scipy.io包。
import scipy.io
mat = scipy.io.loadmat('some_project.mat')
print(mat.keys())
关系数据库
使用驱动程序连接到数据库,我们可以直接从那里获取数据。通常它意味着:创建连接,连接,运行查询,获取数据,关闭连接。它可以一步一步地完成,但在pandas 中只需要sqlalchemy包创建的连接。下面是连接到sqlite数据库引擎并从中获取数据的示例:
from sqlalchemy import create_engine
import pandas as pd
# Create engine
engine = create_engine('sqlite:///localdb.sqlite')
# Execute query and store records in DataFrame
df = pd.read_sql_query("select * from table", engine)
来自Web的数据
首先,如果我们有一个文件的URL,我们可以使用标准的pandas.read_csv / pandas.read_excel函数在参数“file =”中指定它
df = pd.read_csv('https://www.example.com/data.csv', sep=';')
除此之外,要从Web获取数据,我们需要使用HTTP协议,特别是GET方法。并且requests 包做了这个令人难以置信的工作。要从requests.get收到的响应中访问文本,我们只需要使用方法.text。
import requests
r = requests.get('http://www.example.com/some_html_page')
print(r.text)
r.text将为我们提供一个包含所有html标签的网页 - 不是很有用,不是吗?我们有一个BeautifulSoup包,可以解析HTML并提取我们需要的信息,在本例中是所有超链接(继续前面的例子):
from bs4 import BeautifulSoup
html_doc = r.text
# Create a BeautifulSoup object from the HTML
soup = BeautifulSoup(html_doc)
# Find all 'a' tags (which define hyperlinks)
a_tags = soup.find_all('a')
# Print the URLs to the shell
for link in a_tags:
print(link.get('href'))
API
在计算机编程中,应用程序编程接口(API)是一组子例程定义,通信协议和用于构建软件的工具。一般而言,它是一组明确定义的各种组件之间的通信方法。有许多不同的API,首先必须做的是检查文档,但事实是几乎所有API都以JSON格式返回数据。requests 包将再次帮助我们。(我们必须发送HTTP GET请求以从API获取数据)。
import requests
r = requests.get('https://www.example.com/some_endpoint')
# Decode the JSON data into a dictionary:
json_data = r.json()
# Print each key-value pair in json_data
for k in json_data.keys():
print(k + ': ', json_data[k])
我们可以看到,数据无处不在,我们必须知道获取它的所有方法
相关推荐
- 安全教育登录入口平台(安全教育登录入口平台官网)
-
122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...
- 大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)
-
大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...
-
- 哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
-
要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...
-
2026-02-04 09:03 off999
- 电信宽带测速官网入口(电信宽带测速官网入口app)
-
这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...
- 植物大战僵尸95版手机下载(植物大战僵尸95 版下载)
-
1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...
- 免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)
-
1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...
- 2025世界杯赛程表(2025世界杯在哪个国家)
-
2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...
- 下载搜狐视频电视剧(搜狐电视剧下载安装)
-
搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...
- 永久免费听歌网站(丫丫音乐网)
-
可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...
- 音乐格式转换mp3软件(音乐格式转换器免费版)
-
有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...
- 电子书txt下载(免费的最全的小说阅读器)
-
1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...
- 最好免费观看高清电影(播放免费的最好看的电影)
-
在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...
- 孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)
-
要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
win7系统还原步骤图解(win7还原电脑系统的步骤)
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
16949认证费用是多少(16949审核员太难考了)
-
linux软件(linux软件图标)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
windows7旗舰版多少钱(win7旗舰版要多少钱)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
