Python实战分析:获取数据(python获取数据库中的数据)
off999 2024-10-26 12:08 34 浏览 0 评论
这是 利用Excel学习Python 系列的第8篇文章
想用一个完整的案例讲解Python数据分析的整个流程和基础知识,实际上以一个数据集为例,数据集是天池上的一个短租数据集。
先来想一下数据分析的流程,第一步获取数据,因此本节内容就是获取数据以及对数据的基本操作。
1.数据导入
1.1 导入.xlsx文件
要导入一个.xlsx后缀的Excel文件,可以使用pd.read_excel(路径)方法
# 导入.xlsx文件
df_review = pd.read_excel(r"D:\个人\data\reviews.xlsx")
df_review结果:
df_review数据包含了两个字段,listing_id和date
读入数据时必不可少的参数就是路径,不同的操作系统下文件路径的写法也不同,通常windows操作系统下关于路径有两种写法:
- 反斜杠“ \ ”:右键点击这个文件,选择属性,可以看到它所在的位置,默认是使用 \ 来表示,由于反斜杠“\”在Python中被定义为转义符号,因此在写的时候就要在路径的最前方加一个转义符 r,r"D:\个人\data\reviews.xlsx"
- 斜杠“ / ”:不需要加r,全部用 / 来写:"D:/个人/data/reviews.xlsx"两种方式看个人习惯吧。
sheet_name 参数
对于.xlsx文件来说,可能会存在多个sheet表,因此也可以设置sheet_name参数指定导入的sheet表,可以传入sheet表的名字,也可以按照从0递增的顺序来指定,不指定sheet表则默认第一个sheet.
# 指定Sheet表
df_review = pd.read_excel(r"D:\个人\data\reviews.xlsx",sheet_name = 0) # 指定名字或顺序
df_review1.2 导入.csv文件
导入.csv格式的文件使用pd.read_csv(路径)的方法
# 导入csv文件
df_list = pd.read_csv(r"D:\个人\data\listings.csv")
df_list结果:
df_list数据主要包括:房东ID、房东姓名、经纬度、房间类型、价格、最小可租天数、评论数量、最后一次评论时间、每月评论占比、可出租房屋、每年可出租时长等字段
指定编码格式
对于.csv文件有个重要的知识点,就是编码格式,尤其是在导入文件的时候,需要了解文件的编码格式,以免出现乱码,那么如何知道文件是什么类型的编码呢?用notepad++软件打开,右下角会显示该文件的编码格式,如刚刚导入的listings.csv文件,是utf-8编码,在书写编码时,大小写通用,且utf-8也可以写成utf8.
可以用encoding参数来设置编码格式,Python默认的编码格式是utf-8。
中文乱码问题
对于文件路径中因为出现中文而导致的乱码问题,可以加入参数engine来避免。
# 避免出现乱码
df_list = pd.read_csv(r"D:\个人\data\listings.csv",engine = "python")
df_list结果:
指定行索引
不指定行索引的话,从0开始递增的一列作为行索引,也可以指定id一列为行索引,传入参数index_col
# 指定行索引
df_list = pd.read_csv(r"D:\个人\data\listings.csv",index_col = "id")
df_list.head()结果:可以看到,id列成了行索引列。
指定列索引
默认第一行是列索引,也可以指定,使用header参数,header = 0,表示指定第一行为列索引。
# 指定列索引
df_list = pd.read_csv(r"D:\个人\data\listings.csv",header = 0)
df_list.head()结果:
指定导入列
有时候我们希望只导入指定的列即可,那么就传入usecols参数
# 指定导入1、4列
df_list = pd.read_csv(r"D:\个人\data\listings.csv",usecols = [0,3])
df_list.head()结果:
2.对数据的基本操作
导入数据后,需要对数据进行一个大概的了解,比如数据集有几行几列,每个字段的数据类型是什么,有无空值等。
预览
不必完全跑出数据,只需看下前几行,用head方法,得到的是前5行数据
# 预览数据
df_list = pd.read_csv(r"D:\个人\data\listings.csv")
df_list.head()结果:
head()里也可传入数字,如预览前10行数据
# 预览数据
df_list = pd.read_csv(r"D:\个人\data\listings.csv")
df_list.head(10)查看数据维度
数据集有几行几列,用shape
# 查看数据集维度
df_list.shape结果:可以看到df_list数据集有28452行,16列
查看数据类型
使用dtypes可以查看数据集所有字段的数据类型
# 数据类型
df_list.dtypes结果:
也可以单独查看某一个字段的数据类型
# 单独查看某个字段的数据类型
df_list["host_id"].dtypes结果:
@ 作者:可乐
@ 公众号/知乎专栏/头条/简书:可乐的数据分析之路
@ 加微信(data_cola)备注:进群,拉你进可乐的数据分析交流群,数据分析知识总结,不定期行业经验分享
相关推荐
- office2010家庭和学生版密钥
-
1.MicrosoftExcel2010家庭版的产品密钥是需要购买正版软件时提供的一串字符序列。2.这是为了确保用户使用正版软件,并且能够享受到软件的全部功能和服务。3.为了获得Micros...
- 16949认证费用是多少(16949审核员太难考了)
-
需要参加培训和考试,培训和考试是需要收费的,一般在300到500左右。内审员证书一般3年有效(因为标准是会更改的,更改标准则需要从新培训)大多数由企业组织人员参加培训。费用由企业承担,个人学这个的还是...
-
- mba是什么意思(长江商学院emba是什么意思)
-
工商管理硕士(MBA)是工商管理类硕士研究生学位,MBA是培养能够胜任工商企业和经济管理部门高层管理工作需要的务实型、复合型和应用型高层次管理人才,兼具理论与实践相结合,而其他硕士研究生只是培养科研型和教学型人才,偏向理论,不参与实践。MB...
-
2026-01-14 07:51 off999
- mdf文件游戏怎么安装(win10mdf文件游戏怎么安装)
-
朋友,应该还有一个只有几K的KuaiZipMount.mds文件吧?请确保这两个文件在同一个目录中然后用Daemontools等虚拟光驱软件,载入其中的mds文件之后进入虚拟光驱所在盘符执行...
- c盘莫名其妙的满了怎么办(c盘莫名其妙的满了怎么办windows)
-
当C盘突然满了,首先需要找到原因。可能是因为系统更新或安装了大量软件,也可能是因为存在大量垃圾文件或临时文件。可以通过清理垃圾文件、卸载无用软件、更改默认下载路径等方式来释放C盘空间。另外,可以考虑将...
- 电脑如何修改默认浏览器(电脑上怎样修改默认浏览器)
-
1、按下“windows+i”快捷键打开Windows设置,在设置界面选择系统。2、在系统里左边点击默认程序一项,右边会出现新的选项来。3、右边滚动鼠标滑轮下拉,点击web默认程序,点击选择想要默认打...
- 如何下载youtube视频(如何下载youtube视频2160p)
-
这个可以在应用宝中下载,就是在手机上下载一个应用宝,然后在搜索栏里输入软件名字,点击搜索,根据提示下载就可以了。将视频下载到电脑上有几种途径,如果是网络上的,可以下载的视频会设置有下载标记或按钮,点...
- 深度国际2025最新一期视频(今日关注最新一期的)
-
1、就算不快乐也不要皱眉,因为你永远不知道谁会爱上你的笑容。2、踏入社会的时候,不要什么话都跟别人讲,你说的是心里话,别人听的是笑话。3、该扔的就扔,该放弃就放弃,从今天起,余生做个俗人,以自己最好的...
- 华为最新系统版本(华为最新系统版本微信)
-
鸿蒙3.0。鸿蒙最新版本是3.0系统,相比2.0有着全面提升。尤其是在交互设计,多设备互联互通,流畅度性能,安全属性,用户关怀等方面升级幅度最大,而且升级并非是简单的更新换代,修复了不少鸿蒙2.0版本...
- 不知道原机主id密码如何激活
-
答案:如果忘记ID账号和密码,可以尝试以下方法激活手机:1.使用备用邮箱或手机号码:如果您已将备用邮箱或手机号码与您的ID账号绑定,可以使用备用邮箱或手机号码进行身份验证以激活手机。2.联系客服:...
- win10安装需要输入产品密钥(win10安装程序要输入产品密匙)
-
可按照如下方式解决:1.右击桌面左下角的“Windows”按钮,然后点击“命令提示符”项。2.接下来再输入以下命令:slmgr/ipkW269N-WFGWX-YVC9B-4J6C9-T83GX按回...
- 手机秒变电脑摄像头(手机秒变电脑摄像头怎么设置)
-
可以的我用过,但是要你手机支持啊国产的山寨机很多都支持这个功能:支持这个功能的手机摄像头有两种工作状态:手机摄像状态和USB连接状态,在手机设置里把手机的摄像头改为USB连接状态,直接插到电脑上就可以...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
