百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

不懂数据集重排序?分类变量转换苦难?4种python方法,不再难

off999 2024-11-06 11:22 29 浏览 0 评论


前言

数据排序、分类变量转换是数据处理与分析中常常遇到对场景,且需要有准确的判断以及准确的处理方式,否则会影响数据质量,产生脏数据,进而影响数据呈现效果或预测效果等,更别提机器学习与深度学习准确性等系列问题。小编接下来会针对python方法在该场景的应用做具体介绍。

排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series和DataFrame的列的排列工作(permuting,随机重排序)。通过需要排列的轴的长度调用permutation,可产生一个表示新顺序的整数数组:


1.使用permutation()进行排列

我们先使用DataFrame创建一个5行4列的数据集,然后使用numpy.random.permutation函数进行重新排序,具体如下:

2.使用take函数对数据集进行重排序

通过下面对例子可以清楚理解take函数对作用。sampler是np.random.permutation()生成对随机数组,然后将这个对象传入到take函数中,作用于对象数据集,具体如下所示:

In [8]: df
Out[8]: 
    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
4  16  17  18  19

In [9]: df.take(sampler)
Out[9]: 
    0   1   2   3
0   0   1   2   3
1   4   5   6   7
4  16  17  18  19
3  12  13  14  15
2   8   9  10  11

如果不想用替换的方式选取随机子集,则可以使用permutation:从permutation返回的数组中切下前k个元素,其中k为期望的子集大小。

In [10]: df.take(np.random.permutation(len(df))[:3])
Out[10]: 
    0   1   2   3
3  12  13  14  15
2   8   9  10  11
0   0   1   2   3

3.获取随机整数:np.random.randint

要通过替换的方式产生样本,最快的方式通过np.random.randint得到一组随机整数:

In [11]: ba=np.array([5,7,-1,6,4])
In [12]: ba
Out[12]: array([ 5,  7, -1,  6,  4])
In [13]: sampler=np.random.randint(0,len(ba),size=10)
In [14]: sampler
Out[14]: array([1, 3, 1, 3, 1, 2, 3, 4, 2, 0])
In [15]: draws=ba.take(sampler)
In [16]: draws
Out[16]: array([ 7,  6,  7,  6,  7, -1,  6,  4, -1,  5])

计算指标/哑变量

另一种常用于统计建模或机器学习的转换方式是:将分类变量转换为“哑变量矩阵”或“指标矩阵”。如果DataFrame的某一列中含有k个不同的值,则可以派生出一个k列矩阵或DataFrame(其值权威1和0).pandas有一个get_dummies函数可以实现该功能。

In [17]: df=DataFrame({'key':['b','b','a','c','a','b'],'data1':range(6)})
In [18]: df
Out[18]: 
  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5
In [19]: df['key']
Out[19]: 
0    b
1    b
2    a
3    c
4    a
5    b
Name: key, dtype: object

使用get_dummies()将分类变量转换为“哑变量矩阵”

In [20]: pd.get_dummies(df['key'])
Out[20]: 
   a  b  c
0  0  1  0
1  0  1  0
2  1  0  0
3  0  0  1
4  1  0  0
5  0  1  0

总结

数据处理与分析的方法丰富且场景复杂,针对不同的应用情况,选择适合的方法是最恰当且能解决实际问题的。希望大家从中有所收益,实践中多体会和沉淀,感谢大家支持!记得关注哦!

相关推荐

qq个性签名(qq个性签名怎么看)
qq个性签名(qq个性签名怎么看)

QQ上发说说的方法1、在QQ界面点击“空间”图标。2、点击右上角的“+”按钮,点击“说说”图标。3、输入想要发送的文字,点击“发表”即可。4、总结如下。扩展资料:有趣的QQ说说推荐:1、喜欢你、是否没道理、、2、花有百样红,人与狗不同3、走...

2026-01-18 05:15 off999

office2003怎么安装(microsoft office2003怎样安装完整版)

首先,必须要确认您的win10系统中有没有安装过office。很多品牌笔记本或台式机,在购机之后,打开系统就会发现有office软件(可能需要续费后才能使用),而且版本较新。如果此时直接安装较老版本o...

租房网(租房网名怎么写吸引人)
  • 租房网(租房网名怎么写吸引人)
  • 租房网(租房网名怎么写吸引人)
  • 租房网(租房网名怎么写吸引人)
  • 租房网(租房网名怎么写吸引人)
一键root官网(一键root 官网)

卓大师的一键Root功能有三种模式,分别是获取永久Root权限,获取临时Root权限和去除Root。顾名思义,永久Root,就是一次操作,永久生效,让手机永远处于Root状态。而临时Root,在手机重...

消灭星星经典版老款(消灭星星免费下载)

《消灭星星》是由BrianBaek公司开发的一款消除类休闲娱乐手机游戏,于2014年发行,游戏大小为3.8M。本作特点是易上手,点击两个或两个以上颜色相同的方块即可消除,没有时间限制。《PopSta...

脓包痘痘如何处理(脓包痘痘怎么弄)

最好不要用手指去挤压,防止局部出现感染或者留下疤痕,在这个时候可以给局部涂抹维a酸乳膏,也可以使用硫磺皂的方法来清洗面部,并且在饮食上最好不要吃辛辣油炸的发物食品,以清淡的食物为主,多吃水果蔬菜,多喝...

德国二战游戏单机手游(以德军为视角的二战手机游戏)

元帅,私奔吧甜文穿越二战隆美尔第三帝国之未来战争帝国雄心帝国苍穹德意志的荣耀狗运战神普鲁士雄鹰战起1938复活战斗在第三帝国《我的二战不可能这么萌》作者:月面书评:异界后宫二战军事穿越流。本书...

酷我音乐官方免费下载安装(酷我音乐官方免费下载安装app)

要下载手机铃声,首先需要打开酷我音乐APP,然后点击“我的”页面,再选择“铃声中心”进入铃声下载界面。在这里,你可以根据喜好选择不同类型的铃声,比如热门、经典、儿歌等。找到心仪的铃声后,点击右侧的下载...

下载免费的小说(免费下载小说软件推荐)

http://www.ziweishuwu.comhttp://www.txtbook.com.cn/https://www.xiashutxt.com/https://www.jjxs.la/都可以...

安装播放器 app下载(安装播放器软件)

1.首先,打开浏览器,访问播放器官网,找到下载地址,点击下载。2.点击下载后,会弹出一个提示框,点击“保存”,然后把文件保存到本地磁盘。3.打开保存的文件,双击运行安装程序,按照提示安装播放器。4.安...

游戏蜂窝(游戏蜂窝免root)

人人蜂窝和游戏蜂窝有以下几点区别:1.目标用户不同:人人蜂窝是一家提供移动网络服务的运营商,主要面向一般用户提供通信服务;而游戏蜂窝是一个游戏信息平台,主要为游戏爱好者提供游戏相关资讯和社交互动。2...

正版win7旗舰版官网(win7旗舰版官方)

从来就没有win7官网这样的说法,这是因为win7本身就是微软公司旗下产品,是Windows系统的一个版本而已,并不存在win7官网,当然主要的相关资源还是可以到微软官网去查找下载。首先,官网下载的W...

打米传奇手游可提现(打米传奇手游怎么提现)

个人感觉有些传奇游戏还是可以提现的,也就是现在所谓的搬砖服,不过想要提现也是需要付出的,普通的游戏玩家一天可以得到的收益并不是很高。想要获得高额收益是需要投资的。个人建议投资之前最好先观望一下,免的造...

虚拟号码发送短信平台(虚拟手机号收短信平台)

用虚拟手机号给别人发送短信的方法如下1、下载安装定时达人软件(安卓手机端),进入首页,点击下部的“添加新任务”,左边选择“通信”项。2、这时就可以看到右边的“虚拟电话”和“虚拟短信”选项。3、点击进入...

免费阅读软件(一念永恒小说免费阅读软件)

  追书免费全本小说、追书神器免费版、易追书、全本追书阅读器等软件都是比较好用的免费读书软件。具体介绍如下:  1、追书免费全本小说,免费阅读热门网络小说;  2、追书神器免费版,有海量的书库,更...

取消回复欢迎 发表评论: