百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

R 数据处理(一)(r语言数据处理过程)

off999 2024-11-07 11:34 22 浏览 0 评论

我们讲过了 Python 读取常见数据格式文件的方式。

下面,我们就讲讲如何用 R 来读取这些文件。

1、txt/csv 格式文件

read.table(file, header = FALSE, sep = "", quote = "\"'",
           dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
           row.names, col.names, as.is = !stringsAsFactors,
           na.strings = "NA", colClasses = NA, nrows = -1,
           skip = 0, check.names = TRUE, fill = !blank.lines.skip,
           strip.white = FALSE, blank.lines.skip = TRUE,
           comment.char = "#",
           allowEscapes = FALSE, flush = FALSE,
           stringsAsFactors = default.stringsAsFactors(),
           fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)

read.csv(file, header = TRUE, sep = ",", quote = "\"",
         dec = ".", fill = TRUE, comment.char = "", ...)

read.csv2(file, header = TRUE, sep = ";", quote = "\"",
          dec = ",", fill = TRUE, comment.char = "", ...)

read.delim(file, header = TRUE, sep = "\t", quote = "\"",
           dec = ".", fill = TRUE, comment.char = "", ...)

read.delim2(file, header = TRUE, sep = "\t", quote = "\"",
            dec = ",", fill = TRUE, comment.char = "", ...)

上面 5 个函数都可以用于读取表格格式文件。

read.csv 与 read.csv2 相较于 read.table,除了几个默认参数值不同外,其他参数都是完全一样的。

  • read.table : sep 指定的默认分隔符为一个或多个空格,制表符、换行或回车,dec 指定的小数点以 . 分隔
  • read.csv : 读取 , 分隔符文件
  • read.csv2 : 读取 ; 分隔符文件,且小数点以 , 分隔
  • read.delim : 读取 \t 分隔符文件
  • read.delim2 : 读取 \t 分隔符文件,且小数点以 , 分隔

示例

> read.table('Downloads/data.txt')
           V1  V2        V3        V4
1 segdup01284 hs3 111883743 111884767
2 segdup02286 hs1 152617218 152618252
3 segdup02286 hs3 111883745 111884756
4 segdup02365 hs1 158502674 158503718
5 segdup02365 hs3 111883744 111884768
6 segdup02574 hs1 199147461 199151487
7 segdup02574 hs3 113384907 113387537
8 segdup02968 hs1 235049483 235050522
9 segdup02968 hs3 111883744 111884768

写出文件

write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ",
            eol = "\n", na = "NA", dec = ".", row.names = TRUE,
            col.names = TRUE, qmethod = c("escape", "double"),
            fileEncoding = "")

write.csv(...)
write.csv2(...)

写出文件的函数与读取函数相对应

2. 读取 json 数据

这里我们使用 rjson 模块

2.1 安装

install.packages("rjson")

2.2 使用

数据

[
  {
  "Name": "Mario",
  "Age": 32,
  "Occupation": "Plumber",
  "Rank": 3
  },
  {
  "Name": "Peach",
  "Age": 21,
  "Occupation": "Princess",
  "Rank": 1
  }
]

读取

# 导入模块
library(rjson)

# 读取数据
data <- fromJSON(file = 'Downloads/data.json')

# 查看数据格式
# > str(data)
# List of 2
# nbsp;:List of 4
# ..nbsp;Name      : chr "Mario"
# ..nbsp;Age       : num 32
# ..nbsp;Occupation: chr "Plumber"
# ..nbsp;Rank      : num 3
# nbsp;:List of 4
# ..nbsp;Name      : chr "Peach"
# ..nbsp;Age       : num 21
# ..nbsp;Occupation: chr "Princess"
# ..nbsp;Rank      : num 1

可以看到,json 数据被转换为嵌套的 list

知道怎么读取 json 数据了,那如何写出成 json 格式的文件呢?

例如,我们想更改 Mario 的年龄为 45,并将 Peach 的等级改为 9

data[[1]]$Age <- 45
data[[2]]$Rank <- 9

# 转换为 json string
outJson <- toJSON(data)
# 保存为 new_data.json
write(outJson, file = "Downloads/new_data.json")

new_data.json

[
  {
  "Name": "Mario",
  "Age": 45,
  "Occupation": "Plumber",
  "Rank": 3
  },
  {
  "Name": "Peach",
  "Age": 21,
  "Occupation": "Princess",
  "Rank": 9
  }
]

3. xml 文件操作

我们以 KEGG 通路 hsa05130 的 kgml 文件为例

# 安装模块
install.packages("XML")
# 导入模块
library(XML)
# 解析 xml 文件
hsa <- xmlParse("Downloads/hsa05130.xml")
# 提取根节点
oot <- xmlRoot(hsa)
# 查看根节点名称
xmlName(root)
# [1] "pathway"
# 查看根节点的子节点数目
xmlSize(root)
# [1] 293
# 查看第一个子节点
root[[1]]
# <entry id="4" name="path:hsa04810" type="map" link="https://www.kegg.jp/dbget-bin/www_bget?hsa04810">
#   <graphics name="Regulation of actin cytoskeleton" fgcolor="#000000" bgcolor="#FFFFFF" type="roundrectangle" x="1237" y="777" width="119" height="34"/>
#   </entry>

root[[1]][[1]]  # 查看第一个子节点的第一个子节点
# <graphics name="Regulation of actin cytoskeleton" fgcolor="#000000" bgcolor="#FFFFFF" type="roundrectangle" x="1237" y="777" width="119" height="34"/> 

xmlSApply(root, xmlName)  # 根节点的所有子节点名称
xmlSApply(root[[1]], xmlAttrs)  # 子节点 1 的所有子节点属性
# graphics                          
# name    "Regulation of actin cytoskeleton"
# fgcolor "#000000"                         
# bgcolor "#FFFFFF"                         
# type    "roundrectangle"                  
# x       "1237"                            
# y       "777"                             
# width   "119"                             
# height  "34" 
xmlSApply(root, xmlSize)  # 所有子节点大小

# xpath 语法获取节点属性 id=4 的 entry
getNodeSet(root, "//entry[@id=4]")
# [[1]]
# <entry id="4" name="path:hsa04810" type="map" link="https://www.kegg.jp/dbget-bin/www_bget?hsa04810">
#   <graphics name="Regulation of actin cytoskeleton" fgcolor="#000000" bgcolor="#FFFFFF" type="roundrectangle" x="1237" y="777" width="119" height="34"/>
#   </entry> 
#   
#   attr(,"class")
# [1] "XMLNodeSet"
# 转换为 list ,转换为 dataframe 可以用 xmlToDataFrame
hsa_list <- xmlToList(root)
# 更改数据
root[[1]][[1]] <- "haha"
# 保存
saveXML(root, file="hsa05130.xml",encoding="UTF-8")

相关推荐

2010激活密钥(microsoft2010激活密钥)
2010激活密钥(microsoft2010激活密钥)

步骤/方式1officeprofessionalplus2010:(office专业版)6QFdx-pYH2G-ppYFd-C7RJM-BBKQ8Bdd3G-xM7FB-Bd2HM-YK63V-VQFdKVYBBJ-TRJpB-QFQ...

2025-11-19 04:03 off999

联想官方刷新bios工具(联想电脑刷新bios)

刷新BIOS需要使用联想的官方网站或授权维修中心来进行操作。以下是一些基本步骤:1.访问联想的官方网站,找到BIOS更新程序并下载。在下载过程中,请确保选择与您计算机型号匹配的版本。2.将下载的B...

苹果ios14系统下载(苹果ios14.1下载)
苹果ios14系统下载(苹果ios14.1下载)

1方法一步骤/方式一打开Appstore。步骤/方式二在搜索栏点击搜索框。步骤/方式三搜索并点击需要下载的软件。步骤/方式四点击获取。步骤/方式五最后验证ID密码即可。1.在应用商店搜索你要下载的应用名称。2.点击下载按钮,如果要求登...

2025-11-19 03:03 off999

office2010怎么免费永久激活密钥

用这个试试,一个KMS激活工具可以激活2010到2019的Office自家的目前用的就是这个microsoft6477.moe/1716.html直接使用这个Microsoftoffice2010...

类似爱加速的国内ip(类似爱加速的app)
类似爱加速的国内ip(类似爱加速的app)

推荐“V8盒子”。这一款免费无广告的模拟器,不同于其它软件盒子,而是类似于X8沙箱,满足游戏多开,画中画,悬浮球操作,熄屏后台运行等多功能的沙箱盒子.支持一键root,一键安装xposed框架,能在安卓/苹果手机上运行多个安卓/ios虚拟系...

2025-11-19 02:03 off999

阿里旺旺手机客户端(阿里旺旺手机app)

手机淘宝的旺旺在打开商品后,会看到左下角有个旺旺的图标,点击就可以联系了。  阿里旺旺是将原先的淘宝旺旺与阿里巴巴贸易通整合在一起的一个新品牌。它是淘宝和阿里巴巴为商人量身定做的免费网上商务沟通软件,...

最纯净的pe装机工具(pe工具哪个纯净)

U盘装系统步骤:1.制作U盘启动盘。这里推荐大白菜U盘启动盘制作工具,在网上一搜便是。2.U盘启动盘做好了,我们还需要一个GHOST文件,可以从网上下载一个ghost版的XP/WIN7/WIN8系统,...

装一个erp系统多少钱(wms仓库管理软件)

现在主流有客户端ERP和云端ERP两种客户端通常一次买断,价格在万元左右,但是还有隐性费用,你需要支付服务器、数据管理员,此外如果系统需要更新维护,你还需要支付另外一笔不菲的费用。云端ERP:优势...

cad2014序列号和密钥永久(autocad2014序列号和密钥)

1在cad2014中修改标注样式后,需要将其保存2单击“样式管理器”按钮,在弹出的窗口中选择修改后的标注样式,然后单击“设置为当前”按钮,再单击“保存当前样式”按钮,将其保存为新的样式名称3为了...

qq修改密保手机号(qq修改密保手机号是什么意思)

QQ更改绑定的手机号码操作步骤如下:1、打开手机主界面,找到“QQ”软件点击打开。2、输入正确的QQ账户和密码登录到qq主界面。3、点击左上角的头像“图片”,进入到个人中心界面。4、进入到个人中心界面...

dell笔记本客服电话(dell笔记本客服电话人工服务)

戴尔中国的官方网站http://www.dell.com/zh-cn。通过这个网站购买的都没有问题;有问题也可以进入官网联系售后客服,也可以拔打dell电脑说明书上的售后热线,都可以为你解决的。还是建...

联想乐商店app官方下载(联想乐商店在哪下载)

您好!很遗憾!若是您的手机联想乐商店和联想游戏中心只能有流量,建议您核实是否乐安全有限制wifi上网,核实您所使用的wifi是否本身有限制。若还是无效,可清除缓存数据;备份资料恢复出厂设置尝试。欢迎您...

fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
  • fat32u盘(FAT32u盘多少钱一个)
不用拉网线的路由器是真的吗

是真的不插卡不拉线有线就有网,这11个字其实就涵盖了无线路由器的特点,无线路由器免插卡、不用拉网线,完全摆脱了之前家用路由器和网线捆绑的模式,有电就有网,其实说的就是无线路由器的使用操作简单,通电就可...

微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)
  • 微信恢复好友怎么弄回来(vx好友恢复)

取消回复欢迎 发表评论: