服务器之家:专注于服务器技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - R语言 - R语言 数据集行列互换的技巧分享

R语言 数据集行列互换的技巧分享

2022-01-03 20:24数据蜂鸟 R语言

这篇文章主要介绍了R语言 数据集行列互换的技巧分享,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

现在给大家介绍的数据处理技巧是长转宽,也就相当于Excel中的转置,不过用R语言实现的长转宽还有数据合并的功能,自然比Excel强大多了。

这里给大家介绍4个函数,其中melt()、dcast()来自reshape2包,gather()、spread()来自tidyr包

一、宽转长——melt()、gather()

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
mydata<-data.frame(
 name=c("store1","store2","store3","store4"),
 address=c("普陀区","黄浦区","徐汇区","浦东新区"),
 sale2014=c(3000,2500,2100,1000),
 sale2015=c(3020,2800,3900,2000),
 sale2016=c(5150,3600,2700,2500),
 sale2017=c(4450,4100,4000,3200)
)
#宽转长——melt
mydata1<-melt(
 mydata,
 id.vars=c("address","name"),#要保留的主字段
 variable.name = "Year",#转换后的分类字段名称(维度)
 value.name = "Sale" #转换后的度量值名称
)

输出结果

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
> mydata1<-melt(
+ mydata,
+ id.vars=c("address","name"),#要保留的主字段
+ variable.name = "Year",#转换后的分类字段名称(维度)
+ value.name = "Sale" #转换后的度量值名称
+ )
> mydata1
 address name  Year Sale
1 普陀区 store1 sale2014 3000
2 黄浦区 store2 sale2014 2500
3 徐汇区 store3 sale2014 2100
4 浦东新区 store4 sale2014 1000
5 普陀区 store1 sale2015 3020
6 黄浦区 store2 sale2015 2800
7 徐汇区 store3 sale2015 3900
8 浦东新区 store4 sale2015 2000
9 普陀区 store1 sale2016 5150
10 黄浦区 store2 sale2016 3600
11 徐汇区 store3 sale2016 2700
12 浦东新区 store4 sale2016 2500
13 普陀区 store1 sale2017 4450
14 黄浦区 store2 sale2017 4100
15 徐汇区 store3 sale2017 4000
16 浦东新区 store4 sale2017 3200

再来看看gather()函数怎么用

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
> #宽转长——gather
> mydata1<-tidyr::gather(
+ data=mydata,
+ key="Year",
+ value="sale",
+ sale2014:sale2017
+ )
> mydata1
  name address  Year sale
1 store1 普陀区 sale2014 3000
2 store2 黄浦区 sale2014 2500
3 store3 徐汇区 sale2014 2100
4 store4 浦东新区 sale2014 1000
5 store1 普陀区 sale2015 3020
6 store2 黄浦区 sale2015 2800
7 store3 徐汇区 sale2015 3900
8 store4 浦东新区 sale2015 2000
9 store1 普陀区 sale2016 5150
10 store2 黄浦区 sale2016 3600
11 store3 徐汇区 sale2016 2700
12 store4 浦东新区 sale2016 2500
13 store1 普陀区 sale2017 4450
14 store2 黄浦区 sale2017 4100
15 store3 徐汇区 sale2017 4000
16 store4 浦东新区 sale2017 3200

和melt()函数不同,gather()函数需要指定关键字段key,以及关键字段对应的值value,但是gather()函数更加好理解。

二、长转宽——dcast()和spread()

还是用上面的data1数据集,先来看看dcast()函数

?
1
2
3
4
5
6
7
#长转宽——dcast
dcast(
 data=mydata1,
 name+address~Year
 #左侧是要保留的字段,右侧是要分割的分类变量,列数等于表达式
 #右侧分类变量的类别个数
)
?
1
2
3
4
5
6
7
8
9
10
11
12
13
> #长转宽——dcast
> dcast(
+ data=mydata1,
+ name+address~Year
+ #左侧是要保留的字段,右侧是要分割的分类变量,列数等于表达式
+ #右侧分类变量的类别个数
+ )
Using sale as value column: use value.var to override.
 name address sale2014 sale2015 sale2016 sale2017
1 store1 普陀区  3000  3020  5150  4450
2 store2 黄浦区  2500  2800  3600  4100
3 store3 徐汇区  2100  3900  2700  4000
4 store4 浦东新区  1000  2000  2500  3200

dcast()函数的使用规则需要琢磨下才能理解,大家好好看看注释部分,再来看看spread()

?
1
2
3
4
5
6
#长转宽——spread
tidyr::spread(
 data=mydata1,
 key=Year,
 value=sale
)
?
1
2
3
4
5
6
7
8
9
10
11
> #长转宽——spread
> tidyr::spread(
+ data=mydata1,
+ key=Year,
+ value=sale
+ )
 name address sale2014 sale2015 sale2016 sale2017
1 store1 普陀区  3000  3020  5150  4450
2 store2 黄浦区  2500  2800  3600  4100
3 store3 徐汇区  2100  3900  2700  4000
4 store4 浦东新区  1000  2000  2500  3200

直接调用tidyr::spread,需要指定关键字段key和对应的值value。

但是从理解上来看,我个人更喜欢tidyr包的函数,使用很清晰,大家可以根据实际情况自行选择,好啦,今天的分享结束,下次再见!

补充:利用R语言对数据行列转制

使用软件:R语言,mysql

使用系统:ubuntu16.04

使用效果前后对比:

使用前

x1 x2 y
a A 1
b B 2
c C 3
a A 4

使用后(里面的数值可以进行多种变换,主要是把x1,x2改为他们的交叉表)

  A B C
a 5(1+4) NA NA
b NA 2 NA
c NA NA 3

1.R语言与mysql的数据库连接

下载RMysql(由于我使用的是ubuntu,所以使用RMysql):

?
1
install.packages("RMySQL")

加载所需要的程辑包:

?
1
library(RMySQL)

将mysql数据导入R:

?
1
con<-dbConnect(MySQL(),dbname="database_name",user="user_name",password="password")

导入后,所得数据类型是数据框(data.frame)

对于RMySQL这个包,比较重要的语句有这几个:

summary(con) : 用于查看con对应的mysql信息

dbListTables(con) :用于查看con中的所有table

dbRemoveTable(con,”table_name”)

dbReadTable(con,”table_name”)

dbWriteTable(con,”table_name”,value) 其中value类型需要为数据框

2.在R中实现数据变换

我们使用以上的语句,读取所需要变换的表

?
1
data=dbReadTable(con,"table_name"

然后使用一个重要的函数:tapply()

注意,我下面使用的是我之前举例所用的表

?
1
data2=tapply(data\$y,list(data\$x1,data$x2),sum)

对于tapply(x,list(a,b),fac)

a和b是形成交叉表的行列表头

而x则是取值,我们当然可以不使用data里面的值当作x

fac则是对x进行的函数运算,比如使用sum,就是将相同的x1,x2的y相加

3.将数据导回mysql

上面我们已经把数据变换为想要的表格形式了,不过,使用了tapply后,data2的类会变为矩阵(matrix),要想知道数据类型,在R中使用class()便可以查看,而我们所使用的RMySQL包将r中数据写入mysql是需要用数据框的,所以我们要转换矩阵为数据框,那么要怎么做呢,很简单

?
1
data3=data.frame(data2)

这样,我们的data3便是一个数据框了,使用语句

?
1
dbWriteTable(con,test,data3)

便写入了一个table于mysql,名字叫做test,数据值为data3.

以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。

原文链接:https://blog.csdn.net/Anna_datahummingbird/article/details/80348074

延伸 · 阅读

精彩推荐
  • R语言聊聊R语言中Legend 函数的参数用法

    聊聊R语言中Legend 函数的参数用法

    这篇文章主要介绍了聊聊R语言中Legend 函数的参数用法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    Gavin姓陈6352021-12-28
  • R语言R studio 批量注释的快捷方式

    R studio 批量注释的快捷方式

    这篇文章主要介绍了R studio 批量注释的快捷方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    JasonKQLin13342022-01-04
  • R语言R语言-使用ifelse进行数据分组

    R语言-使用ifelse进行数据分组

    这篇文章主要介绍了R语言-使用ifelse进行数据分组,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    小力丸12042022-01-10
  • R语言R语言编程学习绘制动态图实现示例

    R语言编程学习绘制动态图实现示例

    这篇文章主要介绍了R语言编程学习绘制动态图实现示例,有需要的的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪...

    微小冷7652022-01-18
  • R语言R语言可视化存储矢量图实现方式

    R语言可视化存储矢量图实现方式

    这篇文章主要为大家介绍了R语言存储矢量图的实现方式过程,有需要的朋友可以借鉴参考下,希望能够有所你帮助,祝大家多多进步,早日升职加薪...

    Kanny广小隶9392022-01-20
  • R语言R语言绘制散点图实例分析

    R语言绘制散点图实例分析

    在本篇文章里小编给大家整理的是一篇关于R语言绘制散点图实例分析内容,有需要的朋友们可以学习下。...

    w3cschool6942022-01-06
  • R语言R语言创建矩阵的实现方法

    R语言创建矩阵的实现方法

    这篇文章主要介绍了R语言创建矩阵的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随...

    hjk_caesar9462021-12-27
  • R语言R语言中c()函数与paste()函数的区别说明

    R语言中c()函数与paste()函数的区别说明

    这篇文章主要介绍了R语言中c()函数与paste()函数的区别说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    yiyu_j11152022-01-12