服务器之家:专注于服务器技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - R语言 - R语言 实现两表连接且输出不重复数据

R语言 实现两表连接且输出不重复数据

2022-01-03 20:36Watch_dou R语言

这篇文章主要介绍了R语言 实现两表连接且输出不重复数据的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在做项目中遇到了如此问题,其中整理的结果表中没有会员ID信息,只有会员电话号码信息,且每一行为唯一一个会员。

另外一张member表中包含会员ID以及会员电话信息,但是这张表有重复的会员信息,也就是说一个会员在member表中多次出现,memeber表比整理的表要大很多。

说明:

1.在项目过程中,数据量较大,用到的是data.table包,需要用到SQL中的语句减少代码量,因此需要sqldf包。

2.以下例子中xx中的a1在yy中都有对应的值。

3.yy中的a1与b是一一对应的关系,不存在同一个a1值对应不同的b值。

4.此程序的目的是,用yy表与xx表匹配,也就是最终的结果应该是在xx的基础上增加b这一列的信息,数据集xx的行数不变。

如下所示:

?
1
2
3
4
5
6
7
8
9
10
11
<span style="font-size:14px;">> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span style="font-family:SimSun;font-size:14px;">> xx
  a1 c  d
1: 1 8 adf
2: 2 5  af
3: 3 8 sdf
4: 4 6 utr
5: 5 23  af
6: 6 7 ruti</span>
?
1
2
<span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
                            'f','h','i','b','b','c','f'))</span>
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<span style="font-size:14px;">> yy
  a1 b
 1: 2 b
 2: 3 c
 3: 1 a
 4: 4 d
 5: 5 e
 6: 5 e
 7: 7 g
 8: 6 f
 9: 8 h
10: 9 i
11: 2 b
12: 2 b
13: 3 c
14: 6 f
</span>
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<span style="font-size:14px;">#按照a1连接所有信息包括进去
> dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)
> dataxy
  a1 c  d b
 1: 1 8 adf a
 2: 2 5  af b
 3: 2 5  af b
 4: 2 5  af b
 5: 3 8 sdf c
 6: 3 8 sdf c
 7: 4 6 utr d
 8: 5 23  af e
 9: 5 23  af e
10: 6 7 ruti f
11: 6 7 ruti f</span>
?
1
2
3
4
5
6
7
8
9
<span style="font-size:14px;">#删除重复的行*/
> sqldf("select DISTINCT a1,b,c,d from left1")
 a1 b c  d
1 1 a 8 adf
2 2 b 5  af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23  af
6 6 f 7 ruti</span>

补充:R语言筛选出不重复的行的几种方法

在做项目的过程中遇到筛选不重复的会员信息进行匹配,本次介绍五种筛选不重复行的数据:

五种方法如下:

?
1
2
>>> library(dplyr)
>>> library(sqldf)

方法一:

?
1
2
3
4
>>> data1 <- data7_0 %>%
       group_by(CELLPHONE,MEMBERID) %>%
       filter(row_number() == 1) %>%
       ungroup()

方法二:

?
1
2
>>> data2 <- data7_0 %>%
       distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三:

?
1
>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四:

?
1
>>> data4 <- base::unique(data7_0)

方法五:

?
1
>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。

原文链接:https://wanpingdou.blog.csdn.net/article/details/75298988

延伸 · 阅读

精彩推荐
  • R语言R语言实现支持向量机SVM应用案例

    R语言实现支持向量机SVM应用案例

    本文主要介绍了R语言实现支持向量机SVM应用案例,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...

    一天_pika5222022-01-18
  • R语言R语言常量知识点总结

    R语言常量知识点总结

    在本篇文章里小编给大家整理了一篇关于R语言常量知识点总结内容,有兴趣的朋友们可以学习分享下。...

    R语言教程网12102021-12-29
  • R语言R语言中的vector(向量),array(数组)使用总结

    R语言中的vector(向量),array(数组)使用总结

    这篇文章主要介绍了R语言中的vector(向量),array(数组)使用总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要...

    A叶子叶来5772021-11-14
  • R语言如何用R语言绘制散点图

    如何用R语言绘制散点图

    这篇文章主要介绍了如何用R语言绘制散点图,帮助大家更好的理解和学习使用R语言,感兴趣的朋友可以了解下...

    菜鸟教程13002021-12-23
  • R语言R语言中qplot()函数的用法说明

    R语言中qplot()函数的用法说明

    这篇文章主要介绍了R语言中qplot()函数的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    Jack_丁明12752022-01-05
  • R语言基于R/RStudio中安装包“无法与服务器建立连接”的解决方案

    基于R/RStudio中安装包“无法与服务器建立连接”的解决方案

    这篇文章主要介绍了基于R/RStudio中安装包“无法与服务器建立连接”的解决方案,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    truffle52815052022-01-05
  • R语言R语言gsub替换字符工具的具体使用

    R语言gsub替换字符工具的具体使用

    这篇文章主要介绍了R语言gsub替换字符工具的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友...

    lztttao10372021-12-24
  • R语言R语言读取xls与xlsx格式文件过程

    R语言读取xls与xlsx格式文件过程

    这篇文章主要为大家介绍了使用R语言读取xls与xlsx格式文件的过程步骤,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步早日升职加薪...

    Kanny广小隶11982022-01-20