R语言中na.fail和na.omit的用法_R语言

R语言中na.fail和na.omit的用法

2022-01-11 15:18SThranduil R语言

这篇文章主要介绍了R语言中na.fail和na.omit的用法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

实际工作中，数据集很少是完整的，许多情况下样本中都会包括若干缺失值NA，这在进行数据分析和挖掘时比较麻烦。

R语言通过na.fail和na.omit可以很好地处理样本中的缺失值

1、na.fail（<向量a>）: 如果向量a内包括至少1个NA，则返回错误；如果不包括任何NA，则返回原有向量a

2、na.omit（<向量a>）: 返回删除NA后的向量a

3、attr（ na.omit（<向量a>） ,”na.action”）: 返回向量a中元素为NA的下标

4、is.na：判断向量内的元素是否为NA

example：

				?

									data<-c(1,2,NA,2,4,2,10,NA,9)

									data.na.omit<-na.omit(data)

									data.na.omit

									    [1]  1  2  2  4  2  10  9

									    attr(,"na.action")

									    [1] 3 8

									    attr(,"class")

									    [1] "omit"

									attr(data.na.omit,"na.action")

									    [1] 3 8

									    attr(,"class")

									    [1] "omit"

另外还可以使用!x方式方便地删除NA。

例如：

				?

									a<-c(1,2,3,NA,NA,2,NA,5)

									a[!is.na(a)]

									    [1] 1 2 3 2 5

其中，is.na用于判断向量内的元素是否为NA，返回结果：c(FALSE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE,FALSE)，即a内元素为NA，其对应的下标元素是TRUE，反之是FALSE。

！x是取非逻辑运算符，!is.na（a）表示a内元素不为NA，其对应的下标元素是TRUE，反之是FALSE。

通过a[!is.na（a）]进行索引后，即可取出a内不为NA的元素，将其过滤。

其中，函数na.fail和 na.omit 不仅可以应用于向量，也可以应用于矩阵和数据框。

example：

				?

									data <- read.table(text="

									a b c d e f

									NA 1 1 1 1 1

									1 NA 1 1 1 1

									1 1 NA 1 1 1

									1 1 1 NA 1 1

									1 1 1 1 NA 1

									1 1 1 1 1 NA",header=T)

									na.omit(data)

									data

									>[1] a b c d e f

									<0 行> (或0-长度的row.names)

补充：R语言移除缺失值 NA.RM

看代码~

				?

									> a <- 2:12

									> b <- seq(2,23,2)

									> c <- c(1:11)^3

									> d <- c(5:8, 30:36)

									> df <- data.frame(a,b,c,d)

									> df$a[df$a==8] <- NA 

									> df$b[df$b==8] <- NA 

									> df$c[df$c==8] <- NA 

									> df$d[df$d==8] <- NA 

									> df$d[df$d==32] <- NA

									> df

									    a  b    c  d

									1   2  2    1  5

									2   3  4   NA  6

									3   4  6   27  7

									4   5 NA   64 NA

									5   6 10  125 30

									6   7 12  216 31

									7  NA 14  343 NA

									8   9 16  512 33

									9  10 18  729 34

									10 11 20 1000 35

									11 12 22 1331 36

									// 只根据第四列，也就是d 的 NA，移除相应的行

									> bad.d <- is.na(df$d)

									> bad.d

									 [1] FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE

									> df[!bad.d,]

									    a  b    c  d

									1   2  2    1  5

									2   3  4   NA  6

									3   4  6   27  7

									5   6 10  125 30

									6   7 12  216 31

									8   9 16  512 33

									9  10 18  729 34

									10 11 20 1000 35

									11 12 22 1331 36

									// 根据第二列和第三列的NA 移除相应的行

									> df[complete.cases(df[,2:3]),]

									    a  b    c  d

									1   2  2    1  5

									3   4  6   27  7

									5   6 10  125 30

									6   7 12  216 31

									7  NA 14  343 NA

									8   9 16  512 33

									9  10 18  729 34

									10 11 20 1000 35

									11 12 22 1331 36

									// 根据第二列和 第四列的NA，移除相应的行

									> df[complete.cases(df[,c(2,4)]),]

									    a  b    c  d

									1   2  2    1  5

									2   3  4   NA  6

									3   4  6   27  7

									5   6 10  125 30

									6   7 12  216 31

									8   9 16  512 33

									9  10 18  729 34

									10 11 20 1000 35

									11 12 22 1331 36

									// 根据所有列的NA，移除相应的行

									> df[complete.cases(df),]

									    a  b    c  d

									1   2  2    1  5

									3   4  6   27  7

									5   6 10  125 30

									6   7 12  216 31

									8   9 16  512 33

									9  10 18  729 34

									10 11 20 1000 35

									11 12 22 1331 36

									> 

									// 这个效果跟上面的df[complete.cases(df),] 相同

									> na.omit(df)

									    a  b    c  d

									1   2  2    1  5

									3   4  6   27  7

									5   6 10  125 30

									6   7 12  216 31

									8   9 16  512 33

									9  10 18  729 34

									10 11 20 1000 35

									11 12 22 1331 36

									// 计算某一列的平均值， 移除NA值

									> mean(df$d, na.rm=TRUE)