R語言中因子的創建與管理

2023-05-01 13:45:47

字體：大中小

來源：轉載

供稿：網友

因子在R語言中可以用來表示名義型變量或有序變量。

在統計學中，變量可以分為：區間變量，名義變量和有序變量。

區間變量即可以取連續值的變量，如體重，身高，溫度等等。

名義變量一般表示類別，如性別，種族等等。

有序變量是有一定排序順序的變量，如職稱，年級等等。

在R語言中，名義變量和有序變量可以使用因子來表示。

1、因子的創建

在R語言中可以使用factor()函數和gl()函數來創建因子變量。

（1）使用factor()函數

函數factor()以一個整數向量的形式存儲類別值，整數的取值范圍是[1... k ]（其中k 是名義型變量中唯一值的個數），同時一個由字符串（原始值）組成的內部向量將映射到這些整數上。

其語法格式為：

f<-factor(x=charactor(),levels,labels=levels,exclude = NA, ordered = is.ordered(x),namax = NA)

其中：

x 為創建因子的數據，是一個向量；levels：因子數據的水平，默認是x中不重復的值;labels：標識某水平的名稱，與水平一一對應，以方便識別，默認取levels的值；exclude:從x中剔除的水平值，默認為NA值；ordered:邏輯值，因子水平是否有順序（編碼次序），若有取TRUE，否則取FALSE；nmax：水平個數的限制。

fc1<-factor(c(1,2,3,3,1,2,2,3,1,3,2,1))

fc2<-factor(rep(1:3,times=2),labels=c("A","B","C"))

grade<-c("Freshman","Sophomore","Junior","Senior")

fc3<-factor(grade,ordered=TRUE) #對于字符型向量，因子的水平默認依字母順序創建

fc4<-factor(grade,ordered=TRUE, levels=c("Freshman","Sophomore","Junior","Senior")) #指定levels，則按levels中的順序定義數值

本部分執行情況如下圖所示：

R語言中創建因子的方法