출처 : http://blog.naver.com/ilustion/220257419444


## 주성분분석

# princomp(x, cor=T) 함수를 사용

# x는 n X p 다변량 자료행렬이고, cor=T이면 상관행렬분해를, cor=F이면 공분산행렬분해를 지시

# 주성분 점수는 scores에, 주성분 부하는 loadings에 남는다

protein=read.table("J:/R을 활용한 탐색적 자료분석/protein.txt", header=TRUE)

str(protein)

'data.frame':   25 obs. of  10 variables:

 $ Country: Factor w/ 25 levels "Albania","Austria",..: 1 2 3 4 5 6 7 8 9 10 ...

 $ Beef   : num  10.1 8.9 13.5 7.8 9.7 10.6 8.4 9.5 18 10.2 ...

 $ Chicken: num  1.4 14 9.3 6 11.4 10.8 11.6 4.9 9.9 3 ...

 $ Egg    : num  0.5 4.3 4.1 1.6 2.8 3.7 3.7 2.7 3.3 2.8 ...

 $ Milk   : num  8.9 19.9 17.5 8.3 12.5 25 11.1 33.7 19.5 17.6 ...

 $ Fish   : num  0.2 2.1 4.5 1.2 2 9.9 5.4 5.8 5.7 5.9 ...

 $ Cereal : num  42.3 28 26.6 56.7 34.3 21.9 24.6 26.3 28.1 41.7 ...

 $ Potato : num  0.6 3.6 5.7 1.1 5 4.8 6.5 5.1 4.8 2.2 ...

 $ Bean   : num  5.5 1.3 2.1 3.7 1.1 0.7 0.8 1 2.4 7.8 ...

 $ Fruit  : num  1.7 4.3 4 4.2 4 2.4 3.6 1.4 6.5 6.5 ...


pca=princomp(protein[,2:10], cor=T)

names(pca)

pca$loadings[,1:2]

pca$scores[,1:2]

attach(pca)

plot(scores[,2]~scores[,1], main="Principal Component Space",

     xlim=c(-5,5), ylim=c(-5,5))

text(y=scores[,2], x=scores[,1], label=protein$Country, cex=0.8)



plot(loadings[,2]~loadings[,1], main="Principal Component Loadings",

     xlim=c(-1,1), ylim=c(-1,1))

text(y=loadings[,2], x=loadings[,1], label=colnames(protein[,2:10]),cex=0.8)

for(i in 1:9){

  arrows(0, 0, 0.8*loadings[i,1], 0.8*loadings[i,2], length=0.1)

}

대다수의 나라들이 왼쪽에 군집을 이루가 있으나 오른쪽위에 알바니아, 불가리아, 루마니아, 유고슬라비아등 4개국이 진을 치고 있다. 관측개체 플롯내 위치와 변수 플롯의 곡류 위치가 대응하므로 이들 나라들은 곡류 섭취로 특성화된다. 아래 오른쪽에 스페인과 포르투갈이 있는데 이들은 생선, 콩, 과일 섭취로 특성화된다

그리스와 이탈리아는 콩 섭취와 관련이 깊다고 할 수 있다. 


Posted by Azel.Kim :