2018년 7월 29일 일요일

ADsP : 과목III. 데이터 분석 - 군집분석

1. 군집분석(cluster analysis)이란?
a. 각 개체에 관측된 여러 개의 변수값으로 부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화 하고,
b. 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석 기법
c. 군집화의 방법
d.

2. 계층적 군집
a. 가장 유사한 개체를 묶어나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법
b. 각 개체는 하나의 군집에만 속하게 된다.

 c. 군집 연결방법에 따라 군집의 결과가 달라질 수 있다.

군집 방법
군집 사이의 거리
단일연결법
single linkage
군집의 점과 다른 군집의 사이의 가장 짧은 거리
사슬 모양으로 생길 있으며, 고립된 군집을 찾는데 중점을 방법
완전연결법
complete linkage
군집의 점과 다른 군집의 사이의 가장 거리
같은 군집에 속하는 관측치는 최대 거리보다 짧다.
군집들의 내부 응집성에 중점을 방법
평균연결법
average linkage
모든 항목에 대한 거리 평균을 구하면서 군집화를 진행
계산량이 불필요하게 많을 있다.
중심연결법
centroid
군집의 중심 간의 거리를 측정
군집이 결합할 새로운 군집의 평균은 가중평균으로 계산
와드연결법
Ward linkage
군집 내의 오차제곱합에 기초하여 군집을 수행

 d. 계층적 군집은 두 개체간의 거리에 기반하므로 거리 측정에 대한 정의가 필요하다.
- 수학적 거리


특징
유클리드 거리
Euclidean distance
사이의 거리로, 가장 직관적이고 일반적인 거리 개념
, 방향성이 고려되지 않은 단점이 있음
맨하튼 거리
Manhattan distance
점의 좌표간의 절대값 차이를 구하는
맨하튼의 격자 무늬 도로에서 유래됨
민코프스키 거리
Minkowski distance
가장 일반적으로 사용되는 Minkowski 거리의 차수는 1,2,무한대
q=2이면 유클리드 거리, q=1이면 맨하튼 거리
- 통계적 거리


특징
표준화 거리
변수를 해당 변수의 표준편차로 척도 변환한 유클리드 거리를 계산한 거리
표준화를 하게되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 있음
통계적 거리라고도 한다.
마할라노비스
Mahalanobia distance
변수의 표준화와 함께 변수간의 상관성을 동시에 고려한 통계적 거리

e. 계층적 군집의 특징
- 매 단계에서 지역적 최적화를 수행하기 때문에 그 결과가 전역적인 해라고 볼 수 없음
- 병합적 방법에서는 한 번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동 할 수 없음
- 중심연결법, 와드연결법 등에서는 군집의 크기에 가중을 두어 병합을 시도하므로 큰 군집과의 병합이 유도될 수 있음

3. 비계층적 군집
a. k-평균 군집(k-mean clustering)
- 원하는 수 만큼 초기값을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성 한 후,
- 각 군집의 평균을 재계산하여 초기값을 갱신한다.
- 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종군집을 형성하는 방법

b. k-평균 군집의 과정
- 초기 군집 중심으로 k개의 객체를 임의로 선택
- 각 자료를 가장 가까운 군집 중심에 할당. 즉 자료의 군집의 중심으로부터 오차제곱합이 최소가 되도록 각 자료를 할당
- 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
- 군집 중심의 변화가 없을 때까지 단계를 반복

c. k-평균 군집의 장점
- 알고리즘이 단순
- 빠르게 수행되어 계층적 군집보다 많은 양의 자료를 처리
- 분석을 위해서 기본적으로 관찰치 간의 거리 데이터 형태(연속형), 거의 모든 형태의 데이터에 적용이 가능
- 주어진 데이터 내부 구조에 대해 사전적 정보 없이 의미 있는 자료로 분석이 가능

d. k-평균 군집의 단점
- 잡음이나 이상값에 영향을 받기 쉬움
- 이를 위해 k-medoids(중앙값) 군집을 사용하거나 k-mean 분석 전에 이상값을 제거하는 것도 방법
- 계층적 군집과 달리 사전에 군집의 수를 정해줘야 함
- 초기 군집의 수가 적합하지 않으면 좋은 결과를 얻을 수 없음
- 따라서 Nbclust 패키지를 통해 군집의 수에 대한 정보를 참고해야함

4. 혼합분포 군집
a. 혼합분포 군집이란?
- 모형 기반의 군집방법
- 데이터가 k개의 모수적모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서,
- 모수와 함께 가중치를 자료로부터 추정하는 방법
- k개의 각 모형은 군집을 의미하여,
- 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐

b. EM(Expectation Maximizaion) 알고리즘
- 혼합모형에서 모수와 가중치의 추정을 위해 사용되는 알고리즘
- 통계 모델의 수식을 정확히 풀 수 없을 때 최대가능도/최대우도(Maximun Likelihood Estimation)를 구하는데 사용된다.
- 미지의 분포 파라미터를 주어진 데이터를 가지고 예측하고 그 예측값을 다시 주어진 데이터를 기반으로 기대치를 최대화시키는
- 파라미터를 구하는 과정을 반복하면서 최적 파라미터(최대 우도추정치를 얻는 방법
- 초기 클러스터의 개수를 정해줘야 함
- k-fold cross validation으로 적절한 클러스터 개수를 찾을 수 있음

c. k-means vs 혼합분포군집
- 두 방법 모두 1개의 클러스터로 출발
- k-mean은 클러스터를 중심거리로, EM은 MSL로 거리측정
- 클러스터를 늘리면 이전보다 클러스터 중심에서 평균 거리는 짧아지고 EM은 우도가 커짐
- 혼합분포군집은 확률분포를 도임하여 군집을 수행하는 점이 다름
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 오래걸리고, 군집의 크기가 작으면 추정의 정도가 떨어짐
- k-mean 평균과 같이 이상값에 민감함

5. SOM(Self-Organizing Maps, 자기화 조직도)
a. SOM이란?
- 인공신경망의 한 종류로서 Kohonen Network에 근간을 두고 있음
- 차원축소와 군집화를 동시에 수행하는 기법
- 입력 벡터를 훈련집합에서 매치되도록 가중치를 조정하는 인공신경세포 격자에 기초한 비지도학습의 한 방법

b. SOM의 활용
- Find structures in data(구조 탐색) : 데이터의 특징을 파악하여 유사 데이터를 군집
- Dimension Reduction(차원 축소) & Visualization(시각화) : 차원을 축소하여 통상 2차원 그리드에 매핑하여 시각적으로 이해시킴

c. SOM의 과정
- SOM 맵의 노드에 대한 연결 강도로 초기화
- 입력 벡터와 경쟁층 노드간의 유클리드 거리를 계산하여 입력 벡터와 가장 짧은 노드를 선택
§ 경쟁층(competitive layer): 입력 벡터의 특성에 따라 입력 벡터가 한 점으로 클러스터링되는 층
- 선택된 노드와 이웃 노드의 가중치를 수정
- 단계를 반복하면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- 승자 독식 구조로 인해 경쟁층에서는 승자 뉴런만이 나타남
d. SOM의 장점
- 시각적으로 이해하기 쉬움
- 입력변수의 위치관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에 가깝게 표현
- 빠르게 수행됨
e. SOM vs 신경망 모형
- 신경망 모형은 연속적인 층으로 구성된 반면, SOM은 2차원의 그리드로 구성
- 신경망 모형은 에러 수정을 학습하는 반면, SOM은 경쟁 학습을 시킴
- 신경망 모형은 역전파 알고리즘이지만, SOM은 전방패스를 사용하여 속도가 매우 빠름
- SOM은 비지도학습

댓글 없음:

댓글 쓰기

18회 ADsP 합격 후기

ADP도 아니고, 겨우 ADsP인데 무척 힘들게 공부했는데ㅜㅜ 결과적으로는 좋은 결과가 나와서 행복하네요! 꽤나 아슬아슬하게 합격해서 창피하긴합니다만ㅋ 합격하면 된거지 뭐 라고 생각하려구요! 언제가 될지는 모르겠습니다만, ADP도 ...