클러스터 분석이란 무엇입니까?
클래스는 대상 데이터를 상대적으로 동질적인 소수의 그룹 또는 "클러스터"에 넣는 방식으로 작동합니다. 발현 데이터를 분석하려면 (1) 일련의 테스트를 통해 테스트할 유전자 세트의 변이를 표준화한 다음 선형 공분산을 쌍으로 비교합니다. (2) 예를 들어 간단한 계층적 클러스터링 방법을 사용하여 가장 밀접하게 관련된 스펙트럼을 가진 유전자를 배치하여 샘플을 클러스터링합니다. 이 클러스터링은 또한 클러스터링을 위한 유전자 그룹의 총 선형 상관 관계를 사용하여 각 실험 샘플로 확장될 수 있습니다. (3) 다차원척도분석(MDS)은 실험샘플 간의 대략적인 상관관계 정도를 2차원 유클리드 '거리'로 표시하는 방법이다. (4) K-방법 클러스터링은 클래스 멤버를 반복적으로 재분배하여 "클래스" 내 분산을 최소화하는 방법입니다.
클러스터링 방법에는 두 가지 중요한 제한 사항이 있습니다. 첫째, 클러스터링 결과가 명확하려면 잘 구분된 데이터가 필요합니다. 거의 모든 기존 알고리즘은 서로 겹치지 않는 별개의 데이터 클래스에서 동일한 클러스터를 생성합니다. 그러나 클래스가 확산되고 상호 침투하는 경우 각 알고리즘의 결과는 다소 다릅니다. 결과적으로, 각 알고리즘의 경계는 불분명해지고, 각 클러스터링 알고리즘은 자체적으로 최적의 결과를 달성하며, 데이터의 각 부분은 단일 정보 조각을 생성하게 됩니다. 동일한 데이터에 대해 서로 다른 알고리즘에 의해 생성된 서로 다른 결과를 설명하려면 다양한 판단 방식에 주의를 기울여야 합니다. 유전학자들이 어느 알고리즘(특히 경계)에서 클러스터 내용의 실제 결과를 정확하게 해석하는 것은 어렵습니다. 궁극적으로 서열 비교를 통해 클러스터 해석을 안내하려면 경험적 신뢰성이 필요합니다.
두 번째 제한은 선형 상관관계에서 발생합니다. 위의 모든 클러스터링 방법은 단순한 일대일 관계만 분석합니다. 쌍별 선형 비교이기 때문에 발현 유형 관계를 발견하는 데 필요한 계산량이 크게 줄어들지만 생물학적 시스템의 다인자 및 비선형 특성은 무시됩니다.
통계적 관점에서 군집분석은 데이터 모델링을 통해 데이터를 단순화하는 방법이다. 전통적인 통계적 군집화 분석 방법으로는 체계적 군집화, 분해, 결합, 동적 군집화, 순서화된 표본 군집화, 중첩 군집화, 퍼지 군집화 등이 있습니다. k-means, k-medoid 및 기타 알고리즘을 사용하는 클러스터 분석 도구는 SPSS, SAS 등과 같은 잘 알려진 많은 통계 분석 소프트웨어 패키지에 추가되었습니다.
머신러닝 관점에서 클러스터는 숨겨진 패턴과 동일합니다. 클러스터링은 클러스터를 검색하는 비지도 학습 프로세스입니다. 분류와 달리 비지도 학습은 사전 정의된 클래스나 클래스 레이블이 지정된 훈련 인스턴스에 의존하지 않으며 클러스터링 학습 알고리즘에 의한 레이블 자동 결정이 필요한 반면, 분류 학습의 인스턴스 또는 데이터 객체에는 클래스 레이블이 있습니다. 클러스터링은 사례 기반 학습이 아닌 관찰 학습입니다.
실용적인 관점에서 클러스터 분석은 데이터 마이닝의 주요 작업 중 하나입니다. 데이터 마이닝 기능과 관련하여 클러스터링은 데이터 분포를 얻고, 각 데이터 클러스터의 특성을 관찰하고, 특정 클러스터에 대한 추가 분석에 집중하기 위한 독립적인 도구로 사용될 수 있습니다.
클러스터 분석은 다른 데이터 마이닝 작업(예: 분류, 연결 규칙)을 위한 전처리 단계로 사용될 수도 있습니다.
데이터 마이닝 분야는 주로 대규모 데이터베이스와 데이터 웨어하우스에 대한 효율적이고 실용적인 클러스터 분석 알고리즘을 연구합니다.
클러스터 분석은 데이터 마이닝에서 매우 활발한 연구 분야로, 많은 클러스터링 알고리즘이 제안되었습니다.
이러한 알고리즘은 분할 방식, 계층적 방식, 밀도 기반 방식, 그리드 기반 방식, 모델 기반 방식으로 나눌 수 있습니다.
1 분할 방법(PAM: PArtitioning 방법) 먼저 k개의 분할을 생성하고, k는 생성할 분할 수이며, 루프를 사용하여 객체를 하나에서 분할합니다. 파티션 품질을 향상하려면 다른 파티션으로 이동하세요.
일반적인 분할 방법에는
k-평균, k-medoids, CLARA(클러스터링 LARge 애플리케이션),
CLARANS(무작위 검색 기반 클러스터링 대규모 애플리케이션)가 포함됩니다.
FCM
2 계층적 방법 주어진 데이터 세트를 분해하는 계층을 생성합니다. 이 방법은 하향식(분해)과 상향식(병합)의 두 가지 작동 모드로 나눌 수 있습니다. 분해와 병합의 단점을 보완하기 위해 계층적 병합은
루프 위치 지정과 같은 다른 클러스터링 방법과 결합되는 경우가 많습니다. 이 유형의 일반적인 방법은 다음과 같습니다.
첫 번째 방법은 BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 방법으로, 먼저 트리 구조를 사용하여 개체 집합을 나눈 다음
다른 클러스터링 방법을 사용하여 이러한 클러스터를 최적화하세요.
두 번째는 CURE(Clustering Using REprisentatives) 방식으로, 고정된 개수의 대표 개체를 사용하여 해당 클러스터를 표현한 다음 각 클러스터에 지정된 양을 할당합니다. 클러스터링 센터)가 축소됩니다.
세 번째는 클러스터 간 연결을 이용해 클러스터를 병합하는 ROCK 방식이다.
마지막 CHEMALOEN은 계층적 클러스터링 중에 동적 모델을 구성합니다.
3 밀도법을 기반으로 밀도를 기준으로 객체의 군집을 완성합니다.
DBSCAN과 같은 객체 주변의 밀도를 기반으로 클러스터를 지속적으로 증가시킵니다. 일반적인 밀도 기반 방법은 다음과 같습니다.
DBSCAN(Densit-based Spatial Clustering of Application with Noise): 이 알고리즘은 충분히 높은 밀도 영역을 지속적으로 증가시켜 클러스터링을 수행합니다. 잡음이 있는 공간 데이터베이스에서 임의 모양의 클러스터를 발견할 수 있습니다. . 이 방법은 클러스터를
"밀도 연결" 점 집합 집합으로 정의합니다.
OPTICS(클러스터링 구조를 식별하기 위한 순서 지정):
클러스터를 명시적으로 생성하지 않지만 자동 대화형 클러스터 분석을 위해 향상된 클러스터링 순서를 계산합니다. .
4 그리드 방식을 기반으로 객체 공간을 제한된 수의 단위로 먼저 분할하여 그리드 구조를 형성한 다음
그리드 구조를 사용하여 클러스터링을 완료합니다.
STING(STatistical INformation Grid)은 그리드 셀에 저장된 통계정보를 이용하여 그리드 기반 클러스터링을 수행하는 방식이다
.
CLIQUE(Clustering In QUEst)와 Wave-Cluster는 그리드 기반 방법과 밀도 기반 방법을 결합한 방법입니다
.
5 각 클러스터에 모델을 가정하고 해당 모델에 맞는 데이터를 찾는 모델 기반 접근 방식입니다. 일반적인
모델 기반 방법은 다음과 같습니다.
통계 방법 COBWEB: 일반적으로 사용되는 간단한 증분 개념 클러스터링 방법입니다. 입력 개체는 기호 수량(속성-값) 쌍을 사용하여 설명됩니다. 계층적 클러스터링을 생성하려면 분류 트리 형식을 사용하세요.
CLASSIT은 COBWEB의 또 다른 버전입니다. 연속적인 값 속성에 대해 증분 클러스터링을 수행할 수 있습니다
. 각 노드의 각 속성에 해당하는 연속 정규 분포(평균 및 분산)를 저장하고 향상된 분류 능력 설명 방법을 사용합니다. 즉, COBWEB(값)과 같은 이산 속성을 계산하지 않습니다.
Sum 대신 연속 속성을 통합합니다. 그러나 CLASSIT 방식 역시 COBWEB과 유사한 문제점을 갖고 있다.
따라서 대규모 데이터베이스를 클러스터링하는 데 적합하지 않습니다.