컴퓨터 지식 네트워크 - 컴퓨터 교육 - GMM(Gaussian Mixture Model) 및 EM 알고리즘에 대한 사전 이해

GMM(Gaussian Mixture Model) 및 EM 알고리즘에 대한 사전 이해

가우시안 혼합 모델(Gaussian Mixed Model)은 여러 가우스 분포 함수의 선형 조합을 의미합니다. 이론적으로 GMM은 어떤 유형의 분포에도 적합할 수 있습니다. 일반적으로 동일한 세트의 데이터에 여러 개의 분포가 포함되어 있는 문제를 해결하는 데 사용됩니다. 두 가지 다른 분포(동일한 유형의 분포이지만 다른 매개변수를 사용하거나 정규 분포 및 베르누이 분포와 같은 다른 유형의 분포)의 상황입니다.

그림 1에서 볼 수 있듯이 그림의 점은 우리가 보기에는 두 개의 클러스터로 명확하게 구분됩니다. 이 두 군집의 점은 두 개의 서로 다른 정규 분포에서 무작위로 생성됩니다. 그러나 GMM이 없으면 그림 1의 데이터는 2차원 가우스 분포로만 설명될 수 있습니다. 그림 1의 타원은 두 개의 표준 편차를 갖는 정규 분포 타원입니다. 이것은 분명히 불합리한 일이며 결국 언뜻보기에는 두 가지 범주로 나누어야하는 것 같습니다.

이제 GMM을 사용할 수 있습니다! Figure 2에서 보는 바와 같이 평면상의 데이터의 공간적 분포는 Figure 1과 같다. 이때, Figure 2의 데이터를 기술하기 위해 2개의 2차원 Gaussian 분포를 사용하는데, N(μ1, Σ1)과 N(μ2, Σ2)입니다. 그림의 두 타원은 두 가우스 분포의 두 표준편차 타원입니다. 그림의 데이터를 설명하기 위해 두 개의 2차원 가우스 분포를 사용하는 것이 분명히 더 합리적이라는 것을 알 수 있습니다. 실제로 그림의 두 군집에 있는 점은 두 개의 서로 다른 정규 분포를 통해 무작위로 생성됩니다. 두 개의 2차원 가우스 분포 N(μ1, Σ1)과 N(μ2, Σ2)을 2차원 분포로 합성하면 합성된 분포를 사용하여 그림 2의 모든 점을 설명할 수 있습니다. 가장 직관적인 방법은 이러한 두 개의 2차원 가우스 분포를 선형적으로 결합하고, 선형으로 결합된 분포를 사용하여 전체 집합의 데이터를 설명하는 것입니다. 이것이 가우스 혼합 모델(GMM)입니다.

가우스 혼합 모델(GMM)의 수학적 표현:

EM 알고리즘이라고도 알려진 기대 최대화 알고리즘은 Dempster et al이 1977년에 제안한 반복 알고리즘입니다. 이는 잠재 변수를 포함하는 확률적 매개변수 모델의 최대 우도 추정에 사용됩니다.

데이터 추가 알고리즘으로서 EM 알고리즘은 주로 현재 과학 연구 및 다양한 실제 응용 분야에서 데이터 양의 증가로 인해 데이터가 누락되거나 사용할 수 없는 문제에 대해 최근 수십 년 동안 급속하게 발전했습니다. 데이터를 추가하는 방법에는 신경망 피팅(Neural Network Fitting), 필링(Filling) 방법, 칼만 필터링(Kalman Filtering) 방법 등이 있는데, EM 알고리즘이 급속히 대중화될 수 있는 이유가 크다. 그 이유는 알고리즘이 간단하고, 꾸준히 상승하는 단계를 통해 상대적으로 안정적으로 "최적의 수렴값"을 찾을 수 있기 때문입니다.

(개인적인 이해는 숨겨진 변수가 포함된 파라메트릭 표현식을 사용하여 연속적으로 피팅하고, 최종적으로 숨겨진 변수가 없는 파라메트릭 표현식을 수렴하여 피팅하는 것입니다.)

모델 EM 훈련 과정, 직관적으로 말하면 , 이것이다: 샘플링 확률 값과 모델 확률 값의 근접성을 관찰하여 모델이 잘 맞는지 여부를 판단합니다. 그런 다음 새 모델이 샘플링 확률 값에 더 적합하도록 모델을 조정합니다. 이 프로세스는 두 확률 값이 매우 가까워질 때까지 여러 번 반복되며, 업데이트를 중단하고 모델 훈련을 완료합니다. 이제 이 과정을 알고리즘을 이용해 구현해 보겠습니다. 사용된 방법은 모델에서 생성된 데이터를 사용하여 우도 값을 결정하는 것, 즉 모델을 통해 데이터의 기대값을 계산하는 것입니다. 매개변수 μ 및 σ를 업데이트하여 기대값을 최대화합니다. 이 프로세스는 두 번의 반복 사이에 생성된 매개변수가 거의 변경되지 않을 때까지 반복될 수 있습니다. 이 프로세스는 여기 가우스 모델에서 두 개의 매개변수를 동시에 업데이트해야 한다는 점을 제외하면 k-평균(k-평균은 결과를 최대화하기 위해 클래스 중심을 지속적으로 업데이트함)의 알고리즘 훈련 프로세스와 매우 유사합니다. 분포의 표준편차 .[3]

GMM은 클러스터링에 자주 사용됩니다.

GMM 분포에서 점을 무작위로 선택하려면 실제로 두 단계로 나눌 수 있습니다. 먼저 K 구성 요소 중 하나를 무작위로 선택합니다. 실제로 선택되는 구성 요소의 계수는 Πk입니다. 이 구성 요소의 분포에서 점을 선택하는 것을 고려하십시오. 여기서는 일반적인 가우스 분포로 돌아가 이를 알려진 문제로 변환했습니다.

데이터로부터 확률 밀도를 추정하는 것을 흔히 밀도 추정이라고 합니다. 특히, 확률밀도함수의 형태를 알 때(또는 가정할 때) 매개변수를 추정하는 과정을 '모수추정'이라고 한다.

(여기서 파생 및 반복 수렴 과정은 생략되었습니다. 참고문헌 1을 참조하세요.)

실제 예: GMM을 사용하여 붓꽃 ​​데이터 세트를 클러스터링하고 make_ellipses를 통해 표현합니다.

p> p>

make_ellipses 메소드는 개념적으로 매우 간단합니다. gmm 객체(훈련 모델), 좌표축, x 및 y 좌표 인덱스를 매개변수로 사용하고, 지정된 값을 기반으로 해당 타원 그래픽을 그립니다. 좌표축.

특정 조건에서는 k-평균과 GMM 방법이 서로의 아이디어를 표현할 수 있습니다. k-평균에서는 해당 포인트에 가장 가까운 군집 중심을 기준으로 각 점의 범주를 표시합니다. 여기서는 각 군집의 규모가 가깝고 특성 분포에 불균일이 없다고 가정합니다. 이는 k-평균을 사용하기 전에 데이터를 정규화하는 것이 효과적인 이유도 설명합니다. 가우시안 혼합 모델은 각 클러스터에 대해 개별적으로 특성의 공분산 모델을 검사하므로 이 제약 조건이 적용되지 않습니다.

K-평균 알고리즘은 GMM(Gaussian Mixture Model)의 특수한 형태로 간주할 수 있습니다. 전체적으로 가우스 혼합 모델은 클러스터링 중 데이터 포인트의 소속이 가장 가까운 이웃과 관련될 뿐만 아니라 클러스터의 모양에 따라 달라지기 때문에 더 강력한 설명력을 제공할 수 있습니다. n차원 가우스 분포의 모양은 각 클러스터의 공분산에 의해 결정됩니다. 공분산 행렬에 특정 제약 조건을 추가한 후 GMM과 k-평균을 사용하여 동일한 결과를 얻을 수 있습니다.

가우스 혼합 모델을 훈련하기 위해 k-평균 방법에서 EM을 사용할 때 초기 값 설정에 매우 민감합니다. k-평균에 비해 GMM 방법은 설정할 초기 조건이 더 많습니다. 실제로는 초기 클래스 중심을 지정해야 할 뿐만 아니라 공분산 행렬과 혼합 가중치도 설정해야 합니다. k-평균을 실행하여 클래스 중심을 생성하고 이를 가우스 혼합 모델의 초기 조건으로 사용할 수 있습니다. 두 알고리즘의 처리 프로세스는 유사하며, 주요 차이점은 모델의 복잡성에 있음을 알 수 있습니다.

가우스 혼합 모델의 기본 가정은 카테고리의 비율과 카테고리의 개수는 알지만, 각 샘플의 구체적인 라벨은 알 수 없다는 점을 바탕으로 EM 모델을 사용하는 것입니다. 각 샘플을 최적화합니다. 즉, label-free 학습의 분류 문제에 적합하며 알려진 기본 가정이 필요합니다.

전반적으로 모든 비지도 기계 학습 알고리즘은 간단한 패턴을 따릅니다. 즉, 주어진 데이터 세트에서 데이터의 패턴을 설명할 수 있는 모델을 훈련합니다(그리고 기본 프로세스가 데이터를 생성할 것으로 예상합니다). 학습 프로세스에서는 일반적으로 데이터에 더 잘 맞는 모델을 얻기 위해 매개변수를 더 이상 최적화할 수 없을 때까지 반복적인 반복이 필요합니다.

1/developer/news/231599 기계 학습에서의 수학(4) - EM 알고리즘과 가우스 혼합 모델(GMM)

3/p/31103654 가우스의 원리를 설명하는 기사 혼합 모델 자세히

上篇: "마술사 미로 미로" 시즌 1 에는 몇 회가 있나요? 下篇: 한국영화' 애인' 에서 왜 여주인공이 남자 주인공에게 "아까 뜨거운 물로 바꾸지 않았다면 같이 갈 수 있을까?" 라고 말했다.
관련 내용