주성분분석 및 요인분석과 SPSS 구현
주성분 분석, 요인 분석 및 SPSS 구현
1. 주성분 분석
(1) 문제 제기 문제 연구에서는 생략되지 않도록 분석을 위해서는 모든 측면을 포괄하고 분석을 위한 많은 지표를 확보해야 하는 경우가 많습니다. 예를 들어, 특정 질병의 영향 요인을 연구하기 위해 환자의 인구통계학적 정보, 병력, 신체 징후, 실험실 검사 등 수십 가지 지표를 수집할 수 있습니다. 이러한 지표를 다변량 통계분석에 직접 반영하게 되면 모형이 복잡하고 불안정해질 뿐만 아니라 변수 간 다선형 선형성으로 인해 더 큰 오류가 발생할 수도 있습니다. 정보를 압축하고 변수 수를 줄이며 다중 선형성을 동시에 제거할 수 있는 방법이 있습니까? 이때 주성분 분석이 본격적으로 등장합니다. (2) 주성분 분석의 원리는 원래 n개의 변수를 재선형적으로 결합하여 n개의 새로운 변수를 생성하는 것으로 주성분 분석의 핵심이다. ". 동시에 분산 최대화의 원리에 따라 첫 번째 성분의 분산이 가장 크게 보장된 후 순차적으로 감소합니다. 이들 n개의 성분은 분산이 큰 것에서 작은 것 순으로 배열되며, 처음 m개의 성분은 원래 변수의 분산(및 변동 정보)의 대부분을 포함할 수 있습니다. 그런 다음 이 m개의 구성 요소는 원래 변수의 "주요 구성 요소"가 되며 원래 변수의 정보 대부분을 포함합니다. 획득된 주성분은 원래 변수를 필터링한 후 남은 변수가 아니라 원래 변수를 재결합한 후의 "종합 변수"입니다. 가장 간단한 2차원 데이터를 사용하여 주성분 분석의 원리를 직관적으로 설명합니다. 아래와 같이 두 개의 변수 X1 과 가 있다고 가정합니다. 좌표 변경 원리에 따라 다음을 계산할 수 있습니다. Y1 = sqrt(2)/2 * X1 sqrt(2)/2 * X2Y2 = sqrt(2)/2 * X1 – sqrt(2)/2 * X2 여기서 sqrt(x)는 x의 제곱근입니다. X1과 X2를 재선형적으로 결합하면 두 개의 새로운 변수 Y1과 Y2가 얻어집니다. 이때 Y1과 Y2는 더 이상 관련성이 없게 되며 Y1 방향의 변동(분산)은 크고 Y2 방향의 변동(분산)은 작습니다. 이때 Y1을 주성분으로 추출할 수 있습니다. X1과 X2는 원래 변수에 대한 대부분의 정보를 전달하므로 후속 통계 분석에 참여합니다. 지금까지 우리는 차원 축소와 선형성 제거라는 두 가지 문제를 해결했습니다. 2차원 이상의 데이터에 대해서는 위의 기하학적 도형으로는 직관적으로 표현할 수 없고 행렬변환을 통해서만 풀 수 있으나 본질적인 개념은 동일하다.
2. 요인 분석 (1) 원리 및 방법: 요인 분석은 주성분 분석의 확장입니다. 주성분 분석 과정에서 새 변수는 원래 변수의 선형 결합입니다. 즉, 여러 원래 변수가 선형(좌표) 변환되어 새 변수를 얻습니다. 요인분석에서는 원래 변수들 사이의 내재적 상관구조를 그룹화하는데, 상관관계가 강한 변수들을 하나의 그룹으로 묶고, 그룹 간의 상관관계는 약해져서 각 변수그룹이 기본요소(공통요인)를 나타낸다. 원래 변수 간의 복소 관계를 통해 원래 변수를 분해하여 공통 요인과 특수 요인을 얻습니다. 원래 변수를 공통 요인의 선형 조합으로 나타냅니다. 공통인자는 원래의 모든 변수에 공통되는 특성이고, 특수요인은 원래 변수의 고유한 부분입니다. 요인분석은 새로운 변수(요인)의 실제 의미에 대한 해석을 강조합니다.
예: 시장 조사에서 맛, 가격, 풍미, 패스트푸드 여부, 에너지 등 5가지 음식 지표(x1-x5)를 수집했습니다. 요인 분석 후 다음과 같은 결과를 얻었습니다. x1 = 0.02 * z1 0.99 * z2 e1x2 = 0.94 * z1 – 0.01 * z2 e2x3 = 0.13* z1 0.98 * z2 e3x4 = 0.84 * z1 0.42 * z2 e4x5 = 0.97 * z1 – 0.02 * z2 e1 (위 숫자는 변수 간 실제 상관계수를 나타내며, 값이 높을수록 상관관계가 클수록 상관관계도 커집니다.) 첫 번째 공통인자 z1은 주로 가격, 패스트푸드 여부, 에너지와 관련되어 '가격과 영양'을 나타냅니다. 두 번째 공통인자 z2는 주로 맛과 풍미와 관련되어 ''를 나타냅니다. 맛" e1-5는 공통요인 중 특수요인은 설명이 불가능하여 일반적으로 분석에서 생략된다. 동시에 후속 분석을 위해 공통 인자 z1과 z2를 원래 변수의 선형 조합으로 표현할 수도 있습니다. (2) 사용 조건: (1) 표본 크기가 충분히 큽니다. 표본 크기는 일반적으로 변수 수의 5배 이상, 케이스 수는 100개 이상이어야 합니다. (2) 원래 변수 사이에는 상관 관계가 있습니다. 변수가 서로 독립이면 요인 분석을 사용할 수 없습니다. SPSS에서는 KMO 테스트와 Bartlett 구형성 테스트를 사용하여 판단할 수 있습니다. (3) 생성된 공통인자는 실무적인 의미가 있어야 하며, 필요에 따라 요인회전(좌표변화)을 통해 이를 달성할 수 있다. 3. 주성분분석과 요인분석의 연관성과 차이점: 둘 다 차원축소와 정보집중의 방법이다. 생성된 새로운 변수는 원래 변수의 정보를 대부분 나타내며 서로 독립되어 있어 후속 회귀분석, 판별분석, 군집분석 등에 활용될 수 있습니다. 차이점: (1) 주성분 분석은 분산 최대화 방법에 따라 새로운 변수를 생성합니다. 이는 새로운 변수가 기여하는 분산의 비율을 강조하고 새로운 변수가 명확한 실제 의미를 갖는지 여부는 신경 쓰지 않습니다. (2) 요인분석은 새로운 변수가 실제적인 의미를 갖고 원래 변수 간의 내부 구조를 설명할 수 있도록 요구하는 데 중점을 둡니다. SPSS는 별도의 주성분 분석 방법을 제공하지 않고, 요인분석을 혼합하여 제공하고 있으며, 다음은 주성분 분석과 요인분석의 실시방법 및 관련 이슈를 사례를 통해 논의한다. 1. 남자 10종 경기에는 100m 달리기, 멀리뛰기, 높이뛰기, 장대높이뛰기, 포환던지기, 원반던지기, 창던지기, 400m 달리기, 1500m 달리기, 110m 등 10개 종목이 포함된다. 총점은 각 종목의 점수를 합산한 것입니다. 연구진은 표적 트레이닝을 실시하기 위해 10종 경기 능력 중 어떤 측면이 주로 테스트되는지 분석하기 위해, 연구진은 상위권 선수 134명의 10종 경기 성적표를 수집하고 요인 분석을 통해 분석 목적을 달성할 예정이다. 2. 분석 프로세스 변수 보기: 데이터 보기(부분): 메뉴 선택(분석-gt; 차원 감소-gt; 요인 분석):
요인 분석의 기본 인터페이스를 열고 10개의 결과를 선택합니다." Variables" 상자(총 점수는 포함하지 않음): "설명" 버튼을 클릭하여 대화 상자를 열고 "계수" 및 "KMO 및 Bartlett 구형성 테스트"를 선택합니다.
관련 설명 위 그림의 경우: "계수": 상관관계를 직관적으로 분석할 수 있는 변수 간의 상관계수 배열입니다. "KMO 및 Bartlett의 구형성 테스트": 변수 간에 상관 관계가 있는지 정량적으로 테스트하는 데 사용됩니다. 기본 인터페이스로 돌아가려면 "계속"을 클릭하고, 대화 상자를 열려면 "추출"을 클릭하십시오. "방법" => "주성분", "출력" => "비회전 인자 해법" 및 "화면 플롯", "추출" => "고유값 기반", 나머지 선택은 기본값입니다.
설명: ① 요인 추출 방법: 기본 주성분 방법을 선택하면 됩니다. 다른 방법의 계산 결과는 다를 수 있습니다. ②출력: "비회전 요인해"는 주성분 분석 결과입니다. Scree 플롯은 요인의 중요성을 판단하는 데 도움이 됩니다(아래 세부 정보 참조). ③추출 : 주성분(인자)을 추출하는 방법으로 일반적으로 1보다 큰 고유값을 기준으로 하며, 기본값이면 충분하다. 메인 인터페이스로 돌아가려면 "계속"을 클릭하고, 분석에 들어가려면 "확인"을 클릭하세요.
주요 출력 테이블은 다음과 같습니다. (1) 상관성 검정 요인분석은 변수들 간의 상관관계를 요구하므로 먼저 상관성 검정을 수행해야 합니다. 첫 번째 출력은 변수 간 상관계수 행렬입니다.
변수 간에 상관관계가 있음을 직관적으로 확인할 수 있습니다. 하지만 테스트가 필요하며 다음 출력은 상관관계 테스트입니다. 위 그림에는 두 가지 지표가 있습니다. 첫 번째는 KMO 값입니다. 일반적으로 0.7보다 크다면 상관관계가 있다는 의미는 아닙니다. 그들 사이. 두 번째는 P 값이 <0.001인 Bartlett의 구형성 테스트입니다. 두 지표를 결합하면 변수들 사이에 상관관계가 있음을 알 수 있으며, 요인분석이 가능하다. 그렇지 않으면 요인분석을 수행할 수 없습니다. (2) 주성분과 공통인자를 추출한 후 주성분 결과를 출력합니다.
표의 첫 번째 열에는 10개의 성분이 포함되어 있으며, 두 번째 열에는 주성분 분석 결과가 나와 있습니다. 해당 "고유값"은 설명된 분산의 크기를 나타냅니다. 세 번째 열은 전체 분산에 대한 해당 구성요소에 포함된 분산의 백분율이고, 네 번째 열은 누적 백분율입니다. 일반적으로 말하면, "고유값"이 1보다 큰 구성 요소가 주 구성 요소로 선택되며 이는 SPSS의 기본 선택이기도 합니다. 이 예에서 성분 1과 성분 2는 1보다 큰 고유값을 가지며, 함께 분산의 71.034를 설명하는데 이는 나쁘지 않습니다. 따라서 주요 모순을 포착하기 위해 1과 2를 주요 구성 요소로 추출할 수 있으며, 나머지 구성 요소는 더 적은 정보를 포함하므로 폐기됩니다. 다음으로, Scree 차트를 다음과 같이 출력합니다. Scree 차트는 지질학의 개념에서 유래합니다. 암석 경사면 아래에는 지질학적으로 거의 의미가 없는 작은 바위가 많이 있는 경우가 많습니다. Scree 플롯은 수직 축으로 고유값을 갖고 수평 축으로 성분을 갖습니다. 앞쪽의 가파른 부분은 고유값이 크고 많은 정보를 담고 있는 반면, 뒤쪽의 평평한 부분은 고유값이 작고 정보가 거의 없습니다. 그림을 보면 컴포넌트 1과 2가 대부분의 정보를 담고 있고 3부터 플랫폼에 들어가는 것을 직관적으로 알 수 있습니다. 다음으로 추출된 성분 행렬을 출력합니다.
위 표의 값은 공통 인자와 원래 변수 간의 상관 계수입니다. 절대 값이 클수록 관계가 더 가깝습니다. 공통요인 1은 9개 스포츠 항목과 양의 상관관계가 있습니다(러닝스포츠의 채점방식을 참고하세요. 시간이 짧을수록 점수가 높아집니다). 이는 '종합스포츠' 요인이라고 할 수 밖에 없는 것 같습니다. 공통인수 2는 원반, 포환던지기와는 양의 상관관계가 있고, 1500미터 달리기와 400미터 달리기와는 음의 상관관계가 있다는 것이 무슨 뜻일까요? 그것은 "이해할 수 없는" 요인이 될 수밖에 없는 것 같습니다. (3) 요인 회전 앞서 추출한 두 가지 공통 요인 중 하나는 크고 포괄적인 '종합 요인'이고, 다른 하나는 이해할 수 없는 결과를 얻는 것은 의심할 여지 없이 분석의 실패입니다. 하지만 실망하지 마십시오. 요인을 회전시켜 더 나은 설명을 얻을 수 있습니다. 대화 상자를 열려면 기본 인터페이스에서 "회전" 버튼을 클릭하십시오. "방법" = "최대 분산 방법", "출력" = "회전 솔루션".
'계속'을 클릭하고 기본 인터페이스로 돌아가서 '확인'을 클릭하여 분석을 수행하세요. 출력은 다음과 같습니다. 이는 선택 후 구성요소 매트릭스입니다. 회전 후 공통인수 1의 점수가 높을수록 달리기, 허들 모두의 성적이 나빠지고, 멀리뛰기, 장대높이뛰기 등 달리기가 필요한 종목의 성적도 나빠지는 것을 알 수 있으므로, 공통 인자 1은 달리기 능력을 나타냅니다. 역방향 지표는 "달리기 능력"이라고 할 수 있습니다. 공통인자 2는 원반, 포환던지기와 높은 양의 상관관계가 있고 창던지기, 장대높이뛰기 등 상체 근력을 요하는 종목과도 양의 상관관계가 있어 이 요인이 '상체 근력'이 될 수 있다. 회전 후에는 공통인자가 더 합리적인 설명을 갖고 있음을 알 수 있습니다. (4) 결과는 마지막에 저장되며, 이후 사용을 위해 공통 인수도 저장해야 합니다. "점수" 버튼을 클릭하여 대화 상자를 열고 "변수로 저장"을 선택한 다음 기본 "회귀" 방법을 사용하고 "요인 점수 계수 행렬 표시"를 선택합니다.
SPSS는 공통 인자의 값인 두 개의 새로운 변수를 자동으로 생성하여 데이터 끝에 넣습니다. 동시에 인자 계수 테이블이 출력됩니다:
위 그림에서 공통 인자의 표현식을 작성할 수 있습니다(F1과 F2를 사용하여 두 개의 공통 인자를 나타내고, Z1~Z10은 원래 변수는 각각): F1 = -0.16*Z1 0.161*Z2 0.145*Z3 0.199*Z4-0.131*Z5-0.167*Z6 0.137*Z7 0.174*Z8 0.131*Z9-0.037*Z10F2 위와 동일하므로 생략합니다.
여기서 변수 Z1~Z10, F1, F2는 더 이상 원래 변수가 아니라 표준 정규 변환 이후의 변수입니다.