의사결정 트리란 무엇인가요?
의사결정나무(Decision Tree)는 카테고리 귀속 및 예측 관계 모델을 연구하는 데 자주 사용됩니다. 예를 들어 흡연 여부, 음주 여부, 나이, 체중 등 4가지 개인적 특성이 '암 발병 여부'에 영향을 미칠 수 있습니다. 위의 4가지 개인 특성을 독립변수(영향인자 X)인 '특성'이라고 하고, '암 여부'를 종속변수(영향항목 Y)인 '표지'라고 합니다. 의사결정나무 모델을 사용하는 경우 먼저 연령을 구분할 수 있는데, 예를 들어 70세를 경계로 삼아 70세 이상이면 '암'으로 분류될 가능성이 높아진다. 50kg을 초과하는 등 체중이 나뉜다. 50kg을 초과하면 '암'으로 분류될 가능성이 높다. 70세 이상, 체중 50kg 이상)은 암 여부 표시에 해당됩니다.
의사결정 트리는 좋은 예측 능력을 갖기 위해서는 일반적으로 데이터를 훈련 데이터와 테스트 데이터라는 두 그룹으로 나누어야 합니다. 훈련 데이터는 모델을 확립하는 데 사용됩니다. 즉, 특징 조합과 라벨 간의 일치성을 확립한 후(모델 이후) 테스트 데이터를 사용하여 현재 모델의 품질을 검증합니다. . 일반적으로 학습 데이터와 테스트 데이터의 비율은 일반적으로 9:1, 8:2, 7:3, 6:4 또는 5:5입니다. 예를 들어 9:1은 전체 데이터의 90%가 학습 모델로 사용된다는 의미입니다. , 나머지 10%는 좋은지 나쁜지 판단하는 테스트 모델로 사용됩니다.) 구체적인 비율은 연구 데이터의 양에 따라 다르며 고정된 기준은 없습니다. 예를 들어 연구 데이터가 수백 개에 불과한 경우에는 70%, 60% 또는 50%를 사용하는 것을 고려할 수 있습니다. 훈련용 데이터, 나머지 데이터는 테스트용입니다. 위에는 모델 구성 및 모델 예측이 포함됩니다. 훈련 데이터에서 얻은 모델이 우수하면 이를 저장하고 사용하기 위해 배포하는 것을 고려할 수 있습니다(이는 컴퓨터 공학의 응용 프로그램이며 SPSSAU에서는 아직 제공하지 않습니다). , 의사결정나무 모델이 구축된 후에는 신규 환자의 암 발병 여부, 암 발병 가능성 등을 예측할 수 있다.
의사결정나무 모델은 흡연 여부, 음주 여부, 나이, 체중 등 위의 4가지 항목 등 특성의 질을 판단하는 데 사용할 수 있습니다. 암에 걸렸는지 여부'를 기준으로 가장 유용한 기능을 필터링할 수 있습니다.
의사결정 트리 모델을 구축할 때 좋은 모델을 구축하기 위한 목적으로 매개변수를 설정해야 합니다. (좋은 모델의 기준은 일반적으로 훈련 데이터에서 얻은 모델 평가 결과가 좋고, 그리고 좋은 데이터를 테스트할 때의 평가 결과). 특히 주의가 필요한 점은 훈련 데이터에 대한 모델의 평가 결과는 매우 좋을 수 있지만(정확도 및 기타 지표도 100%임) 테스트 데이터에 대한 평가 결과는 정말 나쁜 상황이라고 합니다. '과적합'. 따라서 실제 연구자료에서는 이러한 상황에 특별한 주의가 요구된다. 모델을 구축할 때 일반적으로 매개변수 설정이 복잡할수록 훈련 데이터에 대한 모델 평가 결과는 좋아지지만 테스트 결과는 매우 좋지 않습니다. 따라서 의사결정 트리를 구축할 때 특별한 주의가 필요합니다. 다음으로 이를 설명하기 위해 사례 데이터를 사용하겠습니다. SPSSAU의 작동은 다음과 같습니다:
기본 훈련 세트 비율은 0.8이며, 이는 의사결정 트리 모델 훈련을 위한 80%(150*0.8=120개 샘플)이고 나머지 20%는 30개의 샘플(테스트 데이터)이며 모델 검증에 사용됩니다. 대부분의 경우 데이터가 먼저 표준화되고 처리 방법은 일반적으로 일반 정규화입니다. 이 처리의 목적은 데이터가 일관된 차원을 유지하도록 하는 것입니다. 물론 간격화, 정규화 등과 같은 다른 차원 방법도 사용할 수 있습니다.
그런 다음 다음과 같이 매개변수를 설정합니다.
노드 분할 표준의 기본값은 지니 계수입니다(이 매개변수 값은 분할 표준을 계산하는 방법일 뿐이므로 설정할 필요가 없습니다). ), 노드 분할 방법이 가장 좋은 방법입니다. 즉, 매개변수 비교를 위해 고려해야 할 경우 매개변수 값을 무작위로 전환하는 것이 좋습니다. 모델 훈련 효과를 비교하기 위해 무작위 특성의 우선순위를 정합니다.
노드 열의 기본 최소 샘플 크기는 2이고 리프 노드의 최소 샘플 크기는 1입니다. 데이터의 양이 많은 경우에는 과적합 현상을 줄이기 위해 두 매개변수 값을 최대한 크게 하는 것이 좋습니다. 훈련 모델의 효과는 일반적으로 다음과 같습니다. 훈련 모델은 과적합되기 쉽기 때문에 구체적인 세부 사항은 테스트 데이터의 피팅 효과를 기반으로 해야 합니다.
트리의 최대 깊이를 매개변수로 사용하는 경우 이는 의사결정 트리의 최대 레이어 수를 나타냅니다. 이 매개변수의 값이 클수록 훈련 모델 피팅 효과는 일반적으로 더 좋아지지만 이로 인해 발생할 수 있습니다. 과적합. 이 경우는 데모용으로, 먼저 레이어 4로 설정됩니다. (또 다른 팁: 트리의 최대 깊이는 노드 분할의 최소 샘플 크기와 리프 노드의 최소 샘플 크기에 의해 영향을 받습니다. 4로 설정하면 반드시 4가 된다는 의미는 아닙니다.)
일부 SPSSAU 결과의 예: