의사결정 트리란 무엇인가요?
샤오바이의 독학 여행 메모 기록. . .
참고:
결정 트리(분류 트리, 회귀 트리)
결정 트리: 이 블로그의 그림은 정말 아름답고 이해하기 쉽습니다. ㅋㅋ
의사결정나무에 대한 자세한 설명
의사결정나무는 분류와 회귀에 흔히 사용되는 지도학습 알고리즘입니다. 이 문서에서는 분류 문제에 대해서만 설명합니다.
의사결정 트리 모델은 분류 및 회귀에 사용되는 트리 구조입니다. 의사결정 트리는 노드와 방향성 간선으로 구성됩니다. 일반적으로 의사결정 트리에는 루트 노드, 여러 내부 노드 및 여러 리프 노드가 포함됩니다. 의사결정트리의 의사결정 과정은 의사결정트리의 루트 노드부터 시작되어야 하며, 테스트할 데이터는 의사결정트리의 특징 노드와 비교되며, 비교 결과에 따라 다음 비교 분기가 선택됩니다. 리프 노드는 최종 결정 결과로 사용됩니다.
간단히 말해서 의사결정 트리는 의사결정을 위해 트리 모델을 사용하는 다중 분류 모델입니다.
최적의 분할 기능을 찾으려면 먼저 몇 가지 정보를 이해해야 합니다. 이론:
순수성:
의사결정트리의 구성 과정은 순수 파티션을 찾는 과정으로 이해할 수 있습니다. 수학적으로 순수성을 사용하여 표현할 수 있습니다. 순수성을 설명하는 또 다른 방법은 대상 변수의 발산을 최소화하는 것입니다.
정보 엔트로피: 정보의 불확실성을 나타냅니다.
정보 이론에서는 무작위 이산 사건의 확률에는 불확실성이 있습니다. 이 정보의 불확실성을 측정하기 위해 정보학의 아버지인 섀넌은 정보 엔트로피라는 개념을 도입했습니다.
불확실성이 클수록 그것이 담고 있는 정보의 양도 많아지고, 정보 엔트로피는 더 높습니다.
정보 엔트로피가 클수록 순도는 낮아집니다. 세트의 모든 샘플이 균일하게 혼합되면 정보 엔트로피가 가장 크고 순도가 가장 낮습니다.
'불순물'에 대한 세 가지 고전적인 지표, 즉 정보 획득(ID3 알고리즘) 및 정보 획득률이 있습니다. (C4.5 알고리즘) 및 지니 지수(Cart 알고리즘)
정보 이득:
정보 이득은 분할이 순도를 높이고 정보 엔트로피를 감소시킬 수 있다는 것을 의미합니다. 계산 공식은 상위 노드의 정보 엔트로피에서 모든 하위 노드의 정보 엔트로피를 뺀 값입니다.
정보 획득률
정보 획득률 = 정보 획득/속성 엔트로피
지니 지수
지니 지수(지니 불순물): 다음을 나타냅니다. 표본 세트에서 무작위로 선택된 표본이 잘못 분류될 확률입니다.
즉, 지니 지수(지니 불순물) = 표본이 선택될 확률 * 표본이 잘못 분류될 확률
지니 계수의 속성은 정보 엔트로피와 동일합니다. 무작위 변수의 불확실성 측정 정도의 크기
G가 클수록 데이터의 불확실성이 높아집니다.
G가 작을수록 데이터의 불확실성이 낮아집니다.
G = 0, 데이터 세트의 모든 샘플은 동일한 카테고리에 속합니다.
자세한 참조: 기계 학습 - Gini Index
ID3 알고리즘은 다음을 기반으로 합니다. Occam의 면도날(적게 사용하면 일도 잘 할 수 있음): 결정 트리가 작을수록 큰 결정 트리보다 더 좋습니다.
ID3 알고리즘의 핵심은 각 노드를 선택하고 나누는 것입니다. 정보 획득 기능을 기반으로 의사결정 트리를 생성한 다음 재귀적으로 의사결정 트리를 구축합니다. 알고리즘은 하향식 탐욕 검색을 사용하여 가능한 의사결정 트리 공간을 탐색합니다.
구체적인 방법:
ID3의 한계:
C4.5는 ID3와 유사하지만 가장 큰 특징은 ID3의 숫자 강조를 극복한다는 것입니다. 단점: 정보 획득률이 분류 기준으로 도입되었습니다.
C4.5의 구현은 ID3의 개선을 기반으로 합니다.
정보 획득률은 값이 적은 특성을 선호합니다(분모가 작을수록 커짐). 전체)이므로 C4 .5 이득율이 가장 큰 특징으로 직접 나누는 대신 휴리스틱 방법을 사용합니다. 먼저 후보 분할 특징 중 평균보다 높은 정보 이득을 갖는 특징을 찾은 다음 다음을 갖는 것을 선택합니다. 획득률이 가장 높습니다.
C4.5의 한계:
ID3 및 C4.5에 의해 생성된 결정 트리 분기 및 규모는 상대적으로 큽니다. CART 알고리즘의 이분법은 결정 규모를 단순화할 수 있습니다. 트리를 생성하고 의사결정 트리의 효율성을 향상시킵니다.
분류 및 회귀 트리 알고리즘인 CART(분류 및 회귀 트리)는 분류와 회귀 모두에 사용될 수 있습니다. 이 부분에서는 먼저 분류 트리 생성에 중점을 둘 것입니다. ID3 및 C4.5와 달리 CART는 의사결정 트리가 이진 트리라고 가정합니다. 내부 노드 기능의 값은 "yes"와 "no"입니다. 오른쪽 분기는 "no" 값입니다. 이러한 결정 트리는 각 특성을 재귀적으로 양분하고 입력 공간(즉, 특성 공간)을 유한한 수의 단위로 나누는 것과 같습니다.
CART의 분류 트리는 Gini 지수를 사용하여 최적 특성의 최적 분할 지점을 선택합니다. 구체적인 프로세스는 다음과 같습니다.
가지치기의 목적은 결정 트리를 축소하는 것입니다. 이 단계는 너무 큰 판단 없이도 좋은 결과를 얻을 수 있다는 것입니다. 그 이유는 "과적합(overfitting)"의 발생을 방지하기 위함이다.
과적합: 모델의 훈련 결과가 "너무 좋아서" 실제 적용 과정에서 "엄격한" 상황이 발생하여 분류 오류가 발생한다는 사실을 말합니다.
과소적합: 모델의 만족스럽지 못한 학습 결과를 나타냅니다.
가지치기 방법:
참조: 기계 학습 결정 트리(1부) - —ID3, C4.5, CART(매우 상세함)
더 많은 모델이 지속적으로 업데이트되고 있습니다. . . .