정보 엔트로피, 조건부 엔트로피, 정보 획득, 정보 획득률
1. 정보 엔트로피
1. 정보 엔트로피의 배경
정보 과학의 관점에서 보면 우리는 정보 폭발 시대에 살고 있습니다. 본질은 정보의 비대칭성을 끊임없이 깨뜨리는 것입니다. 우리는 불확실성을 싫어하며, 모든 불확실성을 예측하고 통제할 수 있는 것으로 바꾸려고 평생을 보냅니다.
2. 정보 엔트로피란 무엇인가
정보학에서는 수신자 입장에서는 발신자가 보내는 정보가 불확실하므로 수신자 입장에서는 수신되는 정보가 무작위적이며, 엔트로피 개념이 여기에 소개되었습니다. 통계에서 엔트로피의 개념은 시스템에서 가능한 상태 수의 로그입니다. 수신자에게 있어서 수신할 수 있는 정보의 개수는 무작위적이지만, 수신할 수 있는 정보 개수의 로그는 항상 범위 내에 있습니다.
3. 정보 엔트로피의 공식
엔트로피를 계산하려면 모든 범주의 가능한 모든 값에 포함된 기대값을 계산해야 합니다. 즉, 정보 엔트로피는 더 커집니다.
? , 여기서 m은 사물을 k개 유형으로 분류할 확률을 나타내고, k개 유형으로 분류할 확률을 나타냅니다.
4. 정보 엔트로피 사용 시나리오
카트 가지치기에는 일반적으로 지니 계수 또는 정보 엔트로피를 사용하는 두 가지 유형이 있습니다.
5. 정보 엔트로피의 문제점
정보 엔트로피 공식을 통해 정보가 확실할수록 정보 엔트로피가 작아지는 것을 알 수 있습니다. 생활 시나리오에서 ID와 같은 특징에 대한 정보 엔트로피 공식으로 계산된 정보 엔트로피는 매우 높지만 실제로 이 특징은 ID 번호, 휴대전화 번호 등 우리의 판단과 의사 결정에 매우 작은 역할을 합니다. 정보. ?
2. 조건부 엔트로피
1. 조건부 엔트로피의 배경
일부 기능에는 많은 엔트로피가 있다는 것을 알고 있지만 이 기능이 실제로 중요한 것은 무엇입니까? 나에게 의사결정은 얼마나 중요한가? 이때 우리는 조건부 확률을 쉽게 떠올릴 수 있다. 이때 조건부 엔트로피라는 개념을 도입했다.
2. 조건부 엔트로피란 무엇인가요?
조건부 엔트로피는 알려진 확률변수 X의 조건에서 확률변수 Y의 불확실성을 나타냅니다.
3. 조건부 엔트로피 공식
확률변수 X의 주어진 조건에서 확률변수 Y의 조건부 엔트로피 공식은 다음과 같습니다.
?
그 중
3. 정보 획득
1. 정보 획득 배경
우리 삶의 장면을 예로 들어 보겠습니다. , 친한 친구가 전화해서 데이트하자고 쇼핑을 갔는데, 쇼핑 후에 냄비밥을 먹기로 했다고 하더군요. 그날 눈이 왔는데, 이때 마침 생리 중이었어요. 갈 것인지, 가지 않을 것인지 두 가지 결정을 내려야 했습니다. 여기서는 위 시나리오의 정보를 다음과 같이 요약합니다: 물건 구입(옷 구입? 가방 구입? 신발 구입? 꽃 구입? 생활용품 구입?), 먹기(전골 먹기? 꼬치 먹기? 간식 먹기? 피자 먹기?) , 날씨(비? 눈? 맑음? 흐린?), 기간(예? 아니오?), 채팅 등 많은 특성 중 갈지 말지를 결정하는 중요한 요소는 무엇일까요? 정보 엔트로피의 관점에서만 보면 어떤 특징이 더 많은 속성을 가질수록 정보 엔트로피가 크고 중요도가 높아지지만 그렇지 않습니다. 나에게 가는 이유는 물건을 사거나 무엇을 먹을지 중요하지 않을 수 있지만 오랫동안 그녀를 보지 못했고 그녀가 너무 그리워서 "채팅"이라는 기능이 내가 할 것인지를 결정합니다. 이 결정에 가기로 결정했습니다. 종합해보면, "채팅을 통해 약속 장소에 가기로 결정하는 확신이 크게 높아졌습니다."
2. 정보 이득이란
정보 이득은 특성 X의 정보를 알면 클래스 Y의 정보 불확실성이 감소하는 정도를 나타냅니다.
3. 정보 획득 공식
여기서 D는 결정이고 A는 조건부 특성입니다
4. 정보 획득 사용 시나리오 정보 처리에 있어서 ID3 알고리즘의 핵심은 결정 트리의 각 노드에서 정보 획득 기준에 해당하는 특징을 선택하고 결정 트리를 반복적으로 구성하는 것입니다.
5. 정보 획득 문제
정보 획득 공식을 통해 이전의 고유 ID 특징 정보 엔트로피 문제가 해결되지 않았음을 알 수 있습니다. 그렇다면 id 특성의 과도한 정보 엔트로피 문제를 균형있게 맞출 수 있는 방법은 없을까요? 전체 계산 결과의 균형을 맞추기 위해 특성 id 자체의 정보 엔트로피를 분모로 사용한다고 생각하기 쉽습니다. 정보 획득률의 개념.
4. 정보 획득률
1. 정보 획득률의 배경
노드 분할 정보 측정에 대한 노드 정보의 비율을 나타내는 정보 획득률 , 획득률은 일반적으로 속성 선택 방법 중 하나로 사용됩니다
2. 정보 획득률이란
노드 분할에 대한 노드 정보의 비율을 나타냅니다. 정보 측정, 이득율은 일반적으로 속성 선택 방법 중 하나로 사용됩니다
3. 정보 이득율 공식
위 사진은 훔친 사진이며 설명은 비교적 명확합니다. , 여기서는 반복하지 않겠습니다.
4. 정보 획득률 사용 시나리오
C4.5 알고리즘은 정보 획득률을 가지치기 조건으로 사용합니다.
5. 참고자료
blogs.com/ironan-liu/p/11769229.html