데이터 분류 및 회귀에 사용되는 지도학습 알고리즘
데이터의 특징 속에서 분류에 큰 영향을 끼치는 특징을 발견하고 상위 노드로 선택하는 알고리즘 (스무고개와 비슷)
영향력이 큰 특징을 상위노드로, 영향력이 작은 특징은 하위 노드로 선택
데이터의 영향역의 크고 작음을 비교하기 위해 수치 필요
엔트로피 : 정보 이론적으로 불확실성을 수치로 표현한 값
정도 이득 : 불확실성이 줄어 든 정도 (기존 엔트로피 - 질문 이후의 엔트로피)
가장 효율적인 첫번째 질문을 하는것이 중요해서 효율적인 질문인지를 확인하기 위해 엔트로피를 계산하여 비교
> 한 가지 특징에 대한 엔트로피 계산
공식이 있는데 계산식의 흐름을 보자면 대충 아래와 같다.
엔트로피 = (선택된 특징 / 전체 데이터) * (원하는결과값 / 선택된 특징)
+ (선택 안된 특징 / 전체데이터) * (원하는 결과값 / 선택된 특징)
> 지니계수
데이터 특징이 이진분류로 나뉠 떄 사용
지니계수가 높을수록 순도가 높음 = 한 그룹에 모여있는 데이터들의 속성이 많이 일치
지니계수가 낮을수록 순도가 낮음 = 한 그룹에 여러 속성의 데이터들이 섞여있음
> 지니계수가 높은 특징으로 의사결정 트리 노드 결정
1. 특징으로 분리된 두 노드의 지니 계수를 구함 (P^2 + Q^2)
2. 특징에 대한 지니 계수를 구함
3. 상위 노드에서 하위노드로 가면서 데이터 분류
4. 데이터 시각화
> 장단점
장점
- 수학적인 지식 없어도 결과해석 및 이해 쉬움
- 수치데이터 및 범주 데이터 모두 사용 가능
- 모델 추론과정 시각화 가능
- 데이터에서 중요한 특성이 무엇인지 쉽게 알수 있음
단점
- 과대적합의 위험이 높음 : 학습데이터과 샘플 개수에 제한을 둬야함
- 조정해야 할 하이퍼 파라미터가 많음
'ML&DL > study' 카테고리의 다른 글
머신러닝 알고리즘 6. 퍼셉트론 (0) | 2021.06.16 |
---|---|
머신러닝 알고리즘 5. 선형 회귀 분석 (0) | 2021.06.15 |
머신러닝 알고리즘 4. 나이브 베이즈 (0) | 2021.06.15 |
머신러닝 알고리즘 2. 서포트 벡터머신(SVM) (0) | 2021.06.11 |
머신러닝 알고리즘 1. k-최근접 이웃(kNN) (0) | 2021.06.10 |