머신러닝 알고리즘 3. 의사결정 트리

데이터 분류 및 회귀에 사용되는 지도학습 알고리즘

데이터의 특징 속에서 분류에 큰 영향을 끼치는 특징을 발견하고 상위 노드로 선택하는 알고리즘 (스무고개와 비슷)

영향력이 큰 특징을 상위노드로, 영향력이 작은 특징은 하위 노드로 선택

데이터의 영향역의 크고 작음을 비교하기 위해 수치 필요

엔트로피 : 정보 이론적으로 불확실성을 수치로 표현한 값

정도 이득 : 불확실성이 줄어 든 정도 (기존 엔트로피 - 질문 이후의 엔트로피)

가장 효율적인 첫번째 질문을 하는것이 중요해서 효율적인 질문인지를 확인하기 위해 엔트로피를 계산하여 비교

> 한 가지 특징에 대한 엔트로피 계산

공식이 있는데 계산식의 흐름을 보자면 대충 아래와 같다.

엔트로피 = (선택된 특징 / 전체 데이터) * (원하는결과값 / 선택된 특징)

+ (선택 안된 특징 / 전체데이터) * (원하는 결과값 / 선택된 특징)

> 지니계수

데이터 특징이 이진분류로 나뉠 떄 사용

지니계수가 높을수록 순도가 높음 = 한 그룹에 모여있는 데이터들의 속성이 많이 일치

지니계수가 낮을수록 순도가 낮음 = 한 그룹에 여러 속성의 데이터들이 섞여있음

> 지니계수가 높은 특징으로 의사결정 트리 노드 결정

1. 특징으로 분리된 두 노드의 지니 계수를 구함 (P^2 + Q^2)

2. 특징에 대한 지니 계수를 구함

3. 상위 노드에서 하위노드로 가면서 데이터 분류

4. 데이터 시각화

> 장단점

장점

- 수학적인 지식 없어도 결과해석 및 이해 쉬움

- 수치데이터 및 범주 데이터 모두 사용 가능

- 모델 추론과정 시각화 가능

- 데이터에서 중요한 특성이 무엇인지 쉽게 알수 있음

단점

- 과대적합의 위험이 높음 : 학습데이터과 샘플 개수에 제한을 둬야함

- 조정해야 할 하이퍼 파라미터가 많음

티스토리툴바