매직코드
article thumbnail

사용하기 편하면서 높은 정확도를 보이는 데이터 분류를 위한 지도학습 머신러닝 알고리즘

 

결정 경계 : 서로 다른 분류 값을 결정하는 경계선 (분류선, 기준선) / 피쳐의개수 - 1 차원

세포트 벡터 : 결정 경계선과 가장 가까이 맞닿은 데이터 포인트

마진 : 서포트 벡터과 결정 경계 사이의 거리

 

svm의 목표는 마진을 최대로 하는 결정 경계를 찾는것

 

> 커널트릭

저차원에서 결정경계를 찾지 못할 때 고차원으로 데이터를 옮겨서 결정 경계를 찾는 방법

저차원의 데이터를 고차원의 데이터로 옮겨주는 매핑함수를 이용해 결정 경계선 탐색

매핑함수를 이용해 너무 많은 양의 데이터를 저차원에서 고차원으로 옮기기엔 계산량이 많아서 현실적으로 사용하기가 어려워 실제로 고차원으로 데이터를 보내진 않지만 고차원으로 보낸것과 동일한 효과를 줘서 매우 빠른 속도로 결정 경계썬을 찾는 방법

 

1차원의 데이터 결정 경계찾기 : 수직선 이용 >> 1차원에서 경계를 찾을 수 없다면 2차원으로 전달 (= 커널 트릭)

2차원의 데이터 결정 경계찾기 : 좌표평면 이용

 

여러종류의 커널 존재

- 다항식커널 : 2차원 점 --> 3차원

- RBF커널 : 2차원 점 --> 무한차원

 

> 파리미터 튜닝

파라미터 C (cost, 비용)는 허용되는 오류 양 조절 : 마진의 너비를 조정하는 파라미터

 

하드마진 : C 값이 클수록 마진은 낮아지고, 학습 에러율 감소 하는 방향으로 결정 경계선 설정

             너무 높으면 과대 적합의 위험

소프트마진 : C 값이 작을수록 마진을 최대한 높이고, 학습 에러율을 증가시키는 방향으로 결정 경계선 설정

                 너무 낮으면 과소 적합의 위험

 

 

RBF커널

- 감마 파라미터 존재 : 데이터포인트

- 커널의 데이터포인트 표준편차를 결정하는 조절변수

- 감마가 너무 크면 학습 데이터에 너무 의존해서 오버피팅이 발생 가능성 증가

 

> 장단점

장점

- 특성이 다양한 데이터 분류에 강점

- 예측 속도가 빠름

- 파라미터 Cost, gamma 조정을 통해 과대적합 및 과소적합에 대처 가능

- 적은 학습 데이터로 높은 정확를 가진 분류 기대

 

단점

- 데어터 전처리과정이 상당이 중요

- 특성이 많을 경우 결정 경계 및 데이터 시각화 어려움

- 커널 트릭 오사용시 과대적합되기 쉬움

 

profile

매직코드

@개발법사

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!