데이터 분석에서 분류 알고리즘은 True/False로 결과를 나타내거나 카테고리로 나누는 경우 사용할 수 있다. 이미 알고있는 데이터의 레이블값을 통해 새로운 데이터가 어떤것으로 분류되는지 예측하는것이라고 할 수 있다. 분류 알고리즘 종류 나이브 베이즈 로지스틱 회귀 결정 트리 최소 근접 알고리즘(kNN) 서포트 벡터 머신(SVM) 신경망 앙상블 이 포스팅에서는 결정트리, 앙상블에 대해서만 다루려고 한다. 결정트리 가장 직관적인 알고리즘으로 가장 효율적인 규칙을 찾아 분류하는 알고리즘이다. 결정트리는 루트노드, 규칙노드, 리프노드로 이루어져 있고, 가능한 적은 규칙노드로 높은 예측 정확도를 가지는 것이 목표다. 아래는 예시를 들어봤다. 루트노드에 사과, 초콜릿, 바구니, 손수건이라는 데이터가 있고 이 데..
파이썬 머신러닝 완벽가이드 책을 보면서 공부하다보면 맥 사용자에게 불편한 점이 몇가지 있다. 그 중 하나는 graghviz설치 방법이 윈도우만 나와있고 MacOS버전의 설치방법이 자세히 나와있지 않다는 점이다. 검색해보면 pip install graphviz, conda install graphviz 해보라고 하는데 안되더라.... 그래서 찾아낸 제대로 설치하는 방법! 1. homebrew 설치 맥의 경우 연동이 안되는 패키지들이 있어서 이 패키지들을 연동시켜줄 다른 통로가 필요하다. 그래서 graphviz사이트에 들어가보면 sudo, homebrew를 통해서 설치하라고 나온다. 나는 homebrew를 이용해보겠다. https://brew.sh/index_ko Homebrew The Missing Pac..
머신러닝 명확한 답이 주어진 학습 데이터 세트를 통해 학습 테스트 데이터 세트를 통해 미지의 정답을 예측 > 사이킷런 이용 - sklearn.datasets : 데이터세트 생성 모듈 - sklearn.tree : 트리 기반 ML알고리즘 구현한 클래스 모임 - sklearn.npdel_selection : 데이터분리, 최적의 *하이퍼 파라미터 평가위한 모듈 * 하이퍼 파라미터 : 최적의 학습을 위해 직접 입력하는 파라미터 통칭 머신러닝 개요 1. 데이터 불러오기 2. 데이터 분리 : 학습데이터, 테스트 데이터 3. 모델 학습 : 학습데이터 이용, 머신러닝알고리즘(ML알고리즘) 적용 (x_train, y_train) 4. 예측 수행 : 테스트 데이터로 결과값 예측 (x_test) 5. 평가 : 예측된 결과값..
numpy 선형대수 기반, 다차원 배열 가능 ndarray생성 - np.arange(start, stop, step) 변수1 = np.array([3, 2, 5, 1, 4]) > sort() np.sort(변수) -> 원본 행렬 변경하지 않음 변수.sort() -> 원본 행렬 변경함 > argsort() 데이터를 오름차순으로 정렬한 이후 인덱스 값을 반환 내림차순을 원하는 경우 [::-1] 작성 변수2 = np.argsort(변수1)[::-1] > reshape() ndarray를 특정 차원 및 크기로 변환해주는 함수 변수1 = np.array(10) >> [0 1 2 3 4 5 6 7 8 9] 변수2 = 변수1.reshape(2,5) >> [[0 1 2 3 4] [5 6 7 8 9]] 변수3 = 변수1..