매직코드
반응형
article thumbnail
01. Intro - 앤드류 응(Andrew Ng)교수님 머신러닝/딥러닝 한글자막 공부하기
ML&DL/study 2021. 8. 9. 14:05

머신러닝, 딥러닝의 대가 앤드류 응 교수님의 강의는 총 3곳에서 들을 수 있다. 일단 앤드류 응 교수님은 홍콩계 미국인이라 한국어 강의는 없고 자막이 있는것도 찾기 힘들다. 유튜브는 가장 접근성이 좋다는 장점이 있다. 코세라는 7일간 무료로 강의를 들을 수 있고, 모든 강의를 수료하면 수료증을 받을 수 있다. 네이버 에드위드 부스트코스에 있는 강의는 코세라 강의와 동일하면서도 자막이 있고 네이버 아이디가 있다면 무료로 강의를 들을 수 있다. 그래서 나는 네이버 아이디로 부스트 코스에 있는 강의를 듣기로 했다. 1. 유튜브 - https://youtube.com/playlist?list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN Machine Learning — Andrew Ng, St..

article thumbnail
파이썬 머신러닝 05. 회귀
ML&DL/study 2021. 8. 4. 13:31

회귀 알고리즘을 하나하나 자세히 공부하기 보기보다는 큰 틀에서 어떤 종류의 알고리즘이 있고, 어떤 특징이 있는지 대략적으로 공부하고자 작성했다. 회귀 알고리즘? 여러 개의 독립변수과 한 개의 종속변수 간의 상관관계를 모델링하는 기법 독립변수 : 영향을 미치는 요소 종속변수 : 영향을 받는 요소 독립변수 개수 회귀계수의 결합 1개 : 단일 회귀 회귀계수가 선형 : 선형회귀 여러개 : 다중 회귀 회귀계수가 비선형 : 비선형회귀 회귀 알고리즘의 종류 - 선형회귀 : 실제 값과 예측 값의 차이를 최소화하는 직선형 회귀선을 최적화하는 방식 일반 선형회귀 릿지(L2 규제) 라쏘(L1 규제, 피쳐 선택 기능) 엘라스틱넷(릿지+라쏘) - 로지스틱 회귀 - 회귀 트리 단순 선형 회귀 하나의 특징(독립변수)을 가지고 라벨..

article thumbnail
파이썬 머신러닝 04-4. 분류 알고리즘 (앙상블 부스팅)
ML&DL/study 2021. 8. 3. 09:00

이전 포스팅과 연결됩니다 2021.07.30 - [머신러닝] - 파이썬 머신러닝 04-3. 분류 알고리즘 (결정트리, 앙상블 보팅, 배깅) 파이썬 머신러닝 04-3. 분류 알고리즘 (결정트리, 앙상블 보팅, 배깅) 데이터 분석에서 분류 알고리즘은 True/False로 결과를 나타내거나 카테고리로 나누는 경우 사용할 수 있다. 이미 알고있는 데이터의 레이블값을 통해 새로운 데이터가 어떤것으로 분류되는지 예 magicode.tistory.com 부스팅(boosting) 부스팅은 여러개의 알고리즘을 순차적으로 학습, 예측하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선해 나가면서 학습하는 방식이다. 대표적으로는 에이다부스트와 그래디언트부스트가 있다. 에이다부스트(Ada Boost)는 데이터들을 일단 분..

article thumbnail
파이썬 머신러닝 04-3. 분류 알고리즘 (결정트리, 앙상블 보팅, 배깅)
ML&DL/study 2021. 7. 30. 17:43

데이터 분석에서 분류 알고리즘은 True/False로 결과를 나타내거나 카테고리로 나누는 경우 사용할 수 있다. 이미 알고있는 데이터의 레이블값을 통해 새로운 데이터가 어떤것으로 분류되는지 예측하는것이라고 할 수 있다. 분류 알고리즘 종류 나이브 베이즈 로지스틱 회귀 결정 트리 최소 근접 알고리즘(kNN) 서포트 벡터 머신(SVM) 신경망 앙상블 이 포스팅에서는 결정트리, 앙상블에 대해서만 다루려고 한다. 결정트리 가장 직관적인 알고리즘으로 가장 효율적인 규칙을 찾아 분류하는 알고리즘이다. 결정트리는 루트노드, 규칙노드, 리프노드로 이루어져 있고, 가능한 적은 규칙노드로 높은 예측 정확도를 가지는 것이 목표다. 아래는 예시를 들어봤다. 루트노드에 사과, 초콜릿, 바구니, 손수건이라는 데이터가 있고 이 데..

article thumbnail
파이썬 머신러닝 04-2. 언더피팅, 오버피팅과 해결방안
ML&DL/study 2021. 7. 26. 16:27

머신러닝을 공부하면서 많이 만날 수 있는 문제 중 하나가 오버피팅이다. 오버피팅은 학습데이터를 지나치게 많이 학습시켜 학습데이터에는 딱 맞지만 테스트 데이터에는 맞지 않는 경우를 말한다. 반대로 언더피팅은 학습데이터의 양이 너무 적어 충분한 학습을 하지 못해 테스트 데이터로 예측하지 못하는 경우를 말한다. 위 그래프를 보면 파란 점들이 데이터고 노란 선이 예측값이다. 첫번째 그래프의 경우 언더피팅되어 데이터에 따른 예측값이 적절하지 않다. 두번째 그래프의 경우 적절하게 학습되어 데이터에 따른 예측값이 대체적으로 잘 맞는다. 세번째 그래프는 오버피팅되어 데이터에 너무 치중되어있어 예측값이 데이터에 따라 급격하게 변동한다. 머신러닝은 학습을 시키는 것이기 때문에 대부분 언더피팅보다는 학습을 너무 많이 시켜서..

article thumbnail
파이썬 머신러닝 04-1. Mac에 Graghviz 설치하기
ML&DL/study 2021. 7. 20. 09:00

파이썬 머신러닝 완벽가이드 책을 보면서 공부하다보면 맥 사용자에게 불편한 점이 몇가지 있다. 그 중 하나는 graghviz설치 방법이 윈도우만 나와있고 MacOS버전의 설치방법이 자세히 나와있지 않다는 점이다. 검색해보면 pip install graphviz, conda install graphviz 해보라고 하는데 안되더라.... 그래서 찾아낸 제대로 설치하는 방법! 1. homebrew 설치 맥의 경우 연동이 안되는 패키지들이 있어서 이 패키지들을 연동시켜줄 다른 통로가 필요하다. 그래서 graphviz사이트에 들어가보면 sudo, homebrew를 통해서 설치하라고 나온다. 나는 homebrew를 이용해보겠다. https://brew.sh/index_ko Homebrew The Missing Pac..

article thumbnail
파이썬 머신러닝 03. 평가
ML&DL/study 2021. 7. 19. 09:00

머신러닝 모델은 평가는 정확도, 정밀도, 재현율, f1, roc_auc와 같은 성능 평가 지표 사용 오차행렬 예측 Negative 예측 Positive 실제 Negative TN (True Negative) FP (False Positive) 실제 Positive FN (False Negative) TP (True Positive) 실제 값과 예측값 사이의 관계에 따라 4분행렬 기반으로 예측 성능 평가 정확도 = 예측 결과가 동일한 데이터 수 / 전체 데이터 수 = (TN + TP) / (TN + TP + FN + FP) 정밀도 = positive 예측 일치 / positive 예측 전체 = TP / (FP + TP) 재현율 = positive 예측 일치 / positive 실제값 전체 = TP / (F..

article thumbnail
파이썬 머신러닝 02. 사이킷런
ML&DL/study 2021. 7. 16. 10:56

머신러닝 명확한 답이 주어진 학습 데이터 세트를 통해 학습 테스트 데이터 세트를 통해 미지의 정답을 예측 > 사이킷런 이용 - sklearn.datasets : 데이터세트 생성 모듈 - sklearn.tree : 트리 기반 ML알고리즘 구현한 클래스 모임 - sklearn.npdel_selection : 데이터분리, 최적의 *하이퍼 파라미터 평가위한 모듈 * 하이퍼 파라미터 : 최적의 학습을 위해 직접 입력하는 파라미터 통칭 머신러닝 개요 1. 데이터 불러오기 2. 데이터 분리 : 학습데이터, 테스트 데이터 3. 모델 학습 : 학습데이터 이용, 머신러닝알고리즘(ML알고리즘) 적용 (x_train, y_train) 4. 예측 수행 : 테스트 데이터로 결과값 예측 (x_test) 5. 평가 : 예측된 결과값..

article thumbnail
파이썬 머신러닝 공부 01. 넘파이, 판다스
ML&DL/study 2021. 7. 13. 15:31

numpy 선형대수 기반, 다차원 배열 가능 ndarray생성 - np.arange(start, stop, step) 변수1 = np.array([3, 2, 5, 1, 4]) > sort() np.sort(변수) -> 원본 행렬 변경하지 않음 변수.sort() -> 원본 행렬 변경함 > argsort() 데이터를 오름차순으로 정렬한 이후 인덱스 값을 반환 내림차순을 원하는 경우 [::-1] 작성 변수2 = np.argsort(변수1)[::-1] > reshape() ndarray를 특정 차원 및 크기로 변환해주는 함수 변수1 = np.array(10) >> [0 1 2 3 4 5 6 7 8 9] 변수2 = 변수1.reshape(2,5) >> [[0 1 2 3 4] [5 6 7 8 9]] 변수3 = 변수1..

article thumbnail
빅데이터 프로젝트 3. 결과 발표
ML&DL/Project 2021. 7. 9. 17:15

데이터분석 프로젝트를 진행하게 되면서 특허를 활용하게 되었고, 특허는 수치형 자료가 많이 없기때문에 예측분석이나 머신러닝, 딥러닝을 사용하기 어려운 주제였다. 데이터분석에서 가장 중요한 누구에게 어떤 분석을 해주느냐를 고민했고, 주제선정에 오랜 시간이 결렸다. 국비과정 수업을 듣는 사람들은 대부분 취준생이고 비전공자도 많았기 때문에 우리의 데이터분석은 처음부터 빅데이터쪽 취준생(+비전공자)를 위한 분석이되었고, 이들에게 빅데이터 관련 회사를 추천해주는것이 분석의 목표였다. 팀원들의 동의를 받지 않았기에 코드는 따로 올리지 않고 분석 결과만 간략하게 소개하려고 한다. 먼저 유의미한 회사를 찾기 위해 빅데이터 관련 특허를 보유하고 있는 회사를 추천하기로 했다. 최근 10년간 등록된 빅데이터 관련 특허를 분석..

반응형