magicode
반응형
article thumbnail
빅데이터 프로젝트 2. 프로젝트 진행 흐름
ML&DL/Project 2021. 6. 23. 13:03

1. 문제파악 어떤 데이터를 수집하고 분석하기 전에 문제파악과 해결의 방향성을 정한다. 실무에서 의뢰를 받는 경우라면 정해져있기 때문에 많이 고민되지 않는 부분이긴하지만 프로젝트를 진행할 때는 이 부분부터 정해야 분석의 방향을 정할 수 있다. 하지만 실제로를 그렇게 안됨.... 구할 수 있는 데이터부터 구하고 그 데이터로 어떤 분석이 가능한가에 맞춰 문제해결을 찾으려고 순서로 진행되는 편인것 같다. > 예시 의뢰가 들어오는 경우 : 정부에서 지하철역을 새로 만들고자 하는 경우 최적의 지하철역 위치를 찾아주세요 회사 자체적으로 문제파악을 하는 경우 : 우리 회사 계열사인 제약회사의 판매량을 늘리기 위한 유의미한 분석을 해봐라 프로젝트를 하는 경우 : 누구의 입장에서 무엇이 문제이고 원하는 이익은 무엇인가를..

article thumbnail
빅데이터 프로젝트 1. 주제 선정 회의
ML&DL/Project 2021. 6. 21. 18:20

팀 프로젝트의 목표 1. 배운 기술 모두 활용 2. 마감시간에 촉박하지 않게 효율적, 가성비 있게 진행 3. 컴팩트하게! 4. 포트폴리오로 썼을 때 기업에서 솔깃해 할 만한 주제 선정 기업이 알고는 있는데 안해본거 : 데이터는 있지만 결과물이 없는 경우 팀 프로젝트 주제 크롤링을 사용해서 주제를 선정하고 공공데이터를 이용하자 주제부터 정하지 말고 데이터셋과 칼럼을 확인해보고 주제 정하기 1. 어린이집 공기질 분석을 통한 공기청정기 효율 분석 2. 교통상황에 따른 휴게소 입지 선정 3. 티머니 정보를 이용한 인구 유동 확인을 통해 광고 입지 선정 or 상가 입점 선정 4. 특허 데이터 이용 미래 기술 예측 or 마케팅 예측 5. 공공데이터 주제를 가지고 특허랑 연결시켜 현실적 상황 매칭(?) 6. 과거 데..

article thumbnail
머신러닝 알고리즘 8. 순환신경망 (RNN)
ML&DL/study 2021. 6. 18. 18:22

순차적인 데이터를 입력 받아 결과값을 도출하는데 사용하는 딥러닝 모델 대표적으로 자연어 처리에 많이 사용 이전 입력 값들이 현재 입력 값의 출력값에 영향을 줌 google은 같은 단어인데 앞뒤 단어들에 따라 명사 또는 동사로 사용된다. work도 같은 단어지만 앞뒤 단어들에 따라 동사 또는 명사로 사용된다. 이런 경우 순차적인 입력으로 이전 입력값들에 의해 지금 출력값에 영향을 준다는 것을 알 수 있다. > 메모리 셀 타임 스텝에 걸쳐서 어떤 상태를 보존하는 신경망의 구성 요소 타임 스텝 t에서 순환 뉴런의 출력은 이전 타임 스텝의 모든 입력에 대한 함수이기 때문에 이를 일종의 메모리 형태라고 말할 수 있음 RNN에서 셀이라고 말할 때는 완전 연결 신경망에서 층(layer)을 의미 LSTM - 기존 RN..

article thumbnail
머신러닝 알고리즘 8. 합성곱 신경망 (CNN)
ML&DL/study 2021. 6. 18. 12:06

CNN은 높은 정확도를 가지고 있음 자연어를 이용해서 정확도를 더 높이려는 시도중 > 완전 연결 계층의 문제점 데이터의 형상 무시 입력 데이터가 이미지인 경우, 이미지는 3차원으로 구성된 데이터지만 1차원으로 평탄화 필요 MNIST 데이터셋(1채널, 가로 28 세로 28 픽셀) 형상을 무시하고 모든 입력 데이터를 동등한 뉴런으로 취급하여 형상에 담긴 정보를 살릴 수 없음 > 합성곱 계층의 특징 입력 데이터의 형상 유지 이미지도 3차원 데이터로 입력 받으며 다음 계층에도 3차원 데이터로 전달 형상을 가진 데이터를 제대로 이해할 가능성이 큼 CNN에서 합성곱 계층의 입출력 데이터를 특징 맵이라고 함 > 합성곱 연산 - 입력 데이터에 필터를 적용 합성곱 연산을 * 기호로 표기 이미지 처리에서 말하는 필터 연산..

article thumbnail
머신러닝 알고리즘 7-2. 신경망(딥러닝) 학습
ML&DL/study 2021. 6. 18. 00:42

신경망학습은 데이터로부터 매개변수의 값을 정하는 방법 손실함수는 신경망이 학습할 수 있도록 해주는 지표로 손실함수의 결과값을 가장 작게 만드는 가중치 매개변수를 찾는게 중요함 - 훈련 데이터 : 훈련 데이터만 사용하여 학습하면서 최적의 매개변수 탐색 - 시험 데이터 : 앞서 훈련한 모델의 실력 평가 - 훈련, 시험 데이터 분리 이유 : 범용적으로 사용할 수 있는 모델 구현을 위해 - 오버피팅 : 한 데이터 셋에만 지나치게 최적화된 상태 > 신경망 특징 데이터를 보고 학습 가능 = 가중치 매개면수 값을 데이터를 보고 자동 결정한다 사람의 개입을 최소화하고 수집한 데이터로부터 답과 패턴을 찾으려는 시도 신경망은 기존 기계학습보다 사람의 개입을 더 배제할 수 있게함 > 미니배치 학습 (mini-batch) 모..

article thumbnail
머신러닝 알고리즘 7-1. 신경망(딥러닝)
ML&DL/study 2021. 6. 16. 18:30

간단하게는 입력층(0층) 은닉층(1층) 출력층(2층)으로 이루어져있다. 기존 함수에 Bias(편향)을 명시한 퍼셉트론을 포함 > 활성화함수 활성화함수는 편향값을 포함한 입력신호의 총합을 출력신호로 변환하는 함수 - 계단함수 단순 활성화함수는 주로 계단함수로 표현된다. 0의 값을 기준으로 봤을때 0보다크면 1, 0보다 작으면 0으로 정의되어있는 계단모양의 함수 - 시그모이드 함수 신경망에서 자주 이용하는 활성화함수 0과 1의 값이 아니라 연속적인 실수값을 반환해주는 함수 - 계단함수와 시그모이드 함수 비교 공통점 : 두 함수 모두 비선형함수 (신경망에서는 활성화함수로 비선형함수를 사용해야함) 차이점 : 계단함수는 0 or 1만 출력 / 시그모이드는 연속적인 실수값 출력 - ReLU함수 (Rectified ..

article thumbnail
머신러닝 알고리즘 6. 퍼셉트론
ML&DL/study 2021. 6. 16. 15:23

신경망은 1949년에 시작되어 퍼셉트론은 프랑크 로젠블라트가 1957년에 고안한 알고리즘 신경망(딥러닝)의 기원이 되는 알고리즘 퍼셉트론 perceptron : 인공 뉴런 다수의 신호를 입력 받아 하나의 신호 출력 신호 : 전류나 강물처럼 흐름이 있는 것을 상상 퍼셉트론 신호도 흐름을 만들고 정보를 앞으로 전달 퍼셉트론 신호는 흐른다(1), 안흐른다(0)의 두가지 값으로 표현 > AND 게이트 x1, x2모두 1로 입력되어야 y가 1로 출력된다. > NAND 게이트 x1, x2의 값이 모두 0이거나 서로 다른 경우 y가 1로 출력된다. > OR 게이트 x1, x2의 값이 모두 1이거나 서로 다른 경우 y가 1로 출력된다. > XOR 게이트 x1, x2의 값이 서로 다른 경우 y가 1로 출력된다. > 다층..

article thumbnail
머신러닝 알고리즘 5. 선형 회귀 분석
ML&DL/study 2021. 6. 15. 17:00

선형성*이라는 기본 가정이 충족된 상태에서 독립변수과 종속변수의 관계를 설명하거나 예측하는 통계방법 회귀분석*에서 독립변수에 따라 종속변수의 값이 일정한 패턴으로 변해사는데, 이러한 변수간의 관계를 나타내는 회귀선이 직선에 가깝게 나타나는 경우 *선형성 : 시간의 흐름에 따라 데이터가 선으로 연결됨 *회귀 : 다시 돌아간다 / 영국의 우생학자 골턴(galton)이 처음 회귀분석을 사용, 부모자식간 키의 유전적 관계 단순 선형 회귀 분석 : 독립변수가 하나인 경우 H(x) = Wx + b x : 독립변수 y : 종속변수 W : 직선의 기울기 (가중치 : weight) b : y절편 (bias) 경사 하강법 : 기울기를 잘 이용해 함수의 최소값을 찾는것 > 손실함수(loss function) = 비용함수(c..

article thumbnail
머신러닝 알고리즘 4. 나이브 베이즈
ML&DL/study 2021. 6. 15. 09:42

확률 기반 머신러닝 분류 알고리즘 데이터를 나이브(단순)하게 독립적인 사건으로 가정하고 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘 P(레이블 | 데이터 특징) = P(데이터 특징 | 레이블) * P(레이블) / P(데이터 특징) 어떤 데이터가 있을 때 그에 해당하는 레이블은 기존 데이터의 특징 및 레이블의 확률을 사용해 구할 수 있음 > 나이브 베이즈 예시 치킨집에서 저녁에 손님이 오는 경우 맥주를 주문할지 안할지 예측 시간 맥주 오전 주문 X 오전 주문 X 점심 주문 O 점심 주문 X 점심 주문 X 저녁 주문 O 저녁 주문 O 저녁 주문 O 저녁 주문 X 저녁 주문 X 나이브 베이즈 공식 이용 P(주문 | 저녁) = P(저녁 | 주문) * P(주문) / P(저녁) = (..

article thumbnail
머신러닝 알고리즘 3. 의사결정 트리
ML&DL/study 2021. 6. 14. 16:09

데이터 분류 및 회귀에 사용되는 지도학습 알고리즘 데이터의 특징 속에서 분류에 큰 영향을 끼치는 특징을 발견하고 상위 노드로 선택하는 알고리즘 (스무고개와 비슷) 영향력이 큰 특징을 상위노드로, 영향력이 작은 특징은 하위 노드로 선택 데이터의 영향역의 크고 작음을 비교하기 위해 수치 필요 엔트로피 : 정보 이론적으로 불확실성을 수치로 표현한 값 정도 이득 : 불확실성이 줄어 든 정도 (기존 엔트로피 - 질문 이후의 엔트로피) 가장 효율적인 첫번째 질문을 하는것이 중요해서 효율적인 질문인지를 확인하기 위해 엔트로피를 계산하여 비교 > 한 가지 특징에 대한 엔트로피 계산 공식이 있는데 계산식의 흐름을 보자면 대충 아래와 같다. 엔트로피 = (선택된 특징 / 전체 데이터) * (원하는결과값 / 선택된 특징) ..

반응형