매직코드
article thumbnail

1. 문제파악

어떤 데이터를 수집하고 분석하기 전에 문제파악과 해결의 방향성을 정한다.

실무에서 의뢰를 받는 경우라면 정해져있기 때문에 많이 고민되지 않는 부분이긴하지만

프로젝트를 진행할 때는 이 부분부터 정해야 분석의 방향을 정할 수 있다.

하지만 실제로를 그렇게 안됨.... 구할 수 있는 데이터부터 구하고 그 데이터로 어떤 분석이 가능한가에 맞춰 문제해결을 찾으려고 순서로 진행되는 편인것 같다.

 

 

 

 

> 예시

의뢰가 들어오는 경우 : 정부에서 지하철역을 새로 만들고자 하는 경우 최적의 지하철역 위치를 찾아주세요

회사 자체적으로 문제파악을 하는 경우 : 우리 회사 계열사인 제약회사의 판매량을 늘리기 위한 유의미한 분석을 해봐라

프로젝트를 하는 경우 : 누구의 입장에서 무엇이 문제이고 원하는 이익은 무엇인가를 정해서 분석을 시작

 

2. 데이터 수집

문제를 파악해서 주제를 정했다면 데이터를 수집한다.

프로젝트를 하는 경우라면 수집할 수 있는 데이터들을 구해놓고 주제를 정하기도 한다.

 

공공데이터포털 : https://www.data.go.kr/

국가통계포털 : https://kosis.kr/statisticsList/statisticsListIndex.do?parentId=I2.1&vwcd=MT_ZTITLE&menuId=M_01_01 

서울 열린데이터 광장 : https://data.seoul.go.kr/

 

공공데이터를 이용할 수도 있고 직접 크롤링해서 데이터를 수집할 수 있다.

네이버 영화 리뷰 평점, 맛집 평점, 특정 점포 주소 확보 등은 하는 방법을 검색하면 직접 할 수 있다.

 

 

 

3. EDA 탐색적 자료 분석 (+ 데이터 정제 및 전처리)

구한 데이터를 가지고 정리를 하면서 주제에 맞는 데이터들을 뽑아낼 수 있는지, 데이터간 상관관계가 있는지 확인하는 단계로 이 단계까지를 데이터 분석을 하기위한 1단계라고 볼 수 있다.

 

이 과정을 통해 회귀분석, 분류분석 중 어떤 분석을 이용할지, 주제에 맞게 머신러닝을 어떤 유형으로 학습시킬지 대략적인 그림을 그릴 수 있게된다.

 

> 시각화

시각화는 데이터를 한눈에 보기 좋게 하기위해 하는 과정이라 필요하다면 모든 과정에서 시각화를 진행하면 된다.

탐색적 자료 분석을 하면서 시각화를 하면 어떤 분석을 해야할지, 문제해결을 위해 어떤 변수를 사용해야할지 판단하기 편하게 해준다.

 

4. 분석

탐색적 자료 분석을 통해 어떻게 진행해야할 지 흐름이 정해졌다면 정제된 데이터를 가지고 분석을 시작한다.

분석을 하다가 부족한게 있으면 다시 데이터 수집, 전처리, EDA과정으로 돌아가서 여러가지 방법으로 분석을 진행한다.

 

> 회귀분석

변화하는 어떤 변수에 대한 결과값을 확인하는 형식의 분석

 

> 분류분석

변수를 가지고 T/F 형태로 결과값을 나타내는 분석

 

> 시각화

필요하다면 시각화를 해본다. 분석 결과를 쉽게 보고 유의미한 결과를 얻을수도 있다.

 

5. 머신러닝

분석결과를 가지고 새로운 변수에 대해 어떤 결과값이 나오게 될지 훈련과 테스트를 통해 예측하는 과정이다.

이 때의 결과값을 가지고 주제에 대한 해결방안, 결과를 얻을수도 있다.

 

6. 결과 발표

분석결과를 PPT로 예쁘게 발표한다.

 

profile

매직코드

@개발법사

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!