매직코드
article thumbnail

이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데

이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다.

프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고하면 된다.

 

[빅데이터 프로젝트] - 빅데이터 프로젝트 1. 주제 선정 회의

 

빅데이터 프로젝트 1. 주제 선정 회의

팀 프로젝트의 목표 1. 배운 기술 모두 활용 2. 마감시간에 촉박하지 않게 효율적, 가성비 있게 진행 3. 컴팩트하게! 4. 포트폴리오로 썼을 때 기업에서 솔깃해 할 만한 주제 선정 기업이 알고는 있

magicode.tistory.com

 

 

데이터세트 구하기

학생때 머신러닝프로젝트를 하면서 가장 어려움을 겪는 부분은 주어지는 공공데이터가 매우 제한적이라는 점이다.

공공데이터 포털에 있는 데이터를 이용하는것도 좋은 방법이고, 특허처럼 특정 홈페이지에서 엑셀로 다운받을 수 있는 데이터가 있다면 그것을 이용하는 것도 좋은 방법이지만 다른 사람들과 데이터가 겹치지 않았으면 좋겠다면 kaggle을 이용하는것도 하나의 방법이 될 수 있다.

 

kaggle은 머신러닝, 딥러닝을 하는 사람들이 이용하는 사이트다.

캐글에 구글아이디로 로그인을 하면 현재 경합중인 머신러닝 프로젝트 주제들을 확인할 수 있다.

물론 경합이 끝난 주제들도 볼 수 있다.

이곳에서 마음에 드는 주제를 골라 데이터를 다운받고 직접 코드를 작성해보는것도 좋다.

뻔한 주제들도 있지만 뻔하지 않은 주제들도 있기 때문에 공공데이터만 활용하는 것보다 더 다양한 주제를 접할 수 있다.

캐글에서 주제를 확인하고 데이터를 다운받는 방법을 아래와 같다.

 

Overview에 있는 Description을 통해 주제가 무엇인지, 원하는 결과물은 어떤건지, 데이터는 어떻게 수집되었는지를 확인할 수 있다.

데이터분석을 할 때 이 배경지식들은 은근히 중요한 부분이기 때문에 꼼꼼히 읽어봐야한다.

영어로 되어있어도 당황하지 말고 구글 번역기를 이용하면 된다.

Data에 들어가서 데이터세트에 대한 설명을 확인할 수 있고, 대부분 빨간박스에 있는 .csv파일을 다운받아서 사용하면 된다.

다만 주제에 따라 csv파일이 아니라 다른 파일들이 주어지는 경우도 있기 때문에 어떤 파일을 사용해야할지 모르겠을 때는 Download All버튼을 눌러 모두 다운로드 해주면 된다.

 

내가 진행할 머신러닝 프로젝트 주제를 kaggle에서 가져오면 또 다른 좋은 점은 다른사람들이 올려둔 완성된 코드를 볼 수 있다는 점이다.

사실 프로젝트를 진행하면서 다른 사람의 코드를 보며 복사 붙여넣기를 하는 것은 실력향상에 큰 도움은 안되지만 마감이 빡빡한 경우에는 유용하게 참고할 수 있다.

Code 탭에 들어가서 우측 정렬을 Most Votes로 두면 가장 많은 좋아요를 받은 코드를 확인할 수 있다.

이 코드보기는 현재 경합이 진행중인 주제로 했을 경우에도 확인할 수 있다. 

정말 친절하게 모든 코드가 나와있으니 참고하면 좋을 것 같다.

 

 

 


프로젝트 주제

1. 물류센터용 택배박스 분류 모델

목표 : 주소지가 섞여있는 택배를 배달하기 좋은 최적의 그룹으로 자동분류하는 모델

데이터 : 공공데이터 중에 전국 주소지를 포함하고 있는 데이터 아무거나 (굳이 집주소가 아니여도 되기 때문에 상가 주소여도 가능)

결과 : 자동 분류 된 번호 및 시각화(분류번호별 개수 / 지역별 분포도 등)

 

2. 특허데이터 분석을 통한 기업분석

목표 : 특허를 보유하고 있는 기업 분석을 통해 우리가 몰랐던 강소기업 발굴

데이터 : 특허청에서 특정 특허를 보유하고 있는 회사 리스트

결과 : 특정 특허를 보유하고 있는 회사 발견. 취준생, 투자자 등에게 기업정보 제공 가능

>> 이 프로젝트는 내가 직접 해본 프로젝트로 당시 빅데이터 수업을 듣는 모든 취준생들에게 빅데이터 관련 회사를 추천해주는 것이 목적이었고, 빅데이터 특허를 보유하고 있는 기업을 분석해본 결과 기업 업종이 IT산업뿐만 아니라 교육, 의료, 화학 등 다양한 업종에서도 빅데이터 특허를 출원했고 관련 기술자가 필요할것이라는 인사이트를 얻었다.

 

3. 물건판매 매장의 다음달 총 매출 예측

목표 : 물건판매 매장의 다음달 총 매출 예측

데이터 : https://www.kaggle.com/c/competitive-data-science-predict-future-sales 캐글에서 확인 가능

결과 : 과거 판매 데이터를 가지고 예측모델을 만들어 매월 변경되는 제품목록에 대해 총 매출액 예측

 

4. 코로나가 디지털학습에 미치는 영향 분석

목표 : 1) 디지털 학습 현황 분석 2)지역, 정책, 인구밀집에 따른 디지털 학습 차이 분석

데이터 : https://www.kaggle.com/c/learnplatform-covid19-impact-on-digital-learning 캐글에서 확인 가능

결과 :

    디지털 학습 현황은 어떤가?

    코로나가 디지털학습에 미치는 영향은?

    인종, 민족, 지역, 인구밀집별 온라인 플랫폼 참여학생간의 차이?

    정책 및 정부의 개입이 디지털학습에 미치는 영향?

 

 

내가 진행한 토이 프로젝트 포스팅

[토이프로젝트] 환자정보와 기침소리를 이용한 코로나 감염여부 판단 모델 (정형데이터 + 오디오 멀티모달 실습 코드)

 

[토이프로젝트] 환자정보와 기침소리를 이용한 코로나 감염여부 판단 모델 (정형데이터 + 오디오

프로젝트를 하게된 이유 처음 데이터사이언티스트로 취업했을 때는 겨우 머신러닝을 사용할 줄 아는 병아리였는데 그래도 시간이 지나면서 다양한 데이터들을 다루고 모델들을 구축하다보니

magicode.tistory.com

 

 

 

profile

매직코드

@개발법사

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!