매직코드
반응형
스타트업 다니는 3년차 데이터사이언티스트, 기술컨설턴트가 되다. (feat. 한권으로 끝내는 AI 비즈니스 모델)
News 2024. 3. 27. 19:32

직무가 바뀐 이야기 작년 12월 이후 포스팅을 못하고 있었다. 회사에서 하던 업무가 바뀌었기 때문에 이에 적응하느라 데이터 사이언티스트로써 새로운 기술을 살피고 적용해볼 시간이 없었기 때문이다. 해가 바뀌면서 내가 다니는 작은 스타트업도 조직개편을 시도했다. 사실 회사의 방향성 자체가 바뀐거라 하는 일도 많이 바뀌었다. 지난 12월달에 업로드한 포스팅을 보면 알겠지만, 거대 언어모델이 세상에 나오면서 일반적인 머신러닝, 딥러닝보다는 LLM에 더 관심이 쏠렸고, 이 LLM을 잘 이용할 수 있는 기술인 LangChain을 새롭게 배우면서 그동안 접하지 않았던 NLP에 대한 이해부터 생성형 AI에 대한 알고리즘을 공부하고, LangChain을 적용하기까지 3개월동안 열심히 달렸다. 그리고 나는 AI 개발자에서..

article thumbnail
[토이프로젝트] 웹캠을 이용한 실시간 얼굴감지 + 감정분석 (비디오 감정분석 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 6. 5. 11:15

프로젝트를 하게된 이유 멀티모달에 관심이 생겨서 쉬운것부터 토이 프로젝트를 진행했는데 이미지, 오디오가 연속적으로 연결되어있는 비디오 데이터를 이용하는 것이야말로 멀티모달을 어느정도 공부했다고 할 수 있을 것 같아 노트북에 있는 웹캠으로 뭔가를 할 수 없을까 하다가 실시간 감정분석을 시도해보았다. 유튜브에 올라와있는 다른 멀티모달 비디오처럼 화자분석이나 마우스로 대상을 지정하면 지정된 대상의 소리만 나오는 방식의 멀티모달도 있었으나 실시간으로 내 얼굴을 통해 분석을 할 수 있다는 점에서 웹캠을 이용한 감정분석이 좀 더 흥미로웠다. 개요 감정분석이란? 감정분석은 얼굴표정, 음성, 자세 등의 다양한 신호를 분석하여 감정 상태를 이해하고 해석하는 기술로, 이번 프로젝트에서는 얼굴표정을 이용한 감정분석을 시도했..

article thumbnail
[토이프로젝트] 환자정보와 기침소리를 이용한 코로나 감염여부 판단 모델 (정형데이터 + 오디오 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 5. 25. 15:38

프로젝트를 하게된 이유 처음 데이터사이언티스트로 취업했을 때는 겨우 머신러닝을 사용할 줄 아는 병아리였는데 그래도 시간이 지나면서 다양한 데이터들을 다루고 모델들을 구축하다보니 점점 그 범위가 확장되어져갔다. 정형데이터를 이용한 머신러닝에 만족하다가 점점 딥러닝, 컴퓨터비전으로 영역을 넓히기도 했고, 그러다보니 자연스럽게 멀티모달에도 관심이 생겨서 토이프로젝트를 진행해봤다. 그 중에 정형데이터 + 오디오 멀티모달을 먼저 하게된 이유는 쉬워보였기 때문이다. 멀티모달을 하고자 마음먹고 여러가지 레퍼런스들을 찾으며 공부하는데 오디오 멀티모달이 가장 원초적이고 입문하기에 허들이 낮은편인것 같았다. 이미 오디오데이터도 다뤄본 적이 있었기 때문에 이해하기도 쉬웠다. 혹시 오디오데이터를 다뤄본적이 없다면 오디오데이터..

article thumbnail
DTW 기본 설명 및 실습코드
ML&DL/Project 2022. 7. 13. 17:04

DTW(Dynamic Time Warping)은 동적 시간 워핑이라고 불린다. 두개의 시계열 데이터가 서로 얼마나 유사한지 비교할 때 사용한다. DTW를 사용하는 이유? - 두개의 시계열 데이터 길이가 달라도 유사도 비교 가능 - 비슷한 패턴이지만 시간차가 있는 경우(shift 발생) 유사도 비교 가능 DTW 계산방법 이론 공식으로 보는 방법도 있는데 예시를 들어서 계산하는게 더 이해가 잘 된다. 이론적인 설명 이후에 예시를 들어서 직접 계산해보도록 하자. 시계열 데이터 2개가 있다. 두 시계열의 길이 n, m은 길이가 같을 수도 있고 다를 수도 있다. 이 두개의 시계열을 나열하여 n x m 행렬을 만든다. 유클리드거리를 이용하여 최적의 와핑 경로를 탐색한다. 와핑경로는 두개의 시계열 데이터 P와 Q 사..

article thumbnail
진동센서 데이터 푸리에 변환과 하모닉을 이용한 고장 유형 분류 모델
ML&DL/Project 2021. 12. 22. 17:25

지난 포스팅에서 푸리에 변환에 설명했다. 이번에는 조금 다른 진동센서 데이터를 가지고 조금 다은 푸리에 변환을 해보려고 한다. 지난번 푸리에 변환에 대한 코드와 설명을 보고싶다면 아래 포스팅으로... 누수감지를 위한 진동센서 데이터 신호처리 및 누수 예측 (푸리에변환 FFT) 누수감지를 위한 진동센서 데이터 신호처리 및 누수 예측 (푸리에변환 FFT) 목표 : 누수감지를 위해 설치된 진동센서로부터 기록되는 진동데이터를 통해 정상인 상태와 누수가 진행되는 상태를 예측 방법 : 진동센서 데이터를 이용해 시간 영역 특징 추출과 주파수 변환 magicode.tistory.com 목표 : 진동센서 데이터를 통해 기계 고장 유형 분류 방법 : 시간 영역 특징 추출과 주파수 변환(fft) 및 하모닉 확인을 통한 고장..

article thumbnail
내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)
ML&DL/Project 2021. 10. 25. 13:22

이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고하면 된다. [빅데이터 프로젝트] - 빅데이터 프로젝트 1. 주제 선정 회의 빅데이터 프로젝트 1. 주제 선정 회의 팀 프로젝트의 목표 1. 배운 기술 모두 활용 2. 마감시간에 촉박하지 않게 효율적, 가성비 있게 진행 3. 컴팩트하게! 4. 포트폴리오로 썼을 때 기업에서 솔깃해 할 만한 주제 선정 기업이 알고는 있 magicode.tistory.com 데이터세트 구하기 학생때 머신러닝프로젝트를 하면서 가장 어려움을 겪는 부분은 주어지는 공공데이터가 매우 제한적이라는 점이다. 공공데..

article thumbnail
03. 얕은 신경망 네트워크 - 앤드류응(Andrew Ng)교수님 머신러닝/딥러닝 한글자막 공부하기
ML&DL/study 2021. 9. 5. 00:15

신경망 여러개의 독립변수들의 경우의 수를 모두 고려하여 최종값을 도출하는 방법이다. 간단하게 설명하자면 로지스틱 회귀를 두번 반복한것이 신경망이다. 아래는 각 값에 대한 함수식을 간단하게 표시한 것으로 특성인x, 변수인 w, b를 이용해 z를 계산하고 z를 통해 손실함수에 필요한 a값을 계산, 최종적으로는 손실함수 L을 계산한다. 신경망은 아래와같이 여러 단계에 걸쳐 나타날 수 있고, 각 단계마다 위의 식을 반복하여 z값과 a값을 구하고 마지막 단계에서 손실함수 L을 계산한다. 로지스틱회귀에서는 위 식을 한번만 계산했지만 신경망에서는 여러번 계산한다. 신경망에서 도함수를 구하려면 로지스틱회귀에서 역방향 계산을 한 것 처럼 신경망에서도 역방향 계산을 통해 도함수를 구할 수 있다. 신경망 네트워크의 구성 입..

article thumbnail
01. Intro - 앤드류 응(Andrew Ng)교수님 머신러닝/딥러닝 한글자막 공부하기
ML&DL/study 2021. 8. 9. 14:05

머신러닝, 딥러닝의 대가 앤드류 응 교수님의 강의는 총 3곳에서 들을 수 있다. 일단 앤드류 응 교수님은 홍콩계 미국인이라 한국어 강의는 없고 자막이 있는것도 찾기 힘들다. 유튜브는 가장 접근성이 좋다는 장점이 있다. 코세라는 7일간 무료로 강의를 들을 수 있고, 모든 강의를 수료하면 수료증을 받을 수 있다. 네이버 에드위드 부스트코스에 있는 강의는 코세라 강의와 동일하면서도 자막이 있고 네이버 아이디가 있다면 무료로 강의를 들을 수 있다. 그래서 나는 네이버 아이디로 부스트 코스에 있는 강의를 듣기로 했다. 1. 유튜브 - https://youtube.com/playlist?list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN Machine Learning — Andrew Ng, St..

article thumbnail
파이썬 머신러닝 04-3. 분류 알고리즘 (결정트리, 앙상블 보팅, 배깅)
ML&DL/study 2021. 7. 30. 17:43

데이터 분석에서 분류 알고리즘은 True/False로 결과를 나타내거나 카테고리로 나누는 경우 사용할 수 있다. 이미 알고있는 데이터의 레이블값을 통해 새로운 데이터가 어떤것으로 분류되는지 예측하는것이라고 할 수 있다. 분류 알고리즘 종류 나이브 베이즈 로지스틱 회귀 결정 트리 최소 근접 알고리즘(kNN) 서포트 벡터 머신(SVM) 신경망 앙상블 이 포스팅에서는 결정트리, 앙상블에 대해서만 다루려고 한다. 결정트리 가장 직관적인 알고리즘으로 가장 효율적인 규칙을 찾아 분류하는 알고리즘이다. 결정트리는 루트노드, 규칙노드, 리프노드로 이루어져 있고, 가능한 적은 규칙노드로 높은 예측 정확도를 가지는 것이 목표다. 아래는 예시를 들어봤다. 루트노드에 사과, 초콜릿, 바구니, 손수건이라는 데이터가 있고 이 데..

article thumbnail
파이썬 머신러닝 04-1. Mac에 Graghviz 설치하기
ML&DL/study 2021. 7. 20. 09:00

파이썬 머신러닝 완벽가이드 책을 보면서 공부하다보면 맥 사용자에게 불편한 점이 몇가지 있다. 그 중 하나는 graghviz설치 방법이 윈도우만 나와있고 MacOS버전의 설치방법이 자세히 나와있지 않다는 점이다. 검색해보면 pip install graphviz, conda install graphviz 해보라고 하는데 안되더라.... 그래서 찾아낸 제대로 설치하는 방법! 1. homebrew 설치 맥의 경우 연동이 안되는 패키지들이 있어서 이 패키지들을 연동시켜줄 다른 통로가 필요하다. 그래서 graphviz사이트에 들어가보면 sudo, homebrew를 통해서 설치하라고 나온다. 나는 homebrew를 이용해보겠다. https://brew.sh/index_ko Homebrew The Missing Pac..

반응형