매직코드
반응형
스타트업 다니는 3년차 데이터사이언티스트, 기술컨설턴트가 되다. (feat. 한권으로 끝내는 AI 비즈니스 모델)
News 2024. 3. 27. 19:32

직무가 바뀐 이야기 작년 12월 이후 포스팅을 못하고 있었다. 회사에서 하던 업무가 바뀌었기 때문에 이에 적응하느라 데이터 사이언티스트로써 새로운 기술을 살피고 적용해볼 시간이 없었기 때문이다. 해가 바뀌면서 내가 다니는 작은 스타트업도 조직개편을 시도했다. 사실 회사의 방향성 자체가 바뀐거라 하는 일도 많이 바뀌었다. 지난 12월달에 업로드한 포스팅을 보면 알겠지만, 거대 언어모델이 세상에 나오면서 일반적인 머신러닝, 딥러닝보다는 LLM에 더 관심이 쏠렸고, 이 LLM을 잘 이용할 수 있는 기술인 LangChain을 새롭게 배우면서 그동안 접하지 않았던 NLP에 대한 이해부터 생성형 AI에 대한 알고리즘을 공부하고, LangChain을 적용하기까지 3개월동안 열심히 달렸다. 그리고 나는 AI 개발자에서..

article thumbnail
[토이프로젝트] 웹캠을 이용한 실시간 얼굴감지 + 감정분석 (비디오 감정분석 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 6. 5. 11:15

프로젝트를 하게된 이유 멀티모달에 관심이 생겨서 쉬운것부터 토이 프로젝트를 진행했는데 이미지, 오디오가 연속적으로 연결되어있는 비디오 데이터를 이용하는 것이야말로 멀티모달을 어느정도 공부했다고 할 수 있을 것 같아 노트북에 있는 웹캠으로 뭔가를 할 수 없을까 하다가 실시간 감정분석을 시도해보았다. 유튜브에 올라와있는 다른 멀티모달 비디오처럼 화자분석이나 마우스로 대상을 지정하면 지정된 대상의 소리만 나오는 방식의 멀티모달도 있었으나 실시간으로 내 얼굴을 통해 분석을 할 수 있다는 점에서 웹캠을 이용한 감정분석이 좀 더 흥미로웠다. 개요 감정분석이란? 감정분석은 얼굴표정, 음성, 자세 등의 다양한 신호를 분석하여 감정 상태를 이해하고 해석하는 기술로, 이번 프로젝트에서는 얼굴표정을 이용한 감정분석을 시도했..

article thumbnail
[토이프로젝트] 환자정보와 기침소리를 이용한 코로나 감염여부 판단 모델 (정형데이터 + 오디오 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 5. 25. 15:38

프로젝트를 하게된 이유 처음 데이터사이언티스트로 취업했을 때는 겨우 머신러닝을 사용할 줄 아는 병아리였는데 그래도 시간이 지나면서 다양한 데이터들을 다루고 모델들을 구축하다보니 점점 그 범위가 확장되어져갔다. 정형데이터를 이용한 머신러닝에 만족하다가 점점 딥러닝, 컴퓨터비전으로 영역을 넓히기도 했고, 그러다보니 자연스럽게 멀티모달에도 관심이 생겨서 토이프로젝트를 진행해봤다. 그 중에 정형데이터 + 오디오 멀티모달을 먼저 하게된 이유는 쉬워보였기 때문이다. 멀티모달을 하고자 마음먹고 여러가지 레퍼런스들을 찾으며 공부하는데 오디오 멀티모달이 가장 원초적이고 입문하기에 허들이 낮은편인것 같았다. 이미 오디오데이터도 다뤄본 적이 있었기 때문에 이해하기도 쉬웠다. 혹시 오디오데이터를 다뤄본적이 없다면 오디오데이터..

article thumbnail
[코드] keras에서 제공하는 fashion mnist 이미지 분류모델 실습.쥬피터
ML&DL/Project 2021. 12. 10. 14:53

1. 라이브러리 # 필요한 라이브러리 불러오기 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt from tensorflow import keras tf.random.set_seed(777) # for reproducibility print(tf.__version__) 2. 데이터 확인 fashion = tf.keras.datasets.fashion_mnist (train_images, train_labels), (test_images, test_labels) = fashion.load_data() class_names = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',..

article thumbnail
내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)
ML&DL/Project 2021. 10. 25. 13:22

이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고하면 된다. [빅데이터 프로젝트] - 빅데이터 프로젝트 1. 주제 선정 회의 빅데이터 프로젝트 1. 주제 선정 회의 팀 프로젝트의 목표 1. 배운 기술 모두 활용 2. 마감시간에 촉박하지 않게 효율적, 가성비 있게 진행 3. 컴팩트하게! 4. 포트폴리오로 썼을 때 기업에서 솔깃해 할 만한 주제 선정 기업이 알고는 있 magicode.tistory.com 데이터세트 구하기 학생때 머신러닝프로젝트를 하면서 가장 어려움을 겪는 부분은 주어지는 공공데이터가 매우 제한적이라는 점이다. 공공데..

article thumbnail
03. 얕은 신경망 네트워크 - 앤드류응(Andrew Ng)교수님 머신러닝/딥러닝 한글자막 공부하기
ML&DL/study 2021. 9. 5. 00:15

신경망 여러개의 독립변수들의 경우의 수를 모두 고려하여 최종값을 도출하는 방법이다. 간단하게 설명하자면 로지스틱 회귀를 두번 반복한것이 신경망이다. 아래는 각 값에 대한 함수식을 간단하게 표시한 것으로 특성인x, 변수인 w, b를 이용해 z를 계산하고 z를 통해 손실함수에 필요한 a값을 계산, 최종적으로는 손실함수 L을 계산한다. 신경망은 아래와같이 여러 단계에 걸쳐 나타날 수 있고, 각 단계마다 위의 식을 반복하여 z값과 a값을 구하고 마지막 단계에서 손실함수 L을 계산한다. 로지스틱회귀에서는 위 식을 한번만 계산했지만 신경망에서는 여러번 계산한다. 신경망에서 도함수를 구하려면 로지스틱회귀에서 역방향 계산을 한 것 처럼 신경망에서도 역방향 계산을 통해 도함수를 구할 수 있다. 신경망 네트워크의 구성 입..

article thumbnail
머신러닝 알고리즘 7-2. 신경망(딥러닝) 학습
ML&DL/study 2021. 6. 18. 00:42

신경망학습은 데이터로부터 매개변수의 값을 정하는 방법 손실함수는 신경망이 학습할 수 있도록 해주는 지표로 손실함수의 결과값을 가장 작게 만드는 가중치 매개변수를 찾는게 중요함 - 훈련 데이터 : 훈련 데이터만 사용하여 학습하면서 최적의 매개변수 탐색 - 시험 데이터 : 앞서 훈련한 모델의 실력 평가 - 훈련, 시험 데이터 분리 이유 : 범용적으로 사용할 수 있는 모델 구현을 위해 - 오버피팅 : 한 데이터 셋에만 지나치게 최적화된 상태 > 신경망 특징 데이터를 보고 학습 가능 = 가중치 매개면수 값을 데이터를 보고 자동 결정한다 사람의 개입을 최소화하고 수집한 데이터로부터 답과 패턴을 찾으려는 시도 신경망은 기존 기계학습보다 사람의 개입을 더 배제할 수 있게함 > 미니배치 학습 (mini-batch) 모..

article thumbnail
머신러닝 알고리즘 7-1. 신경망(딥러닝)
ML&DL/study 2021. 6. 16. 18:30

간단하게는 입력층(0층) 은닉층(1층) 출력층(2층)으로 이루어져있다. 기존 함수에 Bias(편향)을 명시한 퍼셉트론을 포함 > 활성화함수 활성화함수는 편향값을 포함한 입력신호의 총합을 출력신호로 변환하는 함수 - 계단함수 단순 활성화함수는 주로 계단함수로 표현된다. 0의 값을 기준으로 봤을때 0보다크면 1, 0보다 작으면 0으로 정의되어있는 계단모양의 함수 - 시그모이드 함수 신경망에서 자주 이용하는 활성화함수 0과 1의 값이 아니라 연속적인 실수값을 반환해주는 함수 - 계단함수와 시그모이드 함수 비교 공통점 : 두 함수 모두 비선형함수 (신경망에서는 활성화함수로 비선형함수를 사용해야함) 차이점 : 계단함수는 0 or 1만 출력 / 시그모이드는 연속적인 실수값 출력 - ReLU함수 (Rectified ..

반응형