매직코드
반응형
article thumbnail
멀티모달(Multi Modal AI) 총정리 + 예제 실습 코드
ML&DL/study 2023. 11. 21. 13:51

멀티모달이란? 멀티모달을 직역하면 여러개의 모달리티 라는 뜻이다. 멀티 = 여러개 모달 = 모달리티 모달리티는 잘 사용하지 않는 단어여서 사전을 살펴보면 "양식, 양상" 이라는 뜻을 가지고 있는데 AI에서 modality는 "데이터형식" 이라고 생각하면 될 것 같다. 결국 멀티모달AI는 여러개의 데이터 형식을 가지고 수행하는 AI 라는 뜻이다. 지도학습을 기준으로 기존 모델이 작동하는 방식을 보면 한개의 데이터 형식을 input으로 넣어서 학습시켰다. 하지만 멀티모달은 두개 이상의 데이터를 input으로 넣을 수 있다는 얘기인데 예를들면 이미지+텍스트를 input으로 넣거나 이미지+정형을 input으로 넣을 수 있다. 예전에는 영상데이터가 있으면 영상데이터를 한 프레임씩 잘라서 이미지로 변환한 다음 해당..

article thumbnail
[토이프로젝트] 웹캠을 이용한 실시간 얼굴감지 + 감정분석 (비디오 감정분석 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 6. 5. 11:15

프로젝트를 하게된 이유 멀티모달에 관심이 생겨서 쉬운것부터 토이 프로젝트를 진행했는데 이미지, 오디오가 연속적으로 연결되어있는 비디오 데이터를 이용하는 것이야말로 멀티모달을 어느정도 공부했다고 할 수 있을 것 같아 노트북에 있는 웹캠으로 뭔가를 할 수 없을까 하다가 실시간 감정분석을 시도해보았다. 유튜브에 올라와있는 다른 멀티모달 비디오처럼 화자분석이나 마우스로 대상을 지정하면 지정된 대상의 소리만 나오는 방식의 멀티모달도 있었으나 실시간으로 내 얼굴을 통해 분석을 할 수 있다는 점에서 웹캠을 이용한 감정분석이 좀 더 흥미로웠다. 개요 감정분석이란? 감정분석은 얼굴표정, 음성, 자세 등의 다양한 신호를 분석하여 감정 상태를 이해하고 해석하는 기술로, 이번 프로젝트에서는 얼굴표정을 이용한 감정분석을 시도했..

article thumbnail
[토이프로젝트] 환자정보와 기침소리를 이용한 코로나 감염여부 판단 모델 (정형데이터 + 오디오 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 5. 25. 15:38

프로젝트를 하게된 이유 처음 데이터사이언티스트로 취업했을 때는 겨우 머신러닝을 사용할 줄 아는 병아리였는데 그래도 시간이 지나면서 다양한 데이터들을 다루고 모델들을 구축하다보니 점점 그 범위가 확장되어져갔다. 정형데이터를 이용한 머신러닝에 만족하다가 점점 딥러닝, 컴퓨터비전으로 영역을 넓히기도 했고, 그러다보니 자연스럽게 멀티모달에도 관심이 생겨서 토이프로젝트를 진행해봤다. 그 중에 정형데이터 + 오디오 멀티모달을 먼저 하게된 이유는 쉬워보였기 때문이다. 멀티모달을 하고자 마음먹고 여러가지 레퍼런스들을 찾으며 공부하는데 오디오 멀티모달이 가장 원초적이고 입문하기에 허들이 낮은편인것 같았다. 이미 오디오데이터도 다뤄본 적이 있었기 때문에 이해하기도 쉬웠다. 혹시 오디오데이터를 다뤄본적이 없다면 오디오데이터..

반응형