매직코드
반응형
스타트업 다니는 3년차 데이터사이언티스트, 기술컨설턴트가 되다. (feat. 한권으로 끝내는 AI 비즈니스 모델)
News 2024. 3. 27. 19:32

직무가 바뀐 이야기 작년 12월 이후 포스팅을 못하고 있었다. 회사에서 하던 업무가 바뀌었기 때문에 이에 적응하느라 데이터 사이언티스트로써 새로운 기술을 살피고 적용해볼 시간이 없었기 때문이다. 해가 바뀌면서 내가 다니는 작은 스타트업도 조직개편을 시도했다. 사실 회사의 방향성 자체가 바뀐거라 하는 일도 많이 바뀌었다. 지난 12월달에 업로드한 포스팅을 보면 알겠지만, 거대 언어모델이 세상에 나오면서 일반적인 머신러닝, 딥러닝보다는 LLM에 더 관심이 쏠렸고, 이 LLM을 잘 이용할 수 있는 기술인 LangChain을 새롭게 배우면서 그동안 접하지 않았던 NLP에 대한 이해부터 생성형 AI에 대한 알고리즘을 공부하고, LangChain을 적용하기까지 3개월동안 열심히 달렸다. 그리고 나는 AI 개발자에서..

article thumbnail
[논문리뷰] 초거대 언어모델 연구 동향
ML&DL/paper review 2023. 12. 13. 12:24

논문을 선정한 이유 요즘 회사에서 LLM, LangChain 관련사업을 많이 하고 있는데, 원래 정형데이터나 CV를 하다가 갑자기 언어모델을 하려고하니 여러가지 부분에서 부족한 느낌을 받으면서 일하고 있었다. LLM의 최신 동향을 알고싶기도 했고, 다른곳에서는 어떻게 LLM을 사용하고 있는지 궁금해서 논문을 읽어보게 되었다. 이번 논문리뷰는 기존에 실습코드를 같이 진행했던 논문리뷰와 다르게 서베이 논문이기 때문에 논문을 잘 요약하여 그 내용을 내것으로 만드는데 중점을 두었다. 논문읽기 서론 LLM이 등장하기 전에는 번역, 요약, 질의응답, 형태소분석 등의 작업이 각각 개별적으로 연구되고 있었으나 GPT와 같은 LLM이 등장한 이후 자연어로 할 수 있는 여러가지 task들이 하나의 LLM모델이 모두 처리할..

article thumbnail
[인공지능팩토리] 랭체인코리아 밋업 2023 간단요약 및 후기
News 2023. 12. 1. 10:33

오후 3시부터 저녁 9시까지 진행된 랭체인 코리아 밋업은 쉬는시간, 저녁시간 없이 논스톱으로 진행되었다. 각 세션을 들으면서 내가 생각하기에 필기가 필요한 내용 또는 내 생각을 마구잡이로 작성한 포스팅이라 전체적인 내용이 통일성 없이 진행되더라고 감안하고 포스팅을 읽으면 좋을 것 같다. 내 생각은 회색 글자로 표시를 할 예정이라 내용만 쓱 보고 싶다면 검은색 글자만 확인하면 된다. 개인적으로 가장 흥미로웠던 세션은 Autonomous Agent in Production이었다. 내가 지금 하는 업무에 도움이 되었던 세션은 LLM Multi Agent, Enterprise 기업에서 LLM 프로덕션 사용기 정도였다. Session1. 유튭정리에서 데이터 시각화까지 이 부분은 우리 회사에서도 진행이 완료된 부분..

article thumbnail
멀티모달(Multi Modal AI) 총정리 + 예제 실습 코드
ML&DL/study 2023. 11. 21. 13:51

멀티모달이란? 멀티모달을 직역하면 여러개의 모달리티 라는 뜻이다. 멀티 = 여러개 모달 = 모달리티 모달리티는 잘 사용하지 않는 단어여서 사전을 살펴보면 "양식, 양상" 이라는 뜻을 가지고 있는데 AI에서 modality는 "데이터형식" 이라고 생각하면 될 것 같다. 결국 멀티모달AI는 여러개의 데이터 형식을 가지고 수행하는 AI 라는 뜻이다. 지도학습을 기준으로 기존 모델이 작동하는 방식을 보면 한개의 데이터 형식을 input으로 넣어서 학습시켰다. 하지만 멀티모달은 두개 이상의 데이터를 input으로 넣을 수 있다는 얘기인데 예를들면 이미지+텍스트를 input으로 넣거나 이미지+정형을 input으로 넣을 수 있다. 예전에는 영상데이터가 있으면 영상데이터를 한 프레임씩 잘라서 이미지로 변환한 다음 해당..

article thumbnail
[논문리뷰] 랭체인관련 논문 - ReAct: Synergizing Reasoning and Acting in Language Models (간단한 실습 w.python)
ML&DL/paper review 2023. 10. 13. 17:40

선행지식: LangChain에 대한 전반적인 흐름, 구조 (prompt, llm model, agents, tools etc...) 논문을 선정한 이유 요즘 랭체인을 공부하고 있는데 그 구성요소 중 하나인 Agent Types에서 가장 기본적으로 사용하는 ZERO_SHOT_REACT_DESCRIPTION에 대해서 확실하게 이해하고 싶었다. 내가 아는 react라고는 프론트엔드에서 사용하는 라이브러리뿐이다....ㅋㅋㅋ 논문읽기 Abstract 저자는 현재의 언어모델이 좋은 성능을 보였지만 "추론"과 "의사결정" 작업의 경우 좀 더 발전할 필요성이 있는것으로 본다. 논문에서는 추론과 의사결정을 잘 작업할 수 있도록 reasoning trace와 task specific actions를 잘 배치하는 방식을 연..

article thumbnail
[토이프로젝트] openAI LLM모델과 LangChain을 이용한 데이터 전처리 및 모델학습 자동화 실습코드
ML&DL/Project 2023. 8. 25. 09:59

랭체인을 공부하게 된 이유 chat gpt의 상용화로 언어모델에 대한 관심이 높아지면서 자연스럽게 LLM을 공부하고자 하는 마음이 생겼다. 특히 인터넷상에서 검색할 수 있는 것들을 학습하여 어떤 대답이든 척척 내어놓는 모습을 보면서 개인적으로 보유하거나 회사 차원에서 보유하고 있는 데이터를 학습시켜 검색을 한다면 업무의 효율성이 올라갈 것 같았다. 개인적인 데이터를 사용하는 경우에는 오픈소스로 나와있는 언어모델을 호출해서 사용하면 되지만, 회사에서 사용하고자 하는 경우 민감한 데이터의 유출이 이루어지면 안되기 때문에 로컬에서 랭체인을 사용한 챗봇을 만들려면 어떻게 하면 좋을지 궁금해졌다. 이 주제를 시도하게 된 이유 openAI에서 chat gpt를 발표한 이후 많은 사람들의 관심이 Chat으로 넘어가게..

article thumbnail
[우아한테크세미나] MLOps를 활용한 AI 서비스 개발 스토리 세미나 후기
News 2023. 7. 28. 15:42

이번에 우아한형제들에서 테크세미나의 주제를 AI와 MLOps로 정했다. 내가 일하는 직무와 관련이 많아보여 온라인으로 열심히 들었고, 내용을 기억해보고자 정리해보고 나의 의견을 좀 넣어봤다... 아래 유튜브가 세미나 원본이고 이 세미나에 대한 테크블로그는 https://techblog.woowahan.com/11582/ 이 주소로 들어가면 된다. https://www.youtube.com/watch?v=MA5A7Xqb-7U 우아한 형제들의 AI 서비스 1. 리뷰 이미지 검수: 해당 이미지가 올바른 이미지인지 검수 2. 배달 예상 시간 예측 >> 생각보다 AI가 많이 들어가지는 않았고 예상하고 있던 부분에서 AI가 사용되고 있었다. 라고 생각하자마자 다른 AI도 알려주심 ㅋㅋㅋ 3. 추천알고리즘 4. 이상..

article thumbnail
meta에서 상업용으로 오픈한 Llama2 다운받는 방법! (라마2 설치, Llama2 install, llama2 다운)
ML&DL/install 2023. 7. 21. 14:36

홈페이지에서 에세스 허용받기 홈페이지에 가서 Download the Model을 누른다. https://ai.meta.com/llama/ Llama 2 - Meta AI We have a broad range of supporters around the world who believe in our open approach to today’s AI — companies that have given early feedback and are excited to build with Llama 2, cloud providers that will include the model as part of their offering ai.meta.com 모델을 사용하기 위해서는 각각 서로 다른 url를 통해 모델을 다운로드..

article thumbnail
[토이프로젝트] 웹캠을 이용한 실시간 얼굴감지 + 감정분석 (비디오 감정분석 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 6. 5. 11:15

프로젝트를 하게된 이유 멀티모달에 관심이 생겨서 쉬운것부터 토이 프로젝트를 진행했는데 이미지, 오디오가 연속적으로 연결되어있는 비디오 데이터를 이용하는 것이야말로 멀티모달을 어느정도 공부했다고 할 수 있을 것 같아 노트북에 있는 웹캠으로 뭔가를 할 수 없을까 하다가 실시간 감정분석을 시도해보았다. 유튜브에 올라와있는 다른 멀티모달 비디오처럼 화자분석이나 마우스로 대상을 지정하면 지정된 대상의 소리만 나오는 방식의 멀티모달도 있었으나 실시간으로 내 얼굴을 통해 분석을 할 수 있다는 점에서 웹캠을 이용한 감정분석이 좀 더 흥미로웠다. 개요 감정분석이란? 감정분석은 얼굴표정, 음성, 자세 등의 다양한 신호를 분석하여 감정 상태를 이해하고 해석하는 기술로, 이번 프로젝트에서는 얼굴표정을 이용한 감정분석을 시도했..

article thumbnail
[토이프로젝트] 환자정보와 기침소리를 이용한 코로나 감염여부 판단 모델 (정형데이터 + 오디오 멀티모달 실습 코드, 머신러닝 딥러닝 프로젝트 주제)
ML&DL/Project 2023. 5. 25. 15:38

프로젝트를 하게된 이유 처음 데이터사이언티스트로 취업했을 때는 겨우 머신러닝을 사용할 줄 아는 병아리였는데 그래도 시간이 지나면서 다양한 데이터들을 다루고 모델들을 구축하다보니 점점 그 범위가 확장되어져갔다. 정형데이터를 이용한 머신러닝에 만족하다가 점점 딥러닝, 컴퓨터비전으로 영역을 넓히기도 했고, 그러다보니 자연스럽게 멀티모달에도 관심이 생겨서 토이프로젝트를 진행해봤다. 그 중에 정형데이터 + 오디오 멀티모달을 먼저 하게된 이유는 쉬워보였기 때문이다. 멀티모달을 하고자 마음먹고 여러가지 레퍼런스들을 찾으며 공부하는데 오디오 멀티모달이 가장 원초적이고 입문하기에 허들이 낮은편인것 같았다. 이미 오디오데이터도 다뤄본 적이 있었기 때문에 이해하기도 쉬웠다. 혹시 오디오데이터를 다뤄본적이 없다면 오디오데이터..

반응형