[인공지능팩토리] 랭체인코리아 밋업 2023 간단요약 및 후기

오후 3시부터 저녁 9시까지 진행된 랭체인 코리아 밋업은 쉬는시간, 저녁시간 없이 논스톱으로 진행되었다.

각 세션을 들으면서 내가 생각하기에 필기가 필요한 내용 또는 내 생각을 마구잡이로 작성한 포스팅이라 전체적인 내용이 통일성 없이 진행되더라고 감안하고 포스팅을 읽으면 좋을 것 같다. 내 생각은 회색 글자로 표시를 할 예정이라 내용만 쓱 보고 싶다면 검은색 글자만 확인하면 된다.

개인적으로 가장 흥미로웠던 세션은 Autonomous Agent in Production이었다.

내가 지금 하는 업무에 도움이 되었던 세션은 LLM Multi Agent, Enterprise 기업에서 LLM 프로덕션 사용기 정도였다.

Session1. 유튭정리에서 데이터 시각화까지

이 부분은 우리 회사에서도 진행이 완료된 부분이라 흐음~

딱히 큰 감흥은 없었다.

유튜브 API를 통해서 영상 요약하는 것은 이미 서비스를 제공하는 사이트도 있고

랭체인을 통해 데이터 시각화하는거는 이미 내 이전 포스팅에서도 나혼자 진행해봤던 부분이라 좀 더 깊이 있는 내용을 원했다.

밋업에서는 데이터 시각화까지만 알려줬지만 내 포스팅을 보면 머신러닝을 통한 예측까지 가능하다.

[ML&DL/Project] - [토이프로젝트] openAI LLM모델과 LangChain을 이용한 데이터 전처리 및 모델학습 자동화 실습코드

[토이프로젝트] openAI LLM모델과 LangChain을 이용한 데이터 전처리 및 모델학습 자동화 실습코드

랭체인을 공부하게 된 이유 chat gpt의 상용화로 언어모델에 대한 관심이 높아지면서 자연스럽게 LLM을 공부하고자 하는 마음이 생겼다. 특히 인터넷상에서 검색할 수 있는 것들을 학습하여 어떤

magicode.tistory.com

Session2. 최신 OpenAI API와 랭체인 OpenGPTs 살펴보기

이번에 바뀐 openai playground부터 다양한 기능들을 활용하는 방법을 소개했다.

system, user, assistant, function 4개의 주요 기능을 통해 기본 챗봇을 만들 수 있다.

이번에 새로 추가된 assistant와 thread는 서로 다른 기능으로 thread를 통해 대화를 실행시키면 해당 내용에 따라 assistant가 실행되는 형식이다. 굳이 이렇게 나눠진 이유는 다양한 tool이 들어오면서 그 과정이 복잡해지는 경우 thread는 일단 실행시키고 thread에 맞게 assistant를 실행하는게 효율적이기 때문인 것 같다는 연사님의 의견이 있었다.

https://github.com/langchain-ai/opengpts

이 깃헙을 통해 open gpts를 사용할 수 있고, 개별적으로 agent를 구축하여 사용할 수 있다.

로컬에 open gpts를 맞춤형으로 구축하고 사용자들이 원하는 챗봇을 만들 수 있게끔 지원한다.

기본적으로 우리가 만들고 있는 랭체인 프로세스랑 비슷하게 진행이 되고 있고, duckduckgo_search를 사용한다.

인공지능 팩토리에서는 open gpts를 이용한 사용자 친화적 챗봇 만들기 서비스 WERT(버트)를 만들었다.

1) data를 먼저 넣어주고

2) prompt에 역할, 원하는 지문, 환경, 원하는 output를 지정하면

3) 해당하는 답을 만드는 챗봇 만들기 서비스 완료!

주제가 정해진 챗봇을 만들어서 해당 부분에 전문가적인 챗봇을 만들 수 있다는 장점이 있다.

특별히 WERT 사용사례로 웹페이지 만드는 챗봇을 만들어서

비전공자가 해당 챗봇을 통해 홈페이지를 만들고, 배포까지 진행했던 사용사례를 얘기해줬다.

이 사례를 듣으면서 WERT는 gpt에 자세히 역할부여를 해주는 서비스로 홍보, 마케팅 등 특정 분야에서는 활용도가 높을 것 같다는 생각이 들었다.

Session3. LLM이 걸어온길, 그리고 앞으로 LLM이 활약할 분야 (w.김기현)

자연어의 대가 김기현 강사님 python을 하는 사람치고 이분을 모르는 사람은 없는 것 같다.

간단하게 자연어처리의 흐름과 LLM의 흐름을 설명했다.

자연어처리는 사람이 사용하는 단어의 모호함, 정보의 부재 등으로 인해 처리하기 힘든 편이었는데,

LLM은 일반화 능력이 뛰어나기 때문에 주변 정보를 바탕으로 생략된 정보들을 메우면서 추론하게 된다.

CoT: 복잡한 추론 과제를 해결하는 과정에서 단계뼐 사고 과정을 확장, 명시하는 방법으로 모호성 해소에 도움이 된다.

랭체인에서는 Thought, Action, Action Input, Observation... 등이 CoT에 해당한다.

CoT를 적용하는 방법으로는 (1) few-shot (2) Instruction prompting (3) ...

Autonomous Agents (Multi Agents)

self-directed planning과 action을 통해 task를 수행하는 시스템을 의미한다.

단점: 쓸데없는 추론이 너무 많아 비용이 많이 들어감

따라서 SLLM 필요성 (특히 한국어를 이해할 수 있는 SLLM)이 증가했다.

- 토크나이저 확장 필요

- 한국어 학습한 모델 필요

Session4. Whisper보다 6배빠른 distil-Whisper로 오디오데이터에서 RAG 수행기

유튜브 활용할 수 있도록 하는 패키지 pytube 사용해서 토이 프로젝트를 진행했고, 이 토이프로젝트에 대한 내용을 발표했다.

Speech to Text 모델 중 가장 대표적인게 Whisper이고 Distil-Whisper 모델은 인코더 쪽은 비슷하게 사용하지만 디코더쪽은 첫번째 단계와 마지막 단계만 수행하고 나머지 단계는 제외한 모델임을 설명했다. whisper는 한국어를 지원하고 distil whisper는 한국어를 지원하지 않지만 음성처리 속도가 whisper에 비해 훨씬 빠르다.

음성처리를 위해 Flash attention 2를 사용해야하는데 install을 위한 스펙 맞추기가 좀 힘든 편으로 환경을 잘 맞춰서 설치해야한다.

RecursiceCharacterTextSplit는 기본적으로 문자수로 분할을 하고 tiktoken을 사용하면 토큰수를 기준으로 분할할 수 있다.

유튜브 영상을 통한 랭체인은 진행해봤는데 음성데이터로만 랭체인을 해본적은 없어서 조금 흥미로웠고, 전체적은 진행 방식은 영상이든 텍스트이든 음성이든 비슷하게 진행되는 것을 확인했다.

RAG 수행 (Retrieval Augmented Generation)

RAG가 뭔지 좀 더 알고싶었는데 자세한 설명이 없어서 아쉬웠다.

Session5. 프롬프트 흐름

Chat playground에서 챗봇을 만들 때 필요한 기술 중 프롬프트를 예쁘게 잘 만드는게 중요했는데 gpt-4를 사용하면 해결!

하지만 비용문제 때문에 gpt-3.5도 잘 사용하지 못하고 있기 때문에 사용자들이 잘 사용할 수 있도록 만든게 Microsoft Copilot Studio

코파일럿에 사용자가 노코드 기반으로 프롬프트를 잘 사용할 수 있도록 만들어두었음

마이크로 소프트에서는 랭체인을 시멘틱 커널이라고 한다.

Session6. 운영의 관점에서 살펴본 Vector DB 메트릭 비교와 데이터 샤딩, 그리고 인덱스 전략에 따른 메트릭

발표사: https://blog.sionic.ai/

개인적인 소감으로 발표하시는 분이 전형적인 IT괴짜 느낌이 났다.

우리도 다양한 Vector DB를 사용해보고 싶었으나 아직 많이 사용을 못해본 상황에서 어쩐 내용을 발표할지 기대가 되었다.

데이터는 인덱싱을 통해 VDB에 저장되고 검색해야 할 spaces를 좁혀서 벡터를 신속하게 찾을 수 있도록 한다.

VDB들마다 인덱싱 방법이 다르기 때문에 Recall과 Latency가 달라지고, 성능을 높이기 위해 어떤 VDB를 사용해야할지 고민해봐야한다.

Cost, Accuracy, Processability 3개의 요소들을 다 중촉하는 VDB를 찾기 힘들기 때문에 3개 중 2개를 선택하는 방식으로 VDB를 선택해보자.

Cost, Accuracy: Kubernetes 기반 HNSW 벡터 검색엔진
Cost, Processability: Distributed PostgreSQL Vector Extension
Accessibility, Processibility: Vector Similarity Engine with Dynamic Batch on GPU

벡터 검색과 벡터 데이터베이스는 같지 않다.

결론은 필요한 VDB을 잘 찾아서 사용해야한다.

어떻게 VDB을 구축해야하는지 코드도 발표해주셨는데 이번 세션의 ppt와 코드는 회사에 가져가서 팀원들하고 공유하면 좋을 것 같다.

도커를 이용한 VDB 사용하기 및 예시를 보여주었다. 다음 링크에서 확인할 수 있다.

Session7. QA 기능을 이용해 클라우드 스토리지에 저장되어있는 다량의 비정형 데이터에서 효율적으로 정보 추출

pdf 문서 업로드 랭체인 활용에 대한 내용으로 잘 아는 분야라서 네트워킹 하러 밖으로 나왔다.

내가 했던것과 차이점은 용량이 큰 pdf 문서를 사용할 때 azure ai search를 이용하여 연관있는 내용을 먼저 찾은 다음에 chunk 변환, VDB저장을 하는 순서였다.

Session8. LangChain.js

자바스크립트로 랭체인을 하는 내용을 설명했다.

나는 파이썬으로 랭체인을 사용하기 때문에 자바스크립트 부분은 과감히 버리고 저녁도 먹으면서 네트워킹을 했다.

Session9. 게임을 위한 자율 에이전트

게임 캐릭터에 역할을 부여하고 그 역할 내에서 스스로 생각하고 행동하고 기억하고 대화 가능한 게임 캐릭터 만들기가 목표다.

게임세상에서 text로 agent에 원하는 바를 전달하고 agent는 게임 캐릭터가 해야하는 action과 conversation을 전달하게끔 한다.

의문인게 사용자의 개입 없이 게임 캐릭터들이 알아서 움직이고 대화하는걸 게임이라고 할 수 있을까?

오히려 애니메이션 만들기에 더 적합할 수 있을 것 같다.

라고 생각하자마자 플레이어가 게임 캐릭터와 대화하는 데모를 보여주었다.

기존에는 미리 저장해둔 퀘스트 등을 클릭하여 받았다면 게임을 위한 자율 에이전트를 사용하면 사용자의 대화 내용에 따라 NPC들이 퀘스트를 선택하여 전달하는 느낌이다. 또한 관리자가 하나의 이벤트(주교가 악마를 소환할 것 같아)를 주입하면 게임 캐릭터들끼리의 상호작용을 통해(여관주인은 소문을 수집하고, 성기사는 소문을 확인하는 과정) 새로운 스토리(주교가 악마를 소환했는지에 대한 메인 스토리)를 만들어가면서 사용자에게 새로운 컨텐츠(주교가 악마를 소환했는지 확인하는 연계퀘스트)를 제공할 수도 있다.

게임 캐릭터들이 플레이어를 기억하고 반응하는, 플레이어에 의해 게임 스토리 및 게임세계가 만들어질 수 있다.

플레이어들에 의해서 무한하게 새로운 contents를 만들 수 있다.

게임에 랭체인을 활용한 내용을 들어보니 이 내용이 더 확장된다면 가상환경게임을 진행할 수 있을 것 같다.

Session10. Microsoft 협업 방안

Azure를 소개하는 시간을 가졌고, MVP가 되면 일정 비용까지는 무료로 사용할 수 다는 홍보를 했다.

이건 대표님이 들어야 할 것 같다.

개발자로써 역량을 나타낼 수 있는 것들을 진짜 잠깐 발표해주셨는데 주니어 개발자들에게는 너무 중요한 내용이었고, IT업계 종사자라면 본인의 스킬을 사용하여 널리 알리는 것이 중요하는 점에 너무 공감한다.

마이크로소프트에서 지원하는 스타트업 지원 프로그램도 소개했다.

azure를 사용해서 창업, 사업 등을 싶다면 https://www.microsoft.com/ko-kr/startups을 통해서 크레딧을 지원받을 수 있을 것 같다.

Session11. Autonomous Agent in Production

네이버 que: 에서 제공하는것과 비슷한 서비스를 제공하는 LINER(https://getliner.com/ko)에서 발표를 맡았다.

GPT3-Playground가 발표된 이후 Single turn -> Multi turn -> Autonomous Agent로 발전되었음을 확인할 수 있다.

발표자료: https://speakerdeck.com/huffon/autonomous-agent-in-production?slide=9

공부하면 좋을 논문은 Generative Agents: Interactive Simulacra of Human Behavior.

Autonomous Agent를 사용한 여러가지 서비스들을 소개해줬는데, session9에서 발표했던 게임을 위한 autonomous agent에 대한 내용도 많았고, 현재 실리콘밸리에서 얼마나 잘 사용하고 있는지 알려주었다.

Agent를 만들때 공감되는 부분은 잘 작동하지 않는 부분이 있다면 어떤 문제인지 고민하게 되는데, GPT-4를 사용하면 아직 구현이 안되는 부분이구나! 하고 넘어가면 된다고 말씀하닌게 공감이 되었다.

Session12. LLM Multi Agent: Customer Service를 기깔나게 자동화하는 방법

발표사: https://www.corca.team/

B2B 서비스를 수행할 때 반복적인 질문에 대해서 챗봇으로 빠른 응대를 할 수 있는 서비스 제공하는 회사였다.

우리가 개발하던 챗봇형식의 질의응답을 수행할 때 얼마다 주제에 잘 맞춰서 답변할 수 있는지 고도화하는 과정을 발표했다.

GPT-4를 사용하는 것도 좋지만 Multi-Agent를 통해 전문적이고 복잡한 지문을 잘 해석할 수 있도록 지문을 쪼개고, 가이드라인을 제공하고, tool을 연결하여 원하는 대답을 할 수 있도록 전문성을 높였다.

실시간 대응이 필요한 서비스는 아니기 때문에 정확도를 높이는 방향으로 먼저 서비스를 완성했고, 추후 속도도 높일 예정이라고 한다.

우리 회사에서 제공하고자 하는 서비스와 비슷한 면모가 있어서 발표 자체는 흥미로웠고, 우리 회사 서비스에 사용할만한 기술이 있는지 생각하면서 발표를 들었던 것 같다.

Session13. LLM으로 LLM을 해킹했습니다

랭체인의 취약점(CVE-2023-29374)은 다른 사람이 서버 안으로 들어와서 ETC password, 서버에 등록된 open api key까지 해킹할 수 있다.

이번 발표자는 랭체인의 취약점을 파악해서 mathGPT를 streamlit으로 올린 후 해킹해 본 사례를 발표했다.

생각보다 쉽게 mathGPT를 올린 streamlit main.py의 경로 및 다른 파일들의 경로를 찾아낼 수 있었고, 해당 경로를 통해 서버 내의 파일을 open()해보고자 했지만 방어가 되어있어서 local() 변수 중 nepo[:-1] 을 통해 파일을 획득할 수 있었다.

이외에도 LLM의 취약점들에 대해서 설명했고, 해당 내용을 정식 문의 했다고 설명했다.

global()변수인 open()은 방어가 되었지만 약간만 틀어서 시도했더니 바로 파일을 얻을 수 있다는 점이 놀라웠다. 생각보다 파일 유출이 쉽게 가능하다는 것을 알았고, 이런 방식으로 내가 열심히 만들어둔 prompt 템플릿들이 유출될 수 있구나 싶었다.

Session14. Drug-Catcher 인공지능을 활용한 캐릭터 및 대화 생성 기반 마약 거래 알고리즘 기획안

실제로 gpt에 "마약"이라는 단어를 검색하면 위험단어로 분류되어 제대로된 답변을 얻을 수 없다.

마약거래하는 인공지능 캐릭터를 사용하여 마약 거래할 때 사용하는 은어, 불법거래를 탐지하는 프로젝트에 대한 발표였다.

호기심에 마약을 해보려고 접근하는 사람들을 탐지할 수 있도록하는게 목표다.

주제는 굉장히 흥미로웠고, 코드작성에 있어서 마약대신 은어를 사용했을 때 같은 단어이지만 긍정인지 부정인지 확인하는 방법을 더 자세히 알고 싶었다.

Session15. Enterprise 기업에서, ChatGPT, LLM, LM 프로덕션 사용기

이마트 고객센터 챗봇 & 직원이 확인하는 댓글분석 대시보드를 만든 내용에 대해서 발표했다.

이마트 고객센터 챗봇을 사용하는 트래픽이 많고, 비용문제때문에 처음부터 GPT를 사용할 수는 없고,

초반에 언어모델을 통해 어느정도 답변을 수행하고 마지막 단계에서 GPT를 사용해야하는 경우에만 사용할 수 있도록 설계했다.

한국어 지원을 위해서 ko-Alpaca, ko-Polyglot 모델을 사용했고, Azure Open AI, RAG with SageMaker 환경에서 챗봇을 사용했다.

댓글분석 대시보드 역시 모든 댓글에 대해서 GhatGPT를 사용하다가 비용문제로 Custom RoBERTa(기본분석) + GPT4(기본분석에 대한 검수) +GPT3.5(평점계산)으로 역할을 나눠서 사용한다. 대시보드를 통해 상품관리도 하는데, 상품에 문제가 발생할 때 담당자에게 알람을 보내는 서비스도 제공하고 있다.

발표자가 개인적으로 만든 이마트 비전 AI챗봇 서비스에 대해서도 발표했다.

요즘 내가 맡은 프로젝트에서 LangChain + Vision을 사용할 수 있는지 가능성을 확인하고 있기 때문에 해당 부분에 대해서 좀 더 인싸이트를 얻어가면 좋을 것 같았지만 AI챗봇을 만드는것에 있어서 자세히 설명하지 않아서 아쉬웠다.

다만 모델이 너무 무거워서 모델 서빙이 어렵다는 단점이 있다는 것을 확인했다. (A100 80GB 2개가 필요했었다는 이야기가 있었다.)

Session16. 한국어 오픈액세스 LM의 시각과 그 이후 (패널토의)

김기현님: 김기현의 pytorch

이준범님: ko-alpaca, llama2-ko 배포

김태영님: 인공지능 팩토리 대표

이준범님: 코알파카는 어떻게보면 한국판 GPT를 낼 수 있다는 가능성을 보여준 모델이고, 라마2코는 좀 더 depth가 깊은 모델이다. ko-llama을 먼저 진행했었는데 성능이 별로 안좋았었고, 이를 기반으로 llama2-ko를 진행할 때 좋은 결과를 낼 수 있었다.

Q. 라이센스 문제에 대해 질문하고 싶습니다.

이준범님: 코알파카 버전1의 베이스 데이터는 네이버 지식인이었지만 코알파카를 만드는 과정에서 약간의 변환이 있어서 저작권 문제가 있을 수 있지만 오픈소스로 공개하기로 했었다. 외국에는 이미 학습한 데이터에 대해서 저작권 문제가 없다고 한 경우도 있지만 한국을 포함한 많은 나라에서 아직 명확하게 결론을 내리지 않았다. 저작권이 있는 데이터를 학습한 모델을 배포하기에는 논란의 소지가 있을 수 있기 때문에 가능한 AI허브와 같이 오픈데이터를 사용해서 학습할 수 있는 방법을 찾고 있다.

김기현님: 한국어로 된 LLM을 공개하는 것에 관심이 많았는데 준범님이 오픈해준게 감사했다. 준범님이 먼저 오픈해준 덕분에 된다는 가능성을 보고 뛰어들 수 있었고, 라이센스가 비상업적이라도 다들 할 수 있다는 가능성을 심어준게 큰 공로라고 생각한다.

Q. 왜 동물들의 이름이 나오는지 궁금합니다.

이준범님: 메타가 "라마"라는 이름을 붙인게 재미있었고, 개인적으로 알파카가 더 귀여워서 "알파카"라고 이름지었다.

Q. 사전학습되지 않는 모델을 사용하는 프로젝트를 시작했을 때 어땠는지 알고싶습니다.

이준범님: 일단 비용이 나가는 것을 감수하고 시작해야겠다. 혹은 비용이 들지 않는 한도 내에서 시도해보고 성공하면 다음 스텝으로 갈 수 있는 용기를 얻을 수 있는 것 같다. 사실 댓글수집 프로그램을 돌려놓고 끄는걸 까먹어서 댓글 데이터가 몇십기가가 되었다. 이를 통해 뭔가를 할 수 있지 않을까 하다가 리소스를 지원해주는 구글 프로그램을 통해 한국어모델을 만들게 되었다. 이 떄의 인연이 지금까지 연결되어서 한국어 모델을 계속 만들 수 있게 되었다.

Q. 한국어는 문법의 다양성으로 인해 모델 학습 전에 데이터 전처리, 토크나이저는 처리는 어떻게 했는지 궁금합니다.

이준범님: 한국어 기준 데이터 전처리 일루더AI 레파지토리가 가장 사용하기 좋다. 라마코에도 이 패키지를 사용하여 중복제거 등의 전처리를 수행했다. pyspark 64코어 램300~500GB면 괜찮은 비용(약 30달러, 약 10시간 이내)으로 전처리를 수행할 수 있다.

토큰화의 경우, 대부분의 언어모델에서 채택하고 있는 토크나이저는 바이트 페어 인코딩(BPE) 방식이다. 바이트 레벨 BPE과 캐릭터레벨 BPE가 있는데 라마2의 경우 캐릭터레벨 BPE를 사용한다. 만약 단어가 존재하지 않는다면 utf-8로 콜백할 수 있도록 옵션이 켜져있다. 어떤 의미이냐면 "안녕하세요" 를 토큰화 할 때 "안녕""하세요" 또는 "안녕""하세""요"와 같이 분리되는 것을 기대하지만 실제로는 "utf 3개 + 녕","utf 3개+요" 이런식으로 굉장히 길게 쪼개진다. 그덕분에 unkown token이 발생하지 않는다는 장점이 존재하지만 한국어 특성상 좋은 토큰화는 아니다. 그래서 라마코를 만들 때 영어와 한국어에 대해서 1:1로 동일한 용량(GB)이 샘플링된 상태에서 sentence piece tokenizer를 처음부터 스크래치로 학습을 시킨다. 이 때 32000개 정도 라마랑 동일한 토큰개수로 학습시킨다. 캐릭터레벨 BPE의 경우 사람이 토큰화 된 결과를 눈으로 확인할 수 있다. 한국어 토큰을 보고 원하는 단어가 나오고, 원하지 않는 단어가 나오는 곳에서 자른다. 예를들어 "대통령이" 라는 단어를 토큰화 한다면 토크나이저된 결과들 중에 "대통령""이"라고 조사가 잘 나눠진 경우가 있지만 토크나이저 후순위중에는 "대통령이"라는 단어가 나올 수 있다. 이때 "대통령이"라는 단어가 나오기 전에 토크나이저를 잘라주는 것이다. 이렇게 잘라낸 한국어 토크나이저와 라마 토크나이저 32000개를 합쳐준다. 합친것들을 128의 배수로 만들어준 다음에 패딩을 넣어주는 방식으로 토크나이저를 추가하여 라마2코 토크나이저가 만들어졌다.

Q. 언어모델이 인간을 넘어서 새로운 언어를 만들고, 인간이 역으로 그 언어를 배워야하는 초언어라는 개념이 언어모델에서 이루어질 수 있을까?

이준범님: 현재의 crossentropy 관점에서 과연 가능할까? 제한된 숫자 범위 안에서 모델이 가질 수 있는 파라미터의 개수는 정해져 있기 때문에 정말 가능한가?를 생각한다면 새로운 언어 또는 기존에 알고있던 다른 언어를 뱉는다기 보다는 노이즈를 뱉는다고 생각한다.

Q. 생성형모델의 저주라는 단어를 쓰게 되지 않을까?

이준범님: 하나의 조건이 더 붙어야한다고 생각한다. 생성형 모델이 생성한 것에 대해서 사람은 이 결과물이 맞는지 아닌지 확인하는 과정을 한번 더 거치고 어떤게 더 좋은지 판단을 하고 있기 때문에 아직까지는 생성형 모델의 저주까지는 아니지 않을까 생각한다.

김기현님: 로직을 구현할 때 여러가지 방법들이 있는데 사람들이 생성모델이 결과로 내어준 특정 방법을 많이 사용하고 공유하게 되면 어느정도 구현 방법에 대한 bais가 생길 수 있다고는 생각한다.

Q. 어떤 한국어 데이터를 제공하면 좋을까요?

이준범님: 어떤것이든 좋지만 한국어 모델은 영어모델에 비해 전문성이 많이 떨어지는 편이다. 전문지식, 고퀄리티 지식이 있는 텍스트들이 필요하다.

저작자표시 비영리 변경금지 (새창열림)

'News' 카테고리의 다른 글

스타트업 다니는 3년차 데이터사이언티스트, 기술컨설턴트가 되다. (feat. 한권으로 끝내는 AI 비즈니스 모델) (0)	2024.03.27
[우아한테크세미나] MLOps를 활용한 AI 서비스 개발 스토리 세미나 후기 (0)	2023.07.28
[마키나락스] Hypercharge you Jupyter, Let's Rock Up! 웨비나 후기 (0)	2022.10.01
입사지원 :: IT직군 구분하기 - 개발직군, 데이터분석 직군 설명 (0)	2021.08.20
[코테후기] 2021년 마이다스 아이티 상반기 오픈채용 프론트엔드/백엔트 코딩테스트 후기 (7)	2021.06.27