매직코드
article thumbnail

2022년 9월 28일 수요일, 마키나락스에서 진행하는 웨비나에 참여했다.

Session.1은 총 3부로 나누어져서 진행되었다.

1부는 마키나락스에 대한 간단한 설명

2부는 캐글마스터가 Link를 사용하는 방법 설명

3부는 실제 프로젝트에서 Link를 사용하는 방법으르 이루어졌다.

 

 

Session.2 는 사전신청한 경우만 참석할 수 있다.

Link를 사용하는 법과 커리어상담을 진행할 수 있다.

이 포스팅에서는 세션1 내용만 포스팅하고 세션2에서 진행한 내용은 포스팅하지 않았다.

 

 

<1부> 우리는 왜 Link를 개발했을까?

마키나락스

데이터 사이언티스트의 역량이 중요하다고 생각하여 가장 많이 사용하는 jupyter를 개선해야겠다고 생각하여 'LINK'를 만들게 됨.

- 코드 기반의 유지관리와 재현성 어려움

- 셀의 순서에 따라 다른 실행결과

- 공통코드를 노트북 셀 여기저기에 복붙

- 출처 : Damien Benveniste.PhD 의 linked in 포스팅 중 jupyter 문제점

 

Link

jupyter 기능에 파이프라인 생성 기능 추가

- 구조(연결관계) 시각화

- 파이프라인을 클릭하면 해당 셀로 이동하기에 코드 Navigation 용이

- 재현성 증대

 

jupyter 기능에 Cache 관리 기능 추가

- 이전에 작업했던 내용을 cache로 저장해두어 반복 실행 개선

- 오늘작업에 대한 cache 정보를 저장하여 다음날에도 이어서 작업할 수 있도록 작업 연속성 유지

- 작업한 cache정보를 공유할 수 있어 협업 용이

 

jupyter 기능에 버전관리 기능 추가

- 파이프라인 버전 관리

- 소스 코드 버전 관리

- 코드 병합 충돌 해결

 

그 외 코드 공유 시 comments 기능 추가,

파이프라인 grouping 기능 추가,

파이프라인 yaml 파일로 export kubeflow 기능 추가

 

22년9월27일 기준으로 새로 배포된 추가기능

ml 모델 생성 시 hyper parameter optimizer 를 통해 최적화 값 찾는 기능

 

앞으로 업데이트 할 기능

원격 실행을 통해 외부 컴퓨팅 자원으로 특정 컴포넌트 실행

 

<2부 > kaggle 마스터가 Link를 사용하는 법

- 코드 구조 이해 용이

- 파이프라인 구축

- 원하는 부분으로 쉽게 이동 가능

- 원하는 부분만 효과적으로 다시 실행 가능

- 전처리 과정 캐싱; 캐글 대회에서 전처리에 들어가는 시간이 많은데 Link의 cache저장 기능을 통해 시간 절약 가능

- 비영리 머신러닝 커뮤니티, 가짜연구소 https://pseudo-lab.com/

 

가짜연구소

가짜연구소에서는 머신러닝/데이터사이언스와 관련된 스터디 그룹, 팀 프로젝트, Data Science Fellowship, Kaggle Days Meetup, 해커톤, 오픈소스 프로젝트, 튜토리얼 제작, 기업초청 세미나, 네트워킹 등

pseudo-lab.com

 

 

<3부> 실제  프로젝트에서 Link를 사용하는 법

- 머신러닝 엔지니어 : 반도체 장비 이상치탐지 프로젝트, 배터리 잔존량 예측 프로젝트 등 진행 중

Link를 활용하여 파이프라인을 만들어두니 복잡한 모델에 대해서 좀 더 수월하게 실행해볼 수 있었음

배포해야하는 상황에서도 구축을 잘 하여 전달하기 편리함

팀원들과 코드를 공유할 때 전반적인 구조를 파악하기 쉬워졌고, 프로젝트를 진행하는데 시간을 단축할 수 있었음

 

 

 

 

 

 

profile

매직코드

@개발법사

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!