매직코드

mecab 설치 개요

한국어 자연어처리하는 방법이 꽤나 까다롭다.

mecab도 한번에 다운받을 수 있으면 좋을텐데 그렇지 못해서 아쉽다.

 

  • mecab-ko 설치
  • mecab-ko-dic 설치
  • mecab-ko-for-google-colab 설치 (이거 대신 mecab-python을 설치하기도 한다)

 

 


mecab-ko 설치

다운로드 페이지

 

위 페이지에서 tar 파일을 다운로드 받으면 되는데 mecab-0.996-ko-0.9.2.tar.gz로 설치하다가 오류가 발생하면 그 하위버전인 mecab-0.996-ko-0.9.1.tar.gz를 다시 다운받아서 설치하면 된다.

 

mecab관련 다운로드 할 파일들이 많아서 나는 mecab이라는 폴더를 새로 만들어 그 안에서 수행했다.

 

finder에서 직접 압축해제 해줘도 되고 터미널에서 코드로 압축해제를 해도 된다.

나는 0.9.2 버전을 진행 중에 ./configure 에러가 발생해서 0.9.1로 했더니 다음단계로 넘어가졌다.

# 압축해제
tar xvfz mecab-0.996-ko-0.9.2.tar.gz

# 위치 이동
cd mecab-0.996-ko-0.9.2.tar.gz

# configure 실행
./configure

# 생성
make
sudo make install

 

 

meca-ko-dic 설치

다운로드 페이지

 

동일하게 tar 파일을 다운받으면 된다. mecab-ko-dic-2.1.1-20180720.tar.gz 을 다운받았다.

 

# 압축 해제
tar xzfv mecab-ko-dic-2.1.1-20180720.tar.gz

# 위치 이동
cd mecab-ko-dic-2.1.1-20180720

# configure 실행
./configure

# ./configure 오류가 나는 경우 ./autogen.sh 먼저 실행
./autogen.sh
./configure

make
sudo make install

 

mecab-ko-for-google-colab 설치

메캡을 실제 사용할 수 있도록 하는 패키지 안 것 같은데 구글 코랩버전과 파이썬 버전이 있다.

둘 중 아무거나 사용해도 상관 없을 것 같다.

 

# mecab 사용을 위한 상위 패키지 설치
pip install konlpy

# mecab-google-colab 받아오기
git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
cd Mecab-ko-for-Google-Colab
bash install_mecab-ko_on_colab_light_220429.sh

 

mecab-python 설치

git clone https://bitbucket.org/eunjeon/mecab-python-0.996.git
cd mecab-python-0.996
python setup.py build
python setup.py install

 


MeCab 사용

konlpy 패키지 사용 (권장)

# pip install konlpy
from konlpy.tag import Mecab
tokenizer = Mecab()
print(tokenizer.morphs('메캡 설치 완료')

 

Mecab 패키지 사용

import Mecab
tokenizer = MeCab.Tagger()
text = tokenizer.parse('메캡 설치 완료')
print(text)

 

 

 

profile

매직코드

@개발법사

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!