한글 토크나이징 라이브러리
자연어 처리에서 각 언어마다 모두 특징이 다르기 때문에 천편일률적으로 동일한 방법을 적용하는데에는 어려움이 있다.
자연어 처리에서 각 언어마다 모두 특징이 다르기 때문에 천편일률적으로 동일한 방법을 적용하는데에는 어려움이 있다.
작년 12월서부터 지금까지 정신이 없는 새해를 보내고 있다. (현재 진행형)
자연어 처리를 위해서는 우선 텍스트에 대한 정보를 단위별로 나누는 것이 일반적이다. 이처럼 입력 정보를 특정 기본 다뉘로 자르는 것을 토크나이징이라고 한다.
자연어 처리에서 특징 추출이란 텍스트 데이터에서나 단어나 문장들을 어떤 특징 값(벡터)으로 바꿔주는 것을 의미한다.
보통 머신러닝/딥러닝 프로젝트를 수행할 시 TensorFlow나 Keras를 많이 사용하였었다. 하지만 PyTorch를 사용하는 사람들이 늘어나면서 나도 개인적으로 설치 방법을 정리해 놓으려고 한다.