반응형
어간추출
-
어간 추출(Stemming) & 표제어 추출(Lemmatization)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 17. 11:23
https://wikidocs.net/21707 참고하여 공부한 내용 정리 03) 어간 추출(Stemming) & 표제어 추출(Lemmatization) 어간 추출과 표제어 추출은 정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법 1. 표제어 추출(Lemmatization) 표제어 추출은 단어로부터 표제어(Lemma)를 찾아가는 과정임. 표제어 추출은 단어가 다른 형태를 가지더라도 뿌리 단어를 찾아서 단어의 개수를 줄일 수 있는지 판단함. 예를 들어 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be로 볼 수 있음. 이 때 단어들의 표제어는 be임 형태소는 '의미를 가진 가장 작은 단위'를 뜻함. 형태소는 어간(stem), 접사(affix) 두 가지 종류가 있..