반응형
불용어
-
불용어(Stopwords)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 17. 14:14
https://wikidocs.net/22530 참고하여 공부한 내용 정리 04) 불용어(Stopwords) 데이터에서 유의미한 단어 토큰만을 선별하기 위해 큰 의미 없는 단어 토큰을 제거하는 작업이 필요함. 여기서 큰 의미가 없다라는 것은 자주 등장하지만 분석하기에 큰 도움이 되지 않는 단어를 말함. 예를 들어 I, my, me, over, 조사, 접미사 같은 단어들은 자주 등장하지만 분석에 기여하는 바가 없음. 이러한 단어들을 불용어(Stopwords)라고 함 1. NLTK에서 불용어 확인 from nltk.corpus import stopwords stopwords.words('english')[:10] ['i', 'me', 'my', ..