반응형
토큰화
-
토큰화(Tokenization)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 14. 22:07
https://wikidocs.net/21698 참고하여 공부한 내용 정리 Chap2. 텍스트 전처리 1) 토큰화(Tokenization) 토큰화란 코퍼스(corpus)에서 토큰(token) 단위로 나누는 작업 1. 단어 토큰화(Word Tokenization) sent = 'Time is an illusion Lunchtime double so' print('토큰화 전: ', sent) print('토큰화 후: ', sent.split(' ')) 토큰화 전: Time is an illusion Lunchtime double so 토큰화 후: ['Time', 'is', 'an', 'illusion&..