nlp
-
5 Text Decoding TechniquesNatural Language Processing 2022. 2. 24. 17:22
아래 글을 공부하고 정리하는 글입니다. Reference https://towardsdatascience.com/5-text-decoding-techniques-that-every-nlp-enthusiast-must-know-6908e72f8df9 5 Text Decoding Techniques that every “NLP Enthusiast” Must Know Popular Text Decoding Methods in NLP with Visuals towardsdatascience.com NLP의 text generation 작업에서 모델은 디코딩 전략에 따라 생성하는 시퀀스가 다름 여기서는 유명한 text sampling 기술 random sampling, greedy sampling, beam se..
-
Masking and padding with PytorchNatural Language Processing 2022. 2. 23. 00:25
아래 사이트를 참고하여 정리하는 글입니다. Reference https://www.tensorflow.org/guide/keras/masking_and_padding Introduction NLP 작업에서 텍스트는 모두 같은 길이가 아니므로 batch 처리를 위해 시퀀스의 길이를 같게 만들어야 한다. 컴퓨터는 행렬을 사용해 병렬 연산을 하므로 필수적인 작업이다. 너무 짧은 시퀀스의 경우 정해둔 최대 길이에 맞춰서 padding 처리를 해주고 너무 긴 시퀀스의 경우에는 최대 길이에 맞춰서 truncate 해줘야 한다. Padding은 최대 길이에 맞게 시퀀스의 앞부분 혹은 마지막을 0으로 채우는 방식이다. 이렇게 padding 처리를 한 시퀀스는 아무 의미 없는 0 데이터(더미 데이터)를 포함하게 된다...
-
토큰화(Tokenization)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 14. 22:07
https://wikidocs.net/21698 참고하여 공부한 내용 정리 Chap2. 텍스트 전처리 1) 토큰화(Tokenization) 토큰화란 코퍼스(corpus)에서 토큰(token) 단위로 나누는 작업 1. 단어 토큰화(Word Tokenization) sent = 'Time is an illusion Lunchtime double so' print('토큰화 전: ', sent) print('토큰화 후: ', sent.split(' ')) 토큰화 전: Time is an illusion Lunchtime double so 토큰화 후: ['Time', 'is', 'an', 'illusion&..