-
GPT2 vs XLNetNatural Language Processing 2022. 1. 13. 19:36반응형
아래 사이트 공부하고 적은 글
https://amanrusia.medium.com/xlnet-speaks-comparison-to-gpt-2-ea1a4e9ba39e
Language Modeling의 3가지 전략
1. Unidirectional/Casual Language Modeling (단방향)
- 단어들이 왼쪽에서 오른쪽 혹은 오른쪽에서 왼쪽으로 auto-regressive한 방식으로 공급됨
- LSTM과 Transformers가 이러한 방식
- sequentially
2. BERT (양방향)
- 문장에서 몇 개의 masked 단어의 확률을 모델링함
- BERT는 언어 생성에서 제한적임
3. Generalized permutation language modelling
- auto regressive한 방식으로 어떠한 permutation(순열)을 사용해 시퀀스의 확률을 모델링할 수 있다는 idea
- XLNet은 Transformer 아키텍처를 활용했고 tow-stream attention 메커니즘을 도입함
XLNet Vs GPT2
1. GPT2는 BPE(byte pair encoding)을 사용함. 이는 utf8 byte 시퀀스 자체에서 작동함
그러나 XLNet은 SentencePIece 라이브러리의 BPE를 사용함. 이는 Unicode 문자열에서 작동함
이 떄문에 GPT2는 모든 문자 시퀀스에 확률을 할당할 수 있음
XLNet은 vocab이 제한되며 multilingual 문자열이나 이모지를 처리하지 않음 => XLNet-gen으로 때때로 <unk>가 생성되는 이유임
2. GPT2는 40GB의 web scrapped text에 대해 훈련됨
XLNet은 136GB의 여러 데이터셋에 대해 훈련됨
3. 365M 파라미터를 가지는 GPT2 pre-trained model이 가장 큰 XLNet 모델과 동일한 수의 매개변수를 가짐
4. GPT2는 왼쪽에서 오른쪽으로 모델링
XLNet은 가능한 모든 permutation으로 모델링
그러나 생성 중에 현재 구현된 XLNet은 왼쪽에서 오른쪽으로 디코딩만 사용
Observations
1. GPT2 줄바꿈 문자를 생성할 수 있음
XLNet은 end-of-paragraph 및 end-of-document 토큰을 생성할 수 있음
Conclusions
- XLNet은 permutation language modeling과 2 stream attention을 사용하는 효율적인 훈련을 통해 얻는 bi-directional representation으로부터 이점을 얻음
- 그러나 언어 생성에 있어서 이점이 분명하지 않음
- GPT2가 가장 정확한 텍스트 생성 모델임
반응형'Natural Language Processing' 카테고리의 다른 글
5 Text Decoding Techniques (0) 2022.02.24 Masking and padding with Pytorch (0) 2022.02.23 Word2Vec (word embedding) (0) 2022.02.09 seq2seq 그리고 attention (0) 2022.02.04 기계 번역에서 alignment 의미 (0) 2022.01.25