언어 모델
-
Meta Llama 3.1 Review - blogNatural Language Processing 2024. 7. 24. 23:33
Llama 3.1 소개SOTA 언어 모델과 견줄 수 있는 open-source 모델8B, 70B, 405B 규모의 모델 제공, 8개의 다국어 지원, 128K의 context length모델 구조15T 토큰이 넘는 Llama 3.1 405B를 학습하기 위해 전체 training stack 최적화 및 16,000개 이상의 H100 GPUs로 학습 진행학습 과정training 안정성을 위해 MOE 모델이 아닌 약간의 수정을 거친 표준 decoder-only transformer 모델 구조를 채택iterative post-training 방식을 채택각 round에서 SFT 및 direct preference optimization 진행. 이는 높은 품질의 합성 데이터 생성 및 성능 향상을 가능케 함pre- 및 ..
-
GPT2 vs XLNetNatural Language Processing 2022. 1. 13. 19:36
아래 사이트 공부하고 적은 글 https://amanrusia.medium.com/xlnet-speaks-comparison-to-gpt-2-ea1a4e9ba39e XLNet speaks. Comparison to GPT-2 This was not me, but the XLNet model talking (prompt text is in the bold). For more samples and quick usage go to… amanrusia.medium.com Language Modeling의 3가지 전략 1. Unidirectional/Casual Language Modeling (단방향) - 단어들이 왼쪽에서 오른쪽 혹은 오른쪽에서 왼쪽으로 auto-regressive한 방식으로 공급됨 - LST..