반응형
LLM
-
Meta Llama 3.1 Review - blogNatural Language Processing 2024. 7. 24. 23:33
Llama 3.1 소개SOTA 언어 모델과 견줄 수 있는 open-source 모델8B, 70B, 405B 규모의 모델 제공, 8개의 다국어 지원, 128K의 context length모델 구조15T 토큰이 넘는 Llama 3.1 405B를 학습하기 위해 전체 training stack 최적화 및 16,000개 이상의 H100 GPUs로 학습 진행학습 과정training 안정성을 위해 MOE 모델이 아닌 약간의 수정을 거친 표준 decoder-only transformer 모델 구조를 채택iterative post-training 방식을 채택각 round에서 SFT 및 direct preference optimization 진행. 이는 높은 품질의 합성 데이터 생성 및 성능 향상을 가능케 함pre- 및 ..