홈
태그
방명록

분류 전체보기 (70)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

Devlog Devlog

컨텐츠 검색

반응형

LLM

Meta Llama 3.1 Review - blog
Natural Language Processing 2024. 7. 24. 23:33

Llama 3.1 소개SOTA 언어 모델과 견줄 수 있는 open-source 모델8B, 70B, 405B 규모의 모델 제공, 8개의 다국어 지원, 128K의 context length모델 구조15T 토큰이 넘는 Llama 3.1 405B를 학습하기 위해 전체 training stack 최적화 및 16,000개 이상의 H100 GPUs로 학습 진행학습 과정training 안정성을 위해 MOE 모델이 아닌 약간의 수정을 거친 표준 decoder-only transformer 모델 구조를 채택iterative post-training 방식을 채택각 round에서 SFT 및 direct preference optimization 진행. 이는 높은 품질의 합성 데이터 생성 및 성능 향상을 가능케 함pre- 및 ..

이전

1

다음

반응형

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

반응형

Designed by Tistory.

티스토리툴바