Natural Language Processing
-
Meta Llama 3.1 Review - blogNatural Language Processing 2024. 7. 24. 23:33
Llama 3.1 소개SOTA 언어 모델과 견줄 수 있는 open-source 모델8B, 70B, 405B 규모의 모델 제공, 8개의 다국어 지원, 128K의 context length모델 구조15T 토큰이 넘는 Llama 3.1 405B를 학습하기 위해 전체 training stack 최적화 및 16,000개 이상의 H100 GPUs로 학습 진행학습 과정training 안정성을 위해 MOE 모델이 아닌 약간의 수정을 거친 표준 decoder-only transformer 모델 구조를 채택iterative post-training 방식을 채택각 round에서 SFT 및 direct preference optimization 진행. 이는 높은 품질의 합성 데이터 생성 및 성능 향상을 가능케 함pre- 및 ..
-
5 Text Decoding TechniquesNatural Language Processing 2022. 2. 24. 17:22
아래 글을 공부하고 정리하는 글입니다. Reference https://towardsdatascience.com/5-text-decoding-techniques-that-every-nlp-enthusiast-must-know-6908e72f8df9 5 Text Decoding Techniques that every “NLP Enthusiast” Must Know Popular Text Decoding Methods in NLP with Visuals towardsdatascience.com NLP의 text generation 작업에서 모델은 디코딩 전략에 따라 생성하는 시퀀스가 다름 여기서는 유명한 text sampling 기술 random sampling, greedy sampling, beam se..
-
Masking and padding with PytorchNatural Language Processing 2022. 2. 23. 00:25
아래 사이트를 참고하여 정리하는 글입니다. Reference https://www.tensorflow.org/guide/keras/masking_and_padding Introduction NLP 작업에서 텍스트는 모두 같은 길이가 아니므로 batch 처리를 위해 시퀀스의 길이를 같게 만들어야 한다. 컴퓨터는 행렬을 사용해 병렬 연산을 하므로 필수적인 작업이다. 너무 짧은 시퀀스의 경우 정해둔 최대 길이에 맞춰서 padding 처리를 해주고 너무 긴 시퀀스의 경우에는 최대 길이에 맞춰서 truncate 해줘야 한다. Padding은 최대 길이에 맞게 시퀀스의 앞부분 혹은 마지막을 0으로 채우는 방식이다. 이렇게 padding 처리를 한 시퀀스는 아무 의미 없는 0 데이터(더미 데이터)를 포함하게 된다...
-
Word2Vec (word embedding)Natural Language Processing 2022. 2. 9. 14:49
강의 보고 공부한 내용을 정리하는 글(문제시 비공개 처리하겠습니다) Reference https://www.youtube.com/watch?v=sY4YyacSsLc Background text는 모델의 입력으로 사용 못 함 그래서 encoding 기법을 사용해 text(I love you)를 숫자(0, 1, 2)로 변환함 encoding 기법 중 one-hot encoding이 있는데 단어 간의 유사도를 구할 수 없음 예를 들어, I(1, 0, 0) love(0, 1, 0) you(0, 0, 1) 인 경우 l2 norm은 1로 모두 같고 cosine 유사도는 벡터 간의 사잇각이 90이 돼버려 유사도가 0이 됨 Embedding 그래서 embedding을 사용함 embedidng은 dense vector로..
-
seq2seq 그리고 attentionNatural Language Processing 2022. 2. 4. 23:06
Reference https://guillaumegenthial.github.io/sequence-to-sequence.html Seq2Seq with Attention and Beam Search Sequence to Sequence basics for Neural Machine Translation using Attention and Beam Search guillaumegenthial.github.io https://wikidocs.net/24996 1) 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 이번 실습은 케라스 함수형 API에 대한 이해가 필요합니다. 함수형 API(functional API, https://wikidocs.net/38861 )에 대해서 우선 숙 ..
-
기계 번역에서 alignment 의미Natural Language Processing 2022. 1. 25. 18:07
* alignment 의미 기계 번역 관련 논문[1]을 읽는데 다음과 같은 내용이 나왔다. In MT, one can intuitively interpret this attention mechanism as inducing an alignment between source and target sentences, as first proposed by Bahdanau et al. (2015). "어텐션 메커니즘은 source 문장과 target 문장 간의 alignment를 유도하는 것으로 직관적으로 해석할 수 있다" 이런 의미이다. 여기에서 alignment 단어는 컴퓨터 비전 분야에서도 정말 많이 봤던 단어이다. 자연어 특히 기계 번역에서의 alignment의 의미가 궁금하여 찾아보니 다음과 같았다. S..
-
GPT2 vs XLNetNatural Language Processing 2022. 1. 13. 19:36
아래 사이트 공부하고 적은 글 https://amanrusia.medium.com/xlnet-speaks-comparison-to-gpt-2-ea1a4e9ba39e XLNet speaks. Comparison to GPT-2 This was not me, but the XLNet model talking (prompt text is in the bold). For more samples and quick usage go to… amanrusia.medium.com Language Modeling의 3가지 전략 1. Unidirectional/Casual Language Modeling (단방향) - 단어들이 왼쪽에서 오른쪽 혹은 오른쪽에서 왼쪽으로 auto-regressive한 방식으로 공급됨 - LST..
-
한국어 전처리 패키지Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 18. 16:32
https://wikidocs.net/92961 참고하여 공부한 내용 정리 10) 한국어 전처리 패키지 1. PyKoSpacing PyKoSpacing은 한국어 띄어쓰기 패키지, 띄어쓰기 딥러닝 모델 new_sent="김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다." from pykospacing import spacing kospacing_sent=spacing(new_sent) print(kospacing_sent) 김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려..