자연어 처리
-
원-핫 인코딩 (One-hot Encoding)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 18. 14:18
https://wikidocs.net/22647 참고하여 공부한 내용 정리 08) 원-핫 인코딩 (One-hot Encoding) 단어 집합(vocabulary): 서로 다른 단어들의 집합, 여기에서 book과 books를 다른 단어로 간주함 원-핫 인코딩을 위해 먼저 해야하는 일은 단어 집합을 만드는 일. 그리고 단어 집합에 고유한 숫자를 부여하는 정수 인코딩을 진행함 1. 원-핫 인코딩(One-hot Encoding) 이란? 원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고 표현하고 싶은 단어의 인덱스에 1 값을 부여하고 나머지 인덱스에 0을 부여하는 단어의 벡터 표현 방식임 원-핫 인코딩 과정 (1) 각 단어에 고유한 인덱스 부여(정수 인코딩) (2) 표현하고 싶은 단어의 인덱스 위치에 1 ..
-
패딩(Padding)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 18. 13:38
https://wikidocs.net/83544 참고하여 공부한 내용 정리 07) 패딩(Padding) 병렬 연산을 위해 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업이 필요함 1. Numpy 로 패딩하기 import numpy as np from tensorflow.keras.preprocessing.text import Tokenizer 정수 인코딩 진행 tokenizer=Tokenizer() tokenizer.fit_on_texts(sentences) # sentences는 이전 데이터 사용 텍스트 시퀀스의 모든 단어들을 각 정수에 매핑 후 출력 encoded=tokenizer.texts_to_sequences(sentences) print(encoded) [[1, 5], [1, 8, 5], [..
-
정수 인코딩(Integer Encoding)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 18. 11:42
https://wikidocs.net/31766 참고하여 공부한 내용 정리 06) 정수 인코딩(Integer Encoding) 텍스트를 숫자로 바꾸는 여러 기법들 중에서 각 단어를 고유한 정수에 매핑(mapping)시키는 전처리 작업 인덱스를 부여하는 방법은 랜덤으로 부여, 단어 빈도수 기준으로 정렬한 후 부여하는 방법이 있음 1. 정수 인코딩(Integer Encoding) 단어에 정수를 부여하는 방법 중 하나로 단어를 빈도수 순으로 정렬한 단어 집합을 만들고 빈도수가 높은 순서대로 인덱스를 낮은 숫자부터 정수를 부여하는 방법 1) dictionary 사용하기 text="A barber is a person. a barber is good person. a barber is huge person. he..