자연어_처리
-
정규 표현식(Regular Expression)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 17. 15:50
https://wikidocs.net/21703 참고하여 공부한 내용 정리함 05) 정규 표현식(Regular Expression) 1. 정규 표현식 문법과 모듈 함수 re모듈을 사용하면 특정 규칙이 있는 텍스트 데이터를 빨흐게 정제할 수 있음 01) 정규 표현식 문법 02) 정규 표현식 모듈 함수 https://wikidocs.net/21703 사이트 참고 2. 정규 표현식 실습 1) .기호 .은 한 개의 임의의 문자를 나타냄 import re r=re.compile("a.c") r.search("kkk") 문자열에 a.c패턴이 존재하지 않아서 결과 출력x r.search("abc") abc 문자열에 a.c 패턴이 있으므로 결과 출력o 2) ?기호 ?는 ?앞에 문자가 존재할 수도 있고 안 할 수도 있는..
-
불용어(Stopwords)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 17. 14:14
https://wikidocs.net/22530 참고하여 공부한 내용 정리 04) 불용어(Stopwords) 데이터에서 유의미한 단어 토큰만을 선별하기 위해 큰 의미 없는 단어 토큰을 제거하는 작업이 필요함. 여기서 큰 의미가 없다라는 것은 자주 등장하지만 분석하기에 큰 도움이 되지 않는 단어를 말함. 예를 들어 I, my, me, over, 조사, 접미사 같은 단어들은 자주 등장하지만 분석에 기여하는 바가 없음. 이러한 단어들을 불용어(Stopwords)라고 함 1. NLTK에서 불용어 확인 from nltk.corpus import stopwords stopwords.words('english')[:10] ['i', 'me', 'my', ..
-
정제(Cleaning) and 정규화(Normalization)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 15. 23:43
https://wikidocs.net/21693 참고하여 공부한 내용 정리 2) 정제(cleaning) & 정규화(Normalization) 토큰화 작업 전, 후에는 텍스트 데이터를 정제 & 정규화 해야 함 정제(cleaning): 코퍼스에서 노이즈 제거 정규화(Normalization): 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어 줌 1. 규칙에 기반한 표기가 다른 단어들의 통함 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 사용. USA와 US는 같은 의미를 가지므로 하나의 단어로 정규화할 수 있음 2. 대, 소문자 통합 단어의 개수를 줄이는 방법으로 대, 소문자를 소문자로 변환하는 방법이 있음. 그러나 모든 대문자를 소문자로 변환하는 것에는 문점이 있음. 예를 들어, US(미국)와..