반응형
정제
-
정제(Cleaning) and 정규화(Normalization)Natural Language Processing/딥 러닝을 이용한 자연어 처리 입문 2021. 5. 15. 23:43
https://wikidocs.net/21693 참고하여 공부한 내용 정리 2) 정제(cleaning) & 정규화(Normalization) 토큰화 작업 전, 후에는 텍스트 데이터를 정제 & 정규화 해야 함 정제(cleaning): 코퍼스에서 노이즈 제거 정규화(Normalization): 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어 줌 1. 규칙에 기반한 표기가 다른 단어들의 통함 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 사용. USA와 US는 같은 의미를 가지므로 하나의 단어로 정규화할 수 있음 2. 대, 소문자 통합 단어의 개수를 줄이는 방법으로 대, 소문자를 소문자로 변환하는 방법이 있음. 그러나 모든 대문자를 소문자로 변환하는 것에는 문점이 있음. 예를 들어, US(미국)와..