1. NLP ( natural Launguage Processing ) : 텍스트에서 의미있는 데이터를 처리하는 기술. 자연어는 기계어에 비해 처리하기가 어렵기 때문에 전처리 과정이 필요한데, Tokenization, cleaning, normalization 의 단계를 거친다. 토큰 : 문법적으로 더 이상 나눌 수 없는 언어 요소 OOV : Out of Vocabulary - 구축한 단에 사전에 단어가 없어 null값으로 처리됨. 단어사전수가 많아지면 Vector 수가 많아지고, 단어 사전 수가 적으면 예측력이 떨어지기 때문에 적절한 단어사전의 수를 정하는 것이 중요하다. 형태소 분석과 명사 추출 : Token을 만들 때 형태소나 명사 단위로 추출을 하는 방법. BPE : 형태소와 명사 추출 방법 라이..