Study/데이터 분석 3

NLP의 이해

1. NLP ( natural Launguage Processing ) : 텍스트에서 의미있는 데이터를 처리하는 기술. 자연어는 기계어에 비해 처리하기가 어렵기 때문에 전처리 과정이 필요한데, Tokenization, cleaning, normalization 의 단계를 거친다. 토큰 : 문법적으로 더 이상 나눌 수 없는 언어 요소 OOV : Out of Vocabulary - 구축한 단에 사전에 단어가 없어 null값으로 처리됨. 단어사전수가 많아지면 Vector 수가 많아지고, 단어 사전 수가 적으면 예측력이 떨어지기 때문에 적절한 단어사전의 수를 정하는 것이 중요하다. 형태소 분석과 명사 추출 : Token을 만들 때 형태소나 명사 단위로 추출을 하는 방법. BPE : 형태소와 명사 추출 방법 라이..

CNN의 이해

1. Neural Network Input Layer - Hidden Layer - Output Layer가 weight 값에 의해 연결되어있다. Activation : 다음 모델에 값을 넘기는 방식. 액티베이션을 사용하는 이유는 비선형으로 딥러닝을 해석하기 위함이다. 선형으로 딥러닝을 설명하는 경우 복잡한 케이스에 대해서 하나의 식으로 설명할 수가 없기 때문이다. 따라서 임계치가 넘어가면 다음 뉴런을 Activate 시키는 뉴런의 활동방식과 동일하기 인공신경망에서도 Activation 처럼 중간 네트워크를 사용한다. Optimization : MSE : (예측한값 - 실제값) ^ 2 을 통해 Loss 를 측정. 제곱을 하는 이유는 오차에 대해 가중치를 주기 위하거나 미분할때 쉬우려고. 입력값에 따른 L..

데이터 과학과 AI

1. Data Planning 단계 : forecast는 시계열분석.x 의 final 값 이후에 어떤 값이 예측될 것인가? : prediction은 모형 설계 후 x의 도메인 내에서 y값 예측. 2. Data preparing - 데이터를 가공하기 전에 탐색하고, 구조적 측면을 파악한다. Without 모형 Resistance : 일부 관측 개체의 지나친 영향력에 저항하라 : 중앙값을 보면서 Residual : 일탈에 주목하라 : 튀는 값을 주목하라. 잔차(y - y의 예측값)가 큰 값을 보면 거기에 유의미한 결과가 있다. Re-Expression : 같은것이라도 달리 나타내어 득을 취한다. 3000 - 1000 을 로그를 취함으로써 30 - 10으로 나타낼 수 있는것처럼. Raw 데이터에 집착하지 않는..