Study/데이터 분석

데이터 과학과 AI

going.yoon 2022. 3. 26. 18:24

1. Data Planning 단계

 : forecast 시계열분석.x final 이후에 어떤 값이 예측될 것인가? 

 : prediction 모형 설계 x 도메인 내에서 y 예측.

 

 

2. Data preparing

 - 데이터를 가공하기 전에 탐색하고, 구조적 측면을 파악한다. Without 모형

  1.  Resistance : 일부 관측 개체의 지나친 영향력에 저항하라 : 중앙값을 보면서
  2.  Residual : 일탈에 주목하라 : 튀는 값을 주목하라. 잔차(y - y의 예측값)가 큰 값을 보면 거기에 유의미한 결과가 있다.
  3.  Re-Expression : 같은것이라도 달리 나타내어 득을 취한다. 3000 - 1000 을 로그를 취함으로써 30 - 10으로 나타낼 수 있는것처럼. Raw 데이터에 집착하지 않는다. 최고값과 최저값의 차이가 너무 클 때는 상용로그를 취해서 그 차이를 줄여볼 수 있다.
  4.  Visualization : 그림으로 보여라

 - Own Data / Acquire Data : Open Data + Private Data + External Data

 - Alternative Data : 여태까지 쌓여있지 않은 데이터에 대해서 분석이 필요한 경우. 다른 대체할 있는 데이터가 있는지. 가장 유사한 분포를 가지고 있는 것으로

 

3. Data analyzing

 : 인과관계를 정확하게 설명하기 위해서는 도메인에 대한 정확한 이해가 필요하고, X Y 사이의 hidden 변수에 대한 detection, 해석이 필요하기 때문에 어려움.

 

 * 귀납적사고는 specific observation 으로부터 General conclusion 이루기 때문에 오류가 발생할수 밖에 없는 구조다. 그렇기 때문에 오류를 수용 가능한 정도로 줄이는 것이 목표가 되어야 .

 

4. ML 개요

  • 데이터가 있으면 기본적으로 Class, Class 내부의 Variability 있다.
  • Variability 클래스 내부적으로는 작아야 하고, 클래스 간에는 높아야 한다.
  • Dataset 가져와서 Data Retrieval 해줘야 한다. 
  • Retrieval 고려해야하는 것은 바로 invariant(변하지 않는것-rule based) , variant(변수-data based) 공존해야 한다.
    ex. 분산이 0인데 filtering에서 걸러주지 않으면 안된다.
    - 학습에 참여하지 않은 독특한 데이터가 들어오는 순간, 모델의 설명력이 떨어진다. 그렇기 때문에 이런 경우는 rule-based 방향성을 잡고 invariant, variant 찾는다.
  • 과적합을 줄이기 위해서는 모델학습 되지 않은 데이터와 모델학습이 데이터의 설명력이 적절하게 중간일때를 찾아야 한다. 
  • Data partitioning : 마지막에 테스트 데이터, 학습시킬 데이터 분리해놓아야 모델의 테스트가 정확하게 이루어진다.
  • 모형을 만들었을 Robustness, Efficiency, Accuracy 측면에서 테스트를 해야 한다.

'Study > 데이터 분석' 카테고리의 다른 글

NLP의 이해  (0) 2022.03.26
CNN의 이해  (0) 2022.03.26