1. Data Planning 단계
: forecast는 시계열분석.x 의 final 값 이후에 어떤 값이 예측될 것인가?
: prediction은 모형 설계 후 x의 도메인 내에서 y값 예측.
2. Data preparing
- 데이터를 가공하기 전에 탐색하고, 구조적 측면을 파악한다. Without 모형
- Resistance : 일부 관측 개체의 지나친 영향력에 저항하라 : 중앙값을 보면서
- Residual : 일탈에 주목하라 : 튀는 값을 주목하라. 잔차(y - y의 예측값)가 큰 값을 보면 거기에 유의미한 결과가 있다.
- Re-Expression : 같은것이라도 달리 나타내어 득을 취한다. 3000 - 1000 을 로그를 취함으로써 30 - 10으로 나타낼 수 있는것처럼. Raw 데이터에 집착하지 않는다. 최고값과 최저값의 차이가 너무 클 때는 상용로그를 취해서 그 차이를 줄여볼 수 있다.
- Visualization : 그림으로 보여라
- Own Data / Acquire Data : Open Data + Private Data + External Data
- Alternative Data : 여태까지 쌓여있지 않은 데이터에 대해서 분석이 필요한 경우. 다른 대체할 수 있는 데이터가 있는지. 가장 유사한 분포를 가지고 있는 것으로
3. Data analyzing
: 인과관계를 정확하게 설명하기 위해서는 도메인에 대한 정확한 이해가 필요하고, X와 Y 사이의 hidden 변수에 대한 detection, 해석이 필요하기 때문에 어려움.
* 귀납적사고는 specific observation 으로부터 General conclusion을 이루기 때문에 오류가 발생할수 밖에 없는 구조다. 그렇기 때문에 그 오류를 수용 가능한 정도로 줄이는 것이 목표가 되어야 함.
4. ML 개요
- 데이터가 있으면 기본적으로 Class와, Class 내부의 Variability가 있다.
- 이 Variability는 클래스 내부적으로는 작아야 하고, 클래스 간에는 높아야 한다.
- Dataset을 가져와서 Data Retrieval을 해줘야 한다.
- Retrieval시 고려해야하는 것은 바로 invariant(변하지 않는것-rule based) , variant(변수-data based) 가 둘 다 공존해야 한다.
ex. 분산이 0인데 filtering에서 걸러주지 않으면 안된다.
- 학습에 참여하지 않은 독특한 데이터가 들어오는 순간, 모델의 설명력이 떨어진다. 그렇기 때문에 이런 경우는 rule-based로 방향성을 잡고 invariant, variant를 찾는다. - 과적합을 줄이기 위해서는 모델학습 되지 않은 데이터와 모델학습이 된 데이터의 설명력이 적절하게 중간일때를 찾아야 한다.
- Data partitioning : 마지막에 테스트 할 데이터, 학습시킬 데이터 다 분리해놓아야 모델의 테스트가 정확하게 이루어진다.
- 모형을 다 만들었을 땐 Robustness, Efficiency, Accuracy의 측면에서 테스트를 해야 한다.