데이터 과학과 AI

Study/데이터 분석

데이터 과학과 AI

going.yoon 2022. 3. 26. 18:24

1. Data Planning 단계

: forecast는 시계열분석.x 의 final 값 이후에 어떤 값이 예측될 것인가?

: prediction은 모형 설계 후 x의 도메인 내에서 y값 예측.

2. Data preparing

- 데이터를 가공하기 전에 탐색하고, 구조적 측면을 파악한다. Without 모형

Resistance : 일부 관측 개체의 지나친 영향력에 저항하라 : 중앙값을 보면서
Residual : 일탈에 주목하라 : 튀는 값을 주목하라. 잔차(y - y의 예측값)가 큰 값을 보면 거기에 유의미한 결과가 있다.
Re-Expression : 같은것이라도 달리 나타내어 득을 취한다. 3000 - 1000 을 로그를 취함으로써 30 - 10으로 나타낼 수 있는것처럼. Raw 데이터에 집착하지 않는다. 최고값과 최저값의 차이가 너무 클 때는 상용로그를 취해서 그 차이를 줄여볼 수 있다.
Visualization : 그림으로 보여라

- Own Data / Acquire Data : Open Data + Private Data + External Data

- Alternative Data : 여태까지 쌓여있지 않은 데이터에 대해서 분석이 필요한 경우. 다른 대체할 수 있는 데이터가 있는지. 가장 유사한 분포를 가지고 있는 것으로

3. Data analyzing

: 인과관계를 정확하게 설명하기 위해서는 도메인에 대한 정확한 이해가 필요하고, X와 Y 사이의 hidden 변수에 대한 detection, 해석이 필요하기 때문에 어려움.

* 귀납적사고는 specific observation 으로부터 General conclusion을 이루기 때문에 오류가 발생할수 밖에 없는 구조다. 그렇기 때문에 그 오류를 수용 가능한 정도로 줄이는 것이 목표가 되어야 함.

4. ML 개요

데이터가 있으면 기본적으로 Class와, Class 내부의 Variability가 있다.
이 Variability는 클래스 내부적으로는 작아야 하고, 클래스 간에는 높아야 한다.
Dataset을 가져와서 Data Retrieval을 해줘야 한다.
Retrieval시 고려해야하는 것은 바로 invariant(변하지 않는것-rule based) , variant(변수-data based) 가 둘 다 공존해야 한다.
ex. 분산이 0인데 filtering에서 걸러주지 않으면 안된다.
- 학습에 참여하지 않은 독특한 데이터가 들어오는 순간, 모델의 설명력이 떨어진다. 그렇기 때문에 이런 경우는 rule-based로 방향성을 잡고 invariant, variant를 찾는다.
과적합을 줄이기 위해서는 모델학습 되지 않은 데이터와 모델학습이 된 데이터의 설명력이 적절하게 중간일때를 찾아야 한다.
Data partitioning : 마지막에 테스트 할 데이터, 학습시킬 데이터 다 분리해놓아야 모델의 테스트가 정확하게 이루어진다.
모형을 다 만들었을 땐 Robustness, Efficiency, Accuracy의 측면에서 테스트를 해야 한다.

'Study > 데이터 분석' 카테고리의 다른 글

NLP의 이해 (0)	2022.03.26
CNN의 이해 (0)	2022.03.26

현재글데이터 과학과 AI

로컬클래스, 자바8, Comparator, 스프링부트, 함수적 인터페이스, bean, 람다식, 익명객체, axios, 싱글파일컴포넌트, Spring, 스프링, vue, event, java8, SpringBoot, 스트림, Vue.js, Component, router,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

GO CAN DO IT