본문 바로가기

데이터 사이언스 공부/비즈니스를위한데이터과학

예측 모델링

# 선요약

1. 데이터 집합을 어떤 기준으로 나누어 데이터를 예측할 수 있다.

2. 예측 모델링에는 트리 분류에 기반한 유도 트리 모델링이 있다.

3. 이 방법은 정보 증가량에 기반하고 범용적이며 쉽게 이해할 수 있다.

 

 

 

# 모델

모델링이란 실제 세계를 단순하게 표현하는 것이다. 예측 모델링과 설명 모델링으로 구분할 있다.

 

예측 모델링은 공식을 구하거나 값을 예측하는 것이다. 설명 모델링은 현상이나 절차를 이해하는 것이다.

주어진 데이터 셋에 따라 감독문제와 자율문제, 분류문제와 회귀문제로 구분할 있다.

 

예를 들어 타겟 속성값이 알려진 훈련 데이터는 감독 문제이다.

숫자나 특정 값을 구하는게 아니라 계층으로 분류하는 문제는 회귀가 아닌 분류 문제다.

 

 

 

# 모델 유도
데이터로부터 모델을 만드는 것이다. 여기서 데이터는 훈련 데이터이며 유도 알고리즘이나 학습자를 통해 모델을 구축한다. 모델 유도는 구체적인 사례로부터 규칙이나 법칙을 일반화하는 귀납법이다.

 

 

 

# 예측 모델링

감독 세분화를 사용해서 전체 데이터를 어떤 기준(Target)으로 그룹화 한다.

기준은 정보를 가장 전달하는 속성이다.

 

트리 유도는 Target 불확실성을 줄여주는 관련 속성들을 찾아 데이터를 분할 하는 것이다.

분할 기준은 정보 증가량(엔트로피가 낮아지는 방향)이며, 결과로 데이터셋의 부분집합이 생성된다.

 

 

 

 

# 엔트로피

엔트로피는 부분집합의 순수도를 나타낸다.

엔트로피가 0이면 가장 순수하다. 1이면 엔트로피 최대치다.

 

Entropy = -p1log(p1) - p2log(p2) - …

p 집합 안에서 속성의 상대적인 확률이다.

 

 

 

 

#정보 증가량

정보 증가량은 분할 전의 부모 집합의 엔트로피에서 분할 이후의 자식 집합의 엔트로피와 비교하여 개선(감소) 되는지 확인할 있다. 높을수록 전달하는 정보의 양이 많다.

 

IG(부모, 자식) = entropy(부모) - [p(자식1)entropy(자식1) + p(자식2)entropy(자식2) + … ]

자식에 대한 엔트로피에 자식 집합에 속한 사례들의 비율을 곱한다. 가중치라고 생각할 있다.

 

정보 증가량으로 판단할 때는 자식 집합이 완전히 순수할 필요는 없으며 자식 집합의 개수에 상관없이 적용할 있다. IG 자식 집합의 크기도 고려해 자식집합에 가중치를 준다. 하지만 데이터를 분류하는 속성이 다양하면 정보량은 증가하지만 예측에 쓰기 좋지는 않다. 이를 과적합화라 한다.

 

회기 분석 문제에서 타겟 변수가 수치형인 경우에는 분산을 이용한다. 가장 순수한 집합은 값이 모두 동일하고 분산은 0이다. 가중치 평균의 분산이 줄어드는 값을 선택한다.

 

정보량을 가장 많이 증가시키는 속성이 루트 노드가 되지만나머지 노드에 있는 변수는 전체 객체 집합이 아니라 상위 노드에 의해 분류된 객체에 대해서만 평가된다따라서 내부 노드에 대한 정보 증가량 순위는 전체 집합에 대한 정보 증가량과 똑같지 않다.

 

 

 

# 세분화 과정의 시각화

객체 공간에 있는 데이터들은 분류 트리에 의해 분할된다.

트리의 내부(결정) 노드는 객체 공간을 분할하는 선에 해당하며, 단말 노드는 분할된 영역에 해당한다.

영역을 분할하는 선을 결정선(2차원), 결정면, 결정계 라고 부른다.

 

 

 

 

# 확률 추정

객체가 속할 계층을 예측할 뿐만 아니라 계층에 속할 확률도 추정할 필요가 있다.

투자 위험을 낮추는 경우나 한정된 자원을 투자하는 경우 등에서  많은 정보를 제공한다.

 

어떤 객체의 계층 확률을 추정할 때는 단순히 빈도로 계산할 있다.

예를 들어 긍정 2, 부정이 3개인 세그먼트(결정면에 의해 분할된 영역) 객체가 들어가 긍정으로 분류 될 확률은 2/5 .

 

하지만 세그먼트 안의 객체 수가 적을 때에는 계층 확률이 낙관적으로 나올 있다.

라플라스 교정법을 사용해서 문제를 완화 시킬 있다.

 

라플라스 교정법을 사용하면 데이터가 매우 적은 경우 불확실성을 표현할 있다. 데이터가 좀더 많은 경우에는 완화 영향을 적게 받는다. 데이터가 매우 많은 경우 라플라스 교정법을 적용해도 빈도 추정치에 수렴하게 된다.

 

 

'데이터 사이언스 공부 > 비즈니스를위한데이터과학' 카테고리의 다른 글

과적합화 문제 해결  (0) 2020.05.21
모델 적합화  (0) 2020.05.15
개요  (0) 2020.05.12