js987 2020. 5. 12. 16:01

# 데이터 사이언스

데이터에서 유용한 정보를 추출하는 기술이다. 데이터 분석을 통해 현상을 이해할 있다.

 

목표는 데이터가 주도하는, 나은 의사결정을 하기 위함이다. 이러한 데이터 분석에 기반한 의사결정은 순수한 직관에 의한 의사결정 보다 객관적이다. , “모아니면 아니다.

 

전통적인 산업 분야의 기업들이 새로운 가치를 창출하거나 경쟁력을 높이고자 데이터 자원을 확보하고 있다.

데이터 분석적 사고는 데이터 주도 시장에서 성공하기 위해 데이터의 가치를 이해하고 자산으로 인정하는 것이다.

 

 

 

 

# 마이닝 알고리즘

감독 방법과 자율 방법으로 구분할 수있다. 감독은 목표(Target) 있는 경우고 자율은 목표가 없는 경우다.

 

감독 방법에는 분류와 계층 확률 추정, 회기분석, 유사도 매치, 연결예측, 데이터 축소, 인과 모델링 등이 있다.

자율 방법에는 군집화, 동시발생 그룹화, 프로파일링 등이 있다.

 

분류와계층확률추정: 개인이 어느계층에 속할지, 확률은 얼마나 될지 예측한다.

대부분 아니오로 답할 있는 문제들이 여기에 속한다.

 

회기분석: 개인의 특정 변수 값이 어떻게 될지 예측한다.

특정 Value 예측하는 문제가 여기에 속한다.

 

유사도 매치: 다른 비슷한 개인 찾기

 

인과 모델링: 특정 행위나 사건이 다른 행위에 영향을 줄지 예측한다. 인과 관계나 임상 실험 문제.

 

군집화: 목적 없이 유사도에 따라 개인들은 그룹화 한다.

 

 

 

 

# 모델링 단계

감독 방법과 자율 방법 중에 어떤 방법을 사용할지 결정한 후에, 타겟 변수를 정확히 정의한다. 예를 들어 고객이 서비스1 들지 서비스2 들지 혹은 둘다 들지 않을지 예측하는 문제에서는 타겟 변수가 3개다. 서비스1 들지 않을지 예측하는 문제에서는 타겟 변수는 2개다.

 

 

 

 

# 마이닝 결과

타겟 값이 명시된 데이터에서 데이터 마이닝을 통해 모델을 구축한다.

타겟 값이 없는 데이터를 구축한 모델에 적용해서 결과(Target ) 얻는다.

 

 

 

 

 

# 데이터 마이닝 프로세스

비즈니스 이해: 문제 정의단계. 문제를 명확히 이해한다.

 

데이터 이해: 데이터 수집에 필요한 비용, 출처에 대한 신뢰성, 데이터를 얻을 때의 복잡성 등을 고려한다.

 

데이터 준비: 데이터를 가공하는 전처리 과정, 정규화 등에 의해 데이터가 변경된다.

 

모델링: 데이터 마이닝을 해서 패턴을 찾는다.

 

평가: 임상실험을 해서 실제로 적용 가능한지, 신뢰 가능한지, 목표에 부합한지 평가한다. 원하는 결과를 얻지 못한 경우에는 비즈니스 이해 단계로 돌아간다.

 

배치: 마이닝 결과를 실제로 활용한다. 마이닝 기술 자체를 활용하기도 한다. 이유는 외부 환경이 빨리 변하고 일일이 수작업으로 모델을 만들 없기 때문이다.

 

 

 

 

# 관련 기술

통계학: 단순히 평균이나 분산 등의 요약 통계 데이터. 결론이 확실한지 가설 검증에 유용하다. , 얻은 결과가 우연인지 아니면 일반화된 패턴에 의한 결과인지 판단할 있다.

 

데이터베이스: 데이터 테이블을 생성하거나 조회한다.

 

데이터웨어하우스: 데이터를 수집하거나 병합한다.

 

회귀분석: 비어있는 데이터 값을 예측한다. 원인을 찾기 보다는 예측 결과가 주안점이다.

기계학습과 데이터 마이닝: 둘다 성능 향상과 패턴 분석에 도움 된다. 데이터마이닝(KDD) 좀더 상업적이다.

데이터에서 예측 모델을 추출하는 기술이다.