본문 바로가기

전체 글

(35)
예측 모델링 # 선요약 1. 데이터 집합을 어떤 기준으로 나누어 데이터를 예측할 수 있다. 2. 예측 모델링에는 트리 분류에 기반한 유도 트리 모델링이 있다. 3. 이 방법은 정보 증가량에 기반하고 범용적이며 쉽게 이해할 수 있다. # 모델 모델링이란 실제 세계를 단순하게 표현하는 것이다. 예측 모델링과 설명 모델링으로 구분할 수 있다. 예측 모델링은 공식을 구하거나 값을 예측하는 것이다. 설명 모델링은 현상이나 절차를 이해하는 것이다. 주어진 데이터 셋에 따라 감독문제와 자율문제, 분류문제와 회귀문제로 구분할 수 있다. 예를 들어 타겟 속성값이 알려진 훈련 데이터는 감독 문제이다. 숫자나 특정 값을 구하는게 아니라 계층으로 분류하는 문제는 회귀가 아닌 분류 문제다. # 모델 유도 데이터로부터 모델을 만드는 것이다...
개요 # 데이터 사이언스 데이터에서 유용한 정보를 추출하는 기술이다. 데이터 분석을 통해 현상을 이해할 수 있다. 목표는 데이터가 주도하는, 더 나은 의사결정을 하기 위함이다. 이러한 데이터 분석에 기반한 의사결정은 순수한 직관에 의한 의사결정 보다 객관적이다. 즉, “모아니면 도”가 아니다. 전통적인 산업 분야의 기업들이 새로운 가치를 창출하거나 경쟁력을 높이고자 데이터 자원을 확보하고 있다. 데이터 분석적 사고는 데이터 주도 시장에서 성공하기 위해 데이터의 가치를 이해하고 자산으로 인정하는 것이다. # 마이닝 알고리즘 감독 방법과 자율 방법으로 구분할 수있다. 감독은 목표(Target)가 있는 경우고 자율은 목표가 없는 경우다. 감독 방법에는 분류와 계층 확률 추정, 회기분석, 유사도 매치, 연결예측, 데..
SVD특이값 분해, 추천알고리즘 1. 특이값 분해(SVD) # 고유값 분해 정방행렬 A에 의해 선형변환된 벡터가 상수배인 벡터가 있을 수 있다. 이때 상수를 고유값, 고유값에 대응하는 벡터를 고유벡터라고 한다. 상수 하나에 대응하는 열 벡터가 있고, 상수는 대각 행렬로, 열 벡터는 행 방향으로 모아 행렬로 표현한다 고유값과 고유벡터의 값은 특성방정식을 이용하여 구한다. 고유값 분해의 성질을 활용하면 A의 determinant, transpose, 제곱을 쉽게 구할 수 있다. # 특이값 분해 직교 행렬 A를 분해해서 대각 행렬을 구할 수 있다. 대각 행렬에서 singular value 0, 비대각원소를 처리해서 A를 구하면 동일한 행렬 A가 나온다. 대각 행렬에서 0이 아닌 singular value 까지 처리해서(truncated SV..