데이터 분석 공부
[ADSP 정리] (과목 3) 제 2장 통계 분석 본문
과목 3 데이터 분석
제 2장 통계 분석
제 1절 통계학 개론
1. 통계 분석 개요
가. 통계학의 정의
- 통계학 : 자료로부터 유용한 정보를 이끌어 내는 학문 (자료의 수집, 정리, 해석)
나. 모집단과 표본
- 모집단 : 우리가 알고자 하는 전체
- 추출단위 or 원소 : 모집단을 구성하는 개체
- 유한 모집단과 무한 모집단(개념적으로 상정된 모집단)으로 나뉨
- 모집단 조사 방법 : 총조사(census, 모집단 개체 모두 조사)와 표본조사
- 총조사는 많은 비용과 시간 소요 -> 특별 경우 ('인구주택총조사') 제외하고는 실시 X
- 표본조사 : 일부만 조사, 모집단 추론
- 표본 (sample) : 조사하는 모집단의 일부
- 모수 (parameter) : 모집단에 대해 알고자 하는 값
- 통계량 (statistic) : 모수를 추론하기 위해 구하는 표본의 값들
다. 표본추출의 방법
- 단순랜덤추출법 (simple random sampling) : N개의 원소로 구성된 모집단에서 n개(n < N)의 표본 추출시 각 원소에 1, 2, 3, ...N까지의 번호 부여, n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출
- 계통추출법 (systematic sampling) : 모집단의 모든 원소들에 1, 2, 3, ... N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개 (K=N/n)씩 n개의 구간으로 나눔, 첫 구간 (1,2,3, ... K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출
- 집락추출법 (cluster sampling) : 모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용, 일부 집락을 랜덤으로 선택, 선택된 각 집락에서 표본을 임의로 선택
- 층화추출법 (stratified sampling) : 상당히 이질적인 원소들로 구성된 모집단에서 각 계측을 고루 대표할 수 있도록 표본을 추출, 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출
- 실무에서 위 방법들을 혼합
- cf. 실험 : 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법
- 위약과 새로운 암 치료제 비교
- 표본조사 : 대상 집단의 일부를 추출, 어떤 현상을 관측 또는 조사해 자료를 수집하는 방법
라. 자료의 종류
- 측정 (measurement) : 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 명목척도 (nominal scale) : 어느 집단에 속하는지 분류할 때 사용
- 성별, 출생지 구분
- 순서척도 (ordinal scale) : 측정 대상의 특성이 가지는 서열관계를 관측하는 척도, 일정한 순서로
- 특정 서비스의 선호도 (아주, 좋아한다, 그저 그렇다, 싫어, 아주 싫어한다)
- 구간척도 (interval scale) : 측정 대상이 갖고 있는 속성의 양을 측정하는 것, 결과가 숫자로 표현, 해당 속성이 전혀 없는 상태인 절대적인 원점 X, 두 관측값 사이의 비율 의미 X
- 온도, 지수
- 비율척도 (ratio scale) : 절대적 기준인 0값이 존재, 사칙연산 가능, 제일 많은 정보 가짐
- 무게, 나이, 연간소득, 제품가격 등 숫자로 관측되는 일반적인 자료의 특성
- 질적 자료 (qualitative data) : 명목척도와 순서척도로 측정된 자료
- 양적 자료 (quantitative data) : 구간척도와 비율척도로 측정된 자료
- 명목척도 (nominal scale) : 어느 집단에 속하는지 분류할 때 사용
2. 통계 분석
- 통계 분석 (statistical analysis) : 특정 집단이나 불확실한 현상을 대상으로 자료 수집, 대상 집단에 대한 정보 구하고, 적절한 통계 분석 방법을 이용해 의사결정 하는 과정
- 통계적 추론 (statistical inference) : 통계 분석을 통해 이루어지는 의사결정 / 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정 하는 것
- 추정 (estimation) : '대상 집단의 특성값(모수)이 무엇일까?' 추축
- 가설검정 (hypothesis test) : 대상 집단에 대해 특정 가설 설정한 후, 그 가설의 채택여부를 결정
- 예측 (forecasting) : 미래의 불확실성을 해결, 효율적 의사결정을 하기 위해 수행
- 정보 : 자료를 요약, 정리한 결과 / 숫자 또는 그림으로 정리된 각종 통계 의미
- 기술통계 (descriptive statistic) : 수집된 자료를 정리, 요약하기 위해 사용되는 기초적인 통계
- 숫자 : 평균, 표준편차, 중위수, 최빈값, %
- 그림 : 막대그래프, 원그래프, 꺽은선그래프
- 통계적 추론 (statistical inference) : 통계 분석을 통해 이루어지는 의사결정 / 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정 하는 것
3. 확률 및 확률분포
가. 확률의 정의
- 특정사건이 일어날 가능성의 척도
- 표본공간 (sample space) : 통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합
- 사건 (event) : 표본공간의 부분집합
- 근원사건 : 오직 한 개의 원소로만 이루어진 사건
- 표본공간이 유한 개의 원소로 구성, 근원사건들이 일어날 가능성이 모두 같은 경우, 사건 E의 확률
- P(E) = n(E) / n(Ω)
- n(E) = 집합 E에 있는 원소의 수
- 일반적으로 확률은 표본공간의 부분집합에 실수값을 지정한 것, 아래 세 조건 만족
- 1) 모든 사건 E의 확률값은 0과 1사이에 있다.
- 2) 전체 집합 Ω의 확률은 1이다.
- 3) 서로 배반인 사건들 E1, E2....의 합집합의 확률은 각 사건들의 확률의 합이다.
- 배반 사건 : 교집합이 공집합인 사건들
나. 조건부 확률과 독립사건
- 조건부 확률 (conditional probability) : 사건 A가 일어났다는 가정하의 사건 B의 확률 P(B|A)
- P(B|A) = P(A∩B) / P(A)
- 단, P(A) >= 0 일때만 정의
- 두 사건 A, B가 P(A∩B) = P(A)P(A) 만족하면 서로 독립
- P(B|A) = P(B)
- 사건 B의 확률은 사건 A가 일어났는지 여부와 상관없이 동일
다. 확률변수와 확률분포
- 확률변수 (random variable) : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 정의역 (domain)이 표본공간, 치역 (range)이 실수값인 함수
- 이산형 확률변수 (discrete random variable) : 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수, 확률이 0보다 큰 값을 갖는 점들로 표현 가능
- 확률질량함수 (probability mass function : 각 이산점에 있어서 확률의 크기를 표현하는 함수
- 연속형 확률변수 (continuous random variable) : 사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 갖는 함수의 면적으로 표현될 수 있는 확률변수, 한 점에서의 확률은 0, 0보다 큰 값을 갖는 사건은 구간에서의 확률값
- 확률밀도함수 (probability density function) : 이때의 함수 f(x)
- 결합확률분포 (joint probability distribution)
- 이산형인 경우 P(X=xi, Y=yi) = pij, 결합확률질량함수 (joint probability mass function)
- 연속형인 경우 f(x,y)로 정의, 결합확률밀도함수 (joint probability density function)
- 통계 분석에서는 수집된 자료가 특정한 확률분포를 따른다고 가정
- 이산형 확률변수: 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포
- 연속형 확률변수: 균일분포, 정규분포, 지수분포, (정규분포로 유도된) t-분포, 카이제곱 분포, F-분포
라. 확률변수의 기댓값과 분산
- 확률변수 X의 기댓값 : (질량) 시그마 x(f(x)), (밀도함수) 인테그갈x(f(x))
- 확률변수의 흩어진 정도 나타내는 분산과 표준편차 : E(X-m)^2, 앞의 것 루트
마. 백분위수
- 연속형 확률변수 X의 제 q 백분위수 xq
- P(X <= xq) = q/100
4. 추정과 가설검정
가. 점추정
- 통계적 방법론을 통해 모집단의 확률분포를 알고자 함
- 모수 (parameter) : 모집단의 확률분포 특징 표현하는 값
- 표본을 기반으로 모수들에 대한 통계적 추론
- 통계적 추론 - 추정(점추정, 구간추정)과 가설검정
- 점추정 (point estimation) : 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것
- 모집단의 평균(모평균)을 추정하기 위한 추정량 (estimator)는 확률표본의 평균값인 표본평균 (sample mean)
- 모딥단의 분산(모분산) 추정하기 위한 추정량은 표본분산 (sample variance)
나. 구간추정
- 일정한 크기의 신뢰수준 (confidence level)으로 모수가 특정한 구간(신뢰구간 (confidence interval))에 있을 것
- 일반적으로 신뢰수준은 90 95 99 % 확률 이용
- 신뢰수준 95% 의미 = 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률표본을 무한히 많이 추출하여 각 확률표본 마다 신뢰구간을 구하면, 이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 의미
다. 가설검정
- 가설검정 : 모집단에 대한 어떤 가설을 설정한 뒤, 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
- 귀무가설 (null hypothesis, H0)와 대립가설 (alternative hypothesis, H1)으로 설정
- 확실하게 증명하고 싶은 가설, 뚜렷한 증거가 있어야 채택할 수 있는 가설, 혹은 그 결과가 값비싼 가설을 대립가설로 지정
- 대립가설과 반대의 증거를 찾기 위해 정한 가설을 귀무가설로 지정
- 검정통계량 (test statistic, T(X)) : 검정에 사용되는 통계량
- 귀무가설이 옳다는 전제) 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 귀무가설 채택여부 결정
- p-값 (p-value) : 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
- 유의수준 (significance level) 보다 작으면 귀무가설이 나올 가능성이 적다고 판단 -> 귀무가설 기각
- 유의수준은 보통 0.01, 0.05, 0.1 중 사용
- 기각역 (critical region) : 귀무가설을 기각하는 통계량의 영역
- 가설검정 과정의 두 가지 오류
- 1) 제1종 오류 : 귀무가설 H0가 옳은데도 H0을 기각하는 오류 / 제1종 오류의 크기 (알파)
- 2) 제2종 오류: 귀무가설 H0가 옳지 않은데도 H0을 채택하는 오류 / 제2종 오류의 크기 (베타)
- 일반적으로 제1종 오류 알파의 크기를 0.1, 0.05, 0.01 등으로 고정한 후에 제2종 오류 베타가 최소가 되도록 기각역 설정
5. 비모수 검정
- 통계적 추론에서 모집단의 모수에 대한 검정
- 1) 모수적 방법 (parametric method) : 검정하고자 하는 모집단의 분포에 대한 가정하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정 실시
- 2) 비모수적 방법 (nonparametric method) : 모집단의 분포에 대해 아무 제약X 검정 실시, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용
- 비모수 검정과 모수적 검정의 두 가지 차이점
- 1) 가설 설정 방법
- 모수적 검정은 가정된 분포의 모수에 대해 가설 설정
- 비모수 검정은 가정된 분포 X, 단지 '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다' 분포의 형태에 대해 설정
- 2) 검정 방법
- 모수적 검정은 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
- 비모수 검정은 관측값의 절대적인 크기에 의존 X, 관측값들의 순위(rank), 두 관측값 차이의 부호 등을 이용
- 예) 쌍으로 관측된 표본에 대한 부호검정 (sign test), 윌콕슨의 순위합검정 (rank sum test), 윌콕슨의 부호순위합검정 (signed rank test), 만-위트니의 U검정, 런검정 (run test), 스피어만의 순위상관계수 등
- 1) 가설 설정 방법
제 2절 기초 통계 분석
1. 기술통계
- 기술통계 (Descriptive Statistics) : 자료를 요약하는 기초적 통계
- data(iris) : 내장된 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수
- head(iris) : 데이터를 기본 6줄 보여주어 데이터가 성공적으로 import 되었는지 살펴볼 수 있는 함수 cf) head(iris, n)
- summary : 데이터의 컬럼에 대한 전반적인 기초 통계량 (Min, Max, 1st Qu., 3rd Qu, Median, Mean)
- 특정 컬럼의 통계량 구하기 : mean(iris$Sepal.Length), median(), sd(), var(), quantile(), min(), max()
- 특정 column 선택 : 데이터네임$column명
2. 회귀 분석 (Regression Analysis)
가. 단순회귀분석과 중회귀분석의 개념
- 회귀분석 : 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법
- 종속변수 or 반응변수 : 영향을 받는 변수, y
- 독립변수 or 설명변수 : 영향을 주는 변수, x, x1, x2 등
- 단순선형회귀모형 : 가장 단순, 한 개의 독립변수와 하나의 종속변수로 구성, 오차항 있는 선형관계
- 베타0, 베타1 = 회귀계수 / 베타1 = 독립변수 x1의 회귀계수
- 입실론 : 오차항, 평균 0 분산 시그마제곱인 정규모형 따른다고 가정
- 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값으로
- 최소제곱추정량 (Least Squares Estimator 혹은 LSE) : 회귀계수의 추정량
- 다중회귀분석(중회귀분석) : 두 개 이상의 독립변수 사용하여 종속변수의 변화 설명
- 모델이 적절한 지 확인해야 함
- 모형이 통계적으로 유의미한가?
- F 통계량 확인, F통계량의 p-값이 0.05 보다 작으면 추정된 회귀식은 통계적으로 유의미
- 회귀계수들이 유의미한가?
- 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간 확인
- 모형이 얼마나 설명력을 갖는가?
- 결정계수를 확인, 결정계수는 0에서 1값을 가짐, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음
- 모형이 데이터를 잘 적합하고 있는가?
- 잔차를 그래프로 그리고 회귀진단 함
- 데이터가 아래의 모형 가정을 만족하는가?
- 선형성 (독립변수의 변화에 따라 종속변수도 일정크기로 변화)
- 독립성 (잔차와 독립변수의 값이 관련되어 있지 않음)
- 등분산성 (독립변수의 모든 값에 대해 오차들의 분산이 일정)
- 비상관성 (관측치들의 잔차들끼리 상관이 없어야 함)
- 정상성 ( 잔차항이 정규분포를 이뤄야 함)
- 모형이 통계적으로 유의미한가?
나. 회귀분석의 종류
- 단순회귀 : 설명변수가 1개, 반응변수와의 관계가 직선
- 다중회귀 : 설명변수가 k개, 반응변수와의 관계가 선형 (1차함수)
- 다항회귀 : 설명변수가 k개, 반응변수와의 관계가 1차 함수 이상
- 비선형회귀 : 회귀식의 모향이 미지의 모수들의 선형관계로 이루어져 있지 않은 모형
- lm(y ~ x, data=dfrm) : 단순선형회귀분석
- lm(y ~ u+v+w) : 다중선형회귀분석
- summary(m) : 결정계수, F통계량, 잔차의 표준오차 등 주요 통계량 정보 확인
- plot(df1) : 산점도 그리기
- plot(lm(y~x, data=df1) : 회귀식의 그래프 나옴
- 만약 회귀식의 잔차도가 뚜렷한 곡선 패턴을 가지면 오차항은 평균 0, 분산 일정하다는 가정 만족 X
다. 최적회귀방정식의 선택: 설명변수의 선택
- 회귀모형을 설정하는 데 두 가지 원칙을 따름
- 1) y에 영향을 미칠 수 있는 모든 설명변수 x를 y의 값을 예측하는데 참여시킨다.
- 2) 데이터에 설명변수 x들의 수가 많아지면 관리하는 데 많은 노력 요구, 가능한 범위 내에서 적은 수의 설명변수 포함해야
- 타협
- 설명변수 선택하는 방법
- 1) 모든 가능한 조합의 회귀분석 (All possible regression)
- 모든 가능한 독립변수들의 조합에 대한 회귀모형 고려
- AIC(Akaike information criterion)이나 BIC(Bayesian information criterion) 기준으로 가장 적합한 회귀모형 선택 --> 가장 작은 AIB값 혹은 BIC값을 가지는 모형을 최적모형으로 선택
- 2) 단계적 변수선택 (Stepwise Variable Selection)
- (1) 전진선택법 (forward selection) : 절편만 있는 상수모형에서 시작, 중요하다고 생각되는 설명변수부터 차례로 모형에 추가, 가장 제곱합을 기준으로 가장 설명을 잘하는 변수를 고려, 그 변수가 유의하면 추가, 아니면 X
- (2) 후진제거법 (backward elimination) : 독립변수 후보 모두 포함한 모형에서 출발, 제곱합을 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거, 더이상 유의하지 않은 변수가 없을 때까지 설명변수들을 제거
- (3) 단계별방법 (stepwise method) : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약해지면 해당변수 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부 검토, 더이상 X 중단
- step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수선택방법")
- lm : 회귀분석
- scope : 분석시 고려할 변수의 범위 / 가장 낮은 단계 lower에 1 입력시 상수항 의미, 가장 높은 단계 설정하기 위해서는 설명변수들 모두 써주기
- direction : 변수 선택방법, 선택 가능 옵션은 forward(전진선택법), backward(후진선택법), both(단계적방법)
- 1) 모든 가능한 조합의 회귀분석 (All possible regression)
제3절 다변량 분석
1. 상관 분석
- 상관분석 (Correlation Analysis) : 데이터 안의 두 변수 간의 관계
- 상관계수 (Correlation coefficient) 이용
- 피어슨 상관계수 (Pearson correlation) : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계 측정
- 스피어만 상관계수 (Spearman correlation) : 서열척도인 두 변수들의 상관관계 측정
- 양수이면 x 증가할 때 y 증가 경향 보임, 음수는 y 감소 경향 보임
- 산점도가 직선에 가깝게 분포시 상관계수 절대값은 1에 가까워짐, 강한 상관관계
- 넓게 퍼지면 직선상의 관계 희미, 상관계수는 0에 가까워짐
가. 피어슨의 상관계수
- 공분산 : 두 확률변수 X와 Y의 선형관계의 크기 측정
- X와 Y의 단위에 따라 영향 받음
- 피어슨 상관계수
- 단위 영향 X, 언제나 -1과 1 사이의 값 가지도록 함
- 공분산 / 두 확률변수의 표준편차 곱
- -1과 1 사이의 값
- X와 Y가 독립이면 상관계수는 0
- 모수인 피어슨 상관계수를 추정하기 위해 표본상관계수 이용
- plot(x, y) : 산점도
- corr(drat, disp) : 상관계수
- rcorr(as.matrix(mtcars), type="pearson") : Hmisc 패키지의 corr함수 이용, mtcars 상관분석, 모든 변수들 사이의 상관계수와 귀무가설 p(피어슨 상관계수)=0에 대한 p-값 출력
- 앞부분의 상관계수 행렬에서 변수 자신과의 상관계수는 모두 1로 대각항에 표현, 비대각항에는 다른 변수들과의 상관계수 표시
- 아래 부분의 P 행렬은 각 상관계수의 유의확률 포함
- cov(mtcars) : 공분산, 매트릭스 형식
나. 스피어만 상관계수 (Spearman's rank correlation coefficient)
- 피어슨 상관계수는 두 변수 간의 선형관계 크기 측정 값, 비선형적인 상관관계 나타내지 못함
- 스피어만 상관계수는 비선형적 관계도 나타낼 수 있음
- 한 변수를 단조증가 함수로 변환하여 다른 변수로 나타낼 수 있는 정도 나타냄
- 두 변수를 모두 순위로 변환한 후, 두 순위 사이의 피어슨 상관계수로 정의
- rcorr(as.matrix(mtcars), type="spearman")
2. 다차원 척도법
- 다차원척도법 (Multidimensional Scaling, MDS) : 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법
- 주어진 거리는 추상적 or 실수공간의 거리가 될 수도
- 대상들을 2차원 혹은 3차원 실수공간의 점으로 대응 -> 시각화 가능, 직관적 이해 도움
- 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용
- cmdscale(eurodist) : 각 도시의 상대적 위치를 도식화할 수 있는 X, Y좌표 계산
- 특정 변수들의 관측치가 없더라도 개체 간의 유사성에 대한 자료 사용하여 산점도 그릴 수 있음
3. 주성분 분석
- 주성분 분석 (Principal Component Analysis, PCA) : 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법
- 자료의 차원을 축약시키는데 주로 사용
- p차원 변수가 주어져 있을 때, X의 선형변환 중 분산이 가장 큰 선형변환을 첫 번째 주성분, X의 선형변환 중 첫 번째 주성분과 상관계수가 0이면서 분산이 가장 큰 선형변환을 두 번째 주성분......p번째 주성분까지 정의 가능
- 주성분들은 서로 상관관계가 없음
- 주성분들의 분산의 합은 Xi들의 분산의 합과 같음
- ai = i번째 주성분의 로딩
- fit <- princomp(USArrests, cor=TRUE) : 주성분분석 시행, 공분산행렬이 아닌 상관계수 행렬 사용
- summary(fit) : 주성분들의 표분편차, 분산의 비율 등을 보여줌
- loadings(fit) : 주성분들의 로딩 벡터 보여줌
- plot(fit) : 각 주성분의 분산의 크기를 그림으로 그려줌 -> 스크리 그림 (Scree plot)
- 주성분의 분산 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분 개수 정하기
- 주성분들이 설명하는 분산의 비율이 70~90% 사이가 되는 주성분 개수 선택
- biplot(fit) : 관측치들을 첫 번째와 두 번째 주성분의 좌표에 그린 그림
제4열 시계열 예측
1. 정상성
- 시계열자료 (Time-series Data) : 시간의 흐름에 따라 관측된 데이터
- 시계열분석 (Time Series Analysis)를 위해서는 정상성 (Stationary) 만족해야
- 정상성 : 시점 상관없이 시계열의 특성이 일정하다는 것
- 1) 평균이 일정하다.
- 2) 분산이 시점에 의존하지 않는다.
- 3) 공분산은 단지 시차에만 의존, 시점 자체에는 의존 X
- 정상성의 조건을 하나라도 만족 X -> 비정상 시계열 (대부분 시계열 자료) -> 정상성 만족하도록 정상으로 만든 후 분석 수행
- 먼저 시계열 자료 그림을 통해 파악
- 이상점 (Outlier)인 경우 제거
- 개입 (Intervention)인 경우 회귀분석 수행
- 추세 O (평균이 일정하지 않음) 인 경우 차분(Difference)을 통해 비정상 시계열을 정상 시계열로 바꾸기
- 차분 : 현 시점의 자료값 - 전 시점의 자료값
- 일반적) 현재 시점 - 바로 전 시점의 자료값
- 계절차분 (Seasonal Difference) : 여러 시점 전의 자료를 빼는 것, 계절성 갖는 비정상 시계열을 정상으로 바꿀 때 사용
- 차분 : 현 시점의 자료값 - 전 시점의 자료값
- 시간에 따라 분산이 일정 X 경우 변환(Transformation)을 통해 정상 시계열로 바꾸기
2. 시계열 모형
가. 자기회귀 모형(AR 모형)
- 자기회귀모형 (Autoregressive model) : 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있음, AR(p) 모형
- (현재 시점의 시계열 자료) = (1~p 시점이 현재 시점에 어느 정도 영향을 주는지 나타내는 모수) * (1~p 시점 이전의 시계열 자료-곱해서 더하기) + 백색잡음과정 (White noise process, 대표적 정상 시계열)
- 백색잡음과정 at : 독립, 같은 분포 따르며 평균 0, 분산이 시그마 a 제곱인 확률 변수
- 현 시점의 시계열 자료에 몇 번쨰 전 자료까지 영향을 주는지 알아내야
- 과거 1 시점 이전의 자료만 영향 -> 1차 자기회귀모형, AR(1) 모형
- 과거 2 시점 이전 -> 2차 자기회귀모형, AR(2) 모형
- 판단 방법 -> 자기상관함수 (ACF, Auto-Correlation Function)과 부분자기상관함수 (PACF, Partial Auto-Correlation Function) 이용
- 자기상관함수는 시차가 증가함에 따라 점차적으로 감소
- 부분자기상관함수는 p+1 시차 이후 급격히 감소하여 절단된 형태, AR(p) 모형이라 판단
나. 이동평균모형(MA 모형)
- 이동평균모형 (Moving Average model) : 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현, 항상 정상성 만족, 정상성 가정 필요 X
- 1차 이동평균모형, MA(1) 모형 : 가장 간단, 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합
- 판단 방법
- 자기상관함수는 p+1 시차 이후 절단된 형태, MA(p) 모형
- 부분자기상관함수는 점차 감소하는 형태
다. 자기회귀누적이동평균모형 (ARIMA 모형)
- 자기회귀누적이동평균모형 (Autoregressive Integrated Moving Average model)
- 대부분 많은 시계열 자료가 이 모형을 따름
- 기본적으로 비정상 시계열 모형 -> 차분과 변환을 통해 AR, MA, ARMA 모형으로 정상화 가능
- ARIMA(p, d, q) 모형
- 차수 p는 AR 모형과 관련
- p=0 이면 IMA(d,q) 모형 -> d번 차분하면 MA(q) 모형
- q는 MA 모형 관련
- q=0 이면 ARI(p,d) 모형 -> d번 차분하면 AR(p) 모형
- d는 ARIMA에서 ARMA로 정상화할 때 몇 번의 차분 했는지 의미
- d=0 이면 ARMA(p,q) 모형 -> 정상성 만족
- 차수 p는 AR 모형과 관련
라. 분해 시계열
- 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법, 회귀분석적인 방법 주로 사용
- 시계열 구성 요소는 4가지
- 1) 추세요인 (Trend factor) : 오르거나 내리는, 이차식, 지수적 형태 등 어떤 특정한 형태를 취하는 경우
- 2) 계절요인 (Seasonal factor) : 각 월, 각 분기 등 고정된 주기에 따라 자료가 변화하는 경우
- 3) 순환요인 (Cyclical factor) : 알려지지 않은 주기를 가지고 자료가 변화하는 경우
- 4) 불규칙요인 (Irregular factor) : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인
- 각 구성요인을 정확하게 분리하는 것이 중요하지만 쉽지 않음
- 분해 시계열 방법은 이론적 약점이 있다고 알려짐
- 아직까지도 경제 분석, 예측에서 널리 사용
- 분해식의 일반적 정의 : (시계열 값) = 미지의 함수 (경향(추세)요인, 계절요인, 순환요인, 불규칙요인)
3. 실습
가. 시계열 자료
1) 시계열 자료 불러오기
- 'ts' 클래스 : 시계열 자료 형식
- 일반 데이터셋을 시계열 자료 형식으로 변환 : ts함수 사용
2) 그림 고찰
- plot(Nile) : 그래프 추세 확인, 비계절성/계절성 파악
3) 분해시계열
- decompose(Ideaths) : 계절성을 띄는 시계열 자료를 4가지 요인으로 분해
- plot(Ideaths.decompose) : 추세요인, 계절요인, 불규칙요인으로 분해된 시계열 자료에 대한 그림
- Ideaths.decompose$seasonal : 계절성 띄는 시계열 자료에 계절요인을 추정해 그 값을 원 시계열자료에서 빼서 조정 (계절요인 제거)
4) ARIMA 모형
(1) 차분
- Nile.diff1 <- diff(Nile, differences=1) : 1번 차분
- Nile.diff2 <- diff(Nile, differences=2) : 2번 차분
(2) ARIMA 모델 적합 및 결정
- acf(Nile.diff2, lag.max=20) : 자기상관함수 그래프, lag 개수 20개
- pacf(Nile.diff2, lag.max=20) : 부분상관함수 그래프, lag 개수 20개)
- auto.arima(Nile) : forecast 패키지의 auto.arima 함수 이용하여 적절한 ARIMA 모형 결정
(3) ARIMA 모형을 통한 예측
- Nile.arima <- arima(Nile, order=c(1,1,1)) : 시계열 자료를 ARIMA(1,1,1) 모형에 적합
- Nile.forecasts <- forecast(Nile, arima, h=10) : forecast 패키지의 forecast 함수 이용하여 미래 수치 값 예측, 10개 년도만 예측
'기타 > ADSP' 카테고리의 다른 글
[ADSP 정리] (과목 3) 제3장 정형 데이터 마이닝 (0) | 2020.02.11 |
---|---|
[ADSP 정리] (과목 3) 제1장 R 기초와 데이터 마트 (1) | 2020.02.05 |
[ADSP 정리] (과목 2) 제 2장 분석 마스터 플랜 (0) | 2020.01.21 |
[ADSP 정리] (과목 2) 제 1장 - 제 4절 분석 프로젝트 관리 방안 (0) | 2020.01.21 |
[ADSP 정리] (과목 2) 제 1장 - 제 3절 분석 과제 발굴 (0) | 2020.01.21 |