Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

데이터 분석 공부

[ADSP 정리] (과목 3) 제 2장 통계 분석 본문

기타/ADSP

[ADSP 정리] (과목 3) 제 2장 통계 분석

data-data-science 2020. 2. 6. 21:37

과목 3 데이터 분석 

제 2장 통계 분석 

 

제 1절 통계학 개론 

 

1. 통계 분석 개요 

 

가. 통계학의 정의 

  • 통계학 : 자료로부터 유용한 정보를 이끌어 내는 학문 (자료의 수집, 정리, 해석) 

나. 모집단과 표본 

  • 모집단 : 우리가 알고자 하는 전체 
    • 추출단위 or 원소 : 모집단을 구성하는 개체
    • 유한 모집단과 무한 모집단(개념적으로 상정된 모집단)으로 나뉨
  • 모집단 조사 방법 : 총조사(census, 모집단 개체 모두 조사)와 표본조사
  • 총조사는 많은 비용과 시간 소요 -> 특별 경우 ('인구주택총조사') 제외하고는 실시 X 
  • 표본조사 : 일부만 조사, 모집단 추론 
    • 표본 (sample) : 조사하는 모집단의 일부
  • 모수 (parameter) : 모집단에 대해 알고자 하는 값
  • 통계량 (statistic) : 모수를 추론하기 위해 구하는 표본의 값들

다. 표본추출의 방법 

  • 단순랜덤추출법 (simple random sampling) : N개의 원소로 구성된 모집단에서 n개(n < N)의 표본 추출시 각 원소에 1, 2, 3, ...N까지의 번호 부여, n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출 
  • 계통추출법 (systematic sampling) : 모집단의 모든 원소들에 1, 2, 3, ... N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개 (K=N/n)씩 n개의 구간으로 나눔, 첫 구간 (1,2,3, ... K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출
  • 집락추출법 (cluster sampling) : 모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성, 각 집단에서 원소들에게 일련번호를 부여할 수 있는 경우에 이용, 일부 집락을 랜덤으로 선택, 선택된 각 집락에서 표본을 임의로 선택 
  • 층화추출법 (stratified sampling) : 상당히 이질적인 원소들로 구성된 모집단에서 각 계측을 고루 대표할 수 있도록 표본을 추출, 이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후, 각 층에서 표본을 랜덤하게 추출
  • 실무에서 위 방법들을 혼합
  • cf. 실험 : 특정 목적 하에서 실험 대상에게 처리를 가한 후에 그 결과를 관측해 자료를 수집하는 방법 
    • 위약과 새로운 암 치료제 비교 
    • 표본조사 : 대상 집단의 일부를 추출, 어떤 현상을 관측 또는 조사해 자료를 수집하는 방법

라. 자료의 종류 

  • 측정 (measurement) : 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
    • 명목척도 (nominal scale) : 어느 집단에 속하는지 분류할 때 사용
      • 성별, 출생지 구분
    • 순서척도 (ordinal scale) : 측정 대상의 특성이 가지는 서열관계를 관측하는 척도, 일정한 순서로
      • 특정 서비스의 선호도 (아주, 좋아한다, 그저 그렇다, 싫어, 아주 싫어한다)
    • 구간척도 (interval scale) : 측정 대상이 갖고 있는 속성의 양을 측정하는 것, 결과가 숫자로 표현, 해당 속성이 전혀 없는 상태인 절대적인 원점 X, 두 관측값 사이의 비율 의미 X
      • 온도, 지수
    • 비율척도 (ratio scale) : 절대적 기준인 0값이 존재, 사칙연산 가능, 제일 많은 정보 가짐 
      • 무게, 나이, 연간소득, 제품가격 등 숫자로 관측되는 일반적인 자료의 특성 
    • 질적 자료 (qualitative data) : 명목척도와 순서척도로 측정된 자료 
    • 양적 자료 (quantitative data) : 구간척도와 비율척도로 측정된 자료

 

2. 통계 분석 

  • 통계 분석 (statistical analysis) : 특정 집단이나 불확실한 현상을 대상으로 자료 수집, 대상 집단에 대한 정보 구하고, 적절한 통계 분석 방법을 이용해 의사결정 하는 과정 
    • 통계적 추론 (statistical inference) : 통계 분석을 통해 이루어지는 의사결정  / 수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정 하는 것 
      • 추정 (estimation) : '대상 집단의 특성값(모수)이 무엇일까?' 추축
      • 가설검정 (hypothesis test) : 대상 집단에 대해 특정 가설 설정한 후, 그 가설의 채택여부를 결정
      • 예측 (forecasting) : 미래의 불확실성을 해결, 효율적 의사결정을 하기 위해 수행
    • 정보 : 자료를 요약, 정리한 결과 / 숫자 또는 그림으로 정리된 각종 통계 의미
    • 기술통계 (descriptive statistic) : 수집된 자료를 정리, 요약하기 위해 사용되는 기초적인 통계 
      • 숫자 : 평균, 표준편차, 중위수, 최빈값, %
      • 그림 : 막대그래프, 원그래프, 꺽은선그래프

 

3. 확률 및 확률분포 

 

가. 확률의 정의 

  • 특정사건이 일어날 가능성의 척도 
  • 표본공간 (sample space) : 통계적 실험을 실시할 때 나타날 수 있는 모든 결과들의 집합 
  • 사건 (event) : 표본공간의 부분집합 
    • 근원사건 : 오직 한 개의 원소로만 이루어진 사건
  • 표본공간이 유한 개의 원소로 구성, 근원사건들이 일어날 가능성이 모두 같은 경우, 사건 E의 확률 
    • P(E) = n(E) / n(Ω) 
    • n(E) = 집합 E에 있는 원소의 수 
  • 일반적으로 확률은 표본공간의 부분집합에 실수값을 지정한 것, 아래 세 조건 만족 
    • 1) 모든 사건 E의 확률값은 0과 1사이에 있다. 
    • 2) 전체 집합 Ω의 확률은 1이다. 
    • 3) 서로 배반인 사건들 E1, E2....의 합집합의 확률은 각 사건들의 확률의 합이다. 
      • 배반 사건 : 교집합이 공집합인 사건들 

나. 조건부 확률과 독립사건 

  • 조건부 확률 (conditional probability) : 사건 A가 일어났다는 가정하의 사건 B의 확률 P(B|A)
    • P(B|A) = P(A∩B) / P(A)
    • 단, P(A) >= 0 일때만 정의
  • 두 사건 A, B가 P(A∩B) = P(A)P(A) 만족하면 서로 독립 
    • P(B|A) = P(B) 
    • 사건 B의 확률은 사건 A가 일어났는지 여부와 상관없이 동일 

다. 확률변수와 확률분포 

  • 확률변수 (random variable) : 특정값이 나타날 가능성이 확률적으로 주어지는 변수 
    • 정의역 (domain)이 표본공간, 치역 (range)이 실수값인 함수
    • 이산형 확률변수 (discrete random variable) : 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수, 확률이 0보다 큰 값을 갖는 점들로 표현 가능 
      • 확률질량함수 (probability mass function : 각 이산점에 있어서 확률의 크기를 표현하는 함수
    • 연속형 확률변수 (continuous random variable) : 사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 갖는 함수의 면적으로 표현될 수 있는 확률변수, 한 점에서의 확률은 0, 0보다 큰 값을 갖는 사건은 구간에서의 확률값
      • 확률밀도함수 (probability density function) : 이때의 함수 f(x)
  • 결합확률분포 (joint probability distribution) 
    • 이산형인 경우 P(X=xi, Y=yi) = pij, 결합확률질량함수 (joint probability mass function)
    • 연속형인 경우 f(x,y)로 정의, 결합확률밀도함수 (joint probability density function) 
  • 통계 분석에서는 수집된 자료가 특정한 확률분포를 따른다고 가정 
    • 이산형 확률변수: 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포
    • 연속형 확률변수: 균일분포, 정규분포, 지수분포, (정규분포로 유도된) t-분포, 카이제곱 분포, F-분포 

라. 확률변수의 기댓값과 분산 

  • 확률변수 X의 기댓값 : (질량) 시그마 x(f(x)), (밀도함수) 인테그갈x(f(x))  
  • 확률변수의 흩어진 정도 나타내는 분산과 표준편차 : E(X-m)^2, 앞의 것 루트

마. 백분위수 

  • 연속형 확률변수 X의 제 q 백분위수 xq
    • P(X <= xq) = q/100

 

4. 추정과 가설검정 

 

가. 점추정 

  • 통계적 방법론을 통해 모집단의 확률분포를 알고자 함 
    • 모수 (parameter) : 모집단의 확률분포 특징 표현하는 값
    • 표본을 기반으로 모수들에 대한 통계적 추론
    • 통계적 추론 - 추정(점추정, 구간추정)과 가설검정 
  • 점추정 (point estimation) : 가장 참값이라고 여겨지는 하나의 모수의 값을 택하는 것 
    • 모집단의 평균(모평균)을 추정하기 위한 추정량 (estimator)는 확률표본의 평균값인 표본평균 (sample mean) 
    • 모딥단의 분산(모분산) 추정하기 위한 추정량은 표본분산 (sample variance)

나. 구간추정

  • 일정한 크기의 신뢰수준 (confidence level)으로 모수가 특정한 구간(신뢰구간 (confidence interval))에 있을 것
    • 일반적으로 신뢰수준은 90 95 99 % 확률 이용
    • 신뢰수준 95% 의미 = 한 개의 모집단에서 동일한 방법으로 동일한 자료의 개수의 확률표본을 무한히 많이 추출하여 각 확률표본 마다 신뢰구간을 구하면, 이 무한히 많은 신뢰구간 중에서 95%의 신뢰구간이 미지의 모수를 포함한다는 의미 

다. 가설검정 

  • 가설검정 : 모집단에 대한 어떤 가설을 설정한 뒤, 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법 
  • 귀무가설 (null hypothesis, H0)와 대립가설 (alternative hypothesis, H1)으로 설정
  • 확실하게 증명하고 싶은 가설, 뚜렷한 증거가 있어야 채택할 수 있는 가설, 혹은 그 결과가 값비싼 가설을 대립가설로 지정
  • 대립가설과 반대의 증거를 찾기 위해 정한 가설을 귀무가설로 지정
  • 검정통계량 (test statistic, T(X)) : 검정에 사용되는 통계량
  • 귀무가설이 옳다는 전제) 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 귀무가설 채택여부 결정
  • p-값 (p-value) : 귀무가설이 사실일 때, 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률 
    • 유의수준 (significance level) 보다 작으면 귀무가설이 나올 가능성이 적다고 판단 -> 귀무가설 기각 
    • 유의수준은 보통 0.01, 0.05, 0.1 중 사용
  • 기각역 (critical region) : 귀무가설을 기각하는 통계량의 영역 
  • 가설검정 과정의 두 가지 오류
    • 1) 제1종 오류 : 귀무가설 H0가 옳은데도 H0을 기각하는 오류 / 제1종 오류의 크기 (알파)
    • 2) 제2종 오류: 귀무가설 H0가 옳지 않은데도 H0을 채택하는 오류 / 제2종 오류의 크기 (베타)
    • 일반적으로 제1종 오류 알파의 크기를 0.1, 0.05, 0.01 등으로 고정한 후에 제2종 오류 베타가 최소가 되도록 기각역 설정

 

5. 비모수 검정 

  • 통계적 추론에서 모집단의 모수에 대한 검정 
    • 1) 모수적 방법 (parametric method) : 검정하고자 하는 모집단의 분포에 대한 가정하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정 실시 
    • 2) 비모수적 방법 (nonparametric method) : 모집단의 분포에 대해 아무 제약X 검정 실시, 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용 
  • 비모수 검정과 모수적 검정의 두 가지 차이점
    • 1) 가설 설정 방법
      • 모수적 검정은 가정된 분포의 모수에 대해 가설 설정 
      • 비모수 검정은 가정된 분포 X, 단지 '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다' 분포의 형태에 대해 설정 
    • 2) 검정 방법
      • 모수적 검정은 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시
      • 비모수 검정은 관측값의 절대적인 크기에 의존 X, 관측값들의 순위(rank), 두 관측값 차이의 부호 등을 이용 
        • 예) 쌍으로 관측된 표본에 대한 부호검정 (sign test), 윌콕슨의 순위합검정 (rank sum test), 윌콕슨의 부호순위합검정 (signed rank test), 만-위트니의 U검정, 런검정 (run test), 스피어만의 순위상관계수 등

 

제 2절 기초 통계 분석 

 

1. 기술통계 

  • 기술통계 (Descriptive Statistics) : 자료를 요약하는 기초적 통계 
  • data(iris) : 내장된 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수 
  • head(iris) : 데이터를 기본 6줄 보여주어 데이터가 성공적으로 import 되었는지 살펴볼 수 있는 함수 cf) head(iris, n)
  • summary : 데이터의 컬럼에 대한 전반적인 기초 통계량 (Min, Max, 1st Qu., 3rd Qu, Median, Mean)
  • 특정 컬럼의 통계량 구하기 : mean(iris$Sepal.Length), median(), sd(), var(), quantile(), min(), max()
  • 특정 column 선택 : 데이터네임$column명 

 

2. 회귀 분석 (Regression Analysis) 

 

가. 단순회귀분석과 중회귀분석의 개념

  • 회귀분석 : 하나 또는 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법 
    • 종속변수 or 반응변수 : 영향을 받는 변수, y
    • 독립변수 or 설명변수 : 영향을 주는 변수, x, x1, x2 등 
  • 단순선형회귀모형 : 가장 단순, 한 개의 독립변수와 하나의 종속변수로 구성, 오차항 있는 선형관계 
    • 베타0, 베타1 = 회귀계수 / 베타1 = 독립변수 x1의 회귀계수
    • 입실론 : 오차항, 평균 0 분산 시그마제곱인 정규모형 따른다고 가정
    • 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값으로
      • 최소제곱추정량 (Least Squares Estimator 혹은 LSE) : 회귀계수의 추정량
  • 다중회귀분석(중회귀분석) : 두 개 이상의 독립변수 사용하여 종속변수의 변화 설명 
  • 모델이 적절한 지 확인해야 함 
    • 모형이 통계적으로 유의미한가? 
      • F 통계량 확인, F통계량의 p-값이 0.05 보다 작으면 추정된 회귀식은 통계적으로 유의미 
    • 회귀계수들이 유의미한가?
      • 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간 확인
    • 모형이 얼마나 설명력을 갖는가?
      • 결정계수를 확인, 결정계수는 0에서 1값을 가짐, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음
    • 모형이 데이터를 잘 적합하고 있는가? 
      • 잔차를 그래프로 그리고 회귀진단 함
    • 데이터가 아래의 모형 가정을 만족하는가? 
      • 선형성 (독립변수의 변화에 따라 종속변수도 일정크기로 변화) 
      • 독립성 (잔차와 독립변수의 값이 관련되어 있지 않음) 
      • 등분산성 (독립변수의 모든 값에 대해 오차들의 분산이 일정) 
      • 비상관성 (관측치들의 잔차들끼리 상관이 없어야 함) 
      • 정상성 ( 잔차항이 정규분포를 이뤄야 함) 

나. 회귀분석의 종류 

  • 단순회귀 : 설명변수가 1개, 반응변수와의 관계가 직선
  • 다중회귀 : 설명변수가 k개, 반응변수와의 관계가 선형 (1차함수) 
  • 다항회귀 : 설명변수가 k개, 반응변수와의 관계가 1차 함수 이상
  • 비선형회귀 : 회귀식의 모향이 미지의 모수들의 선형관계로 이루어져 있지 않은 모형
  • lm(y ~ x, data=dfrm) : 단순선형회귀분석
  • lm(y ~ u+v+w) : 다중선형회귀분석
  • summary(m) : 결정계수, F통계량, 잔차의 표준오차 등 주요 통계량 정보 확인
  • plot(df1) : 산점도 그리기
  • plot(lm(y~x, data=df1) : 회귀식의 그래프 나옴
    • 만약 회귀식의 잔차도가 뚜렷한 곡선 패턴을 가지면 오차항은 평균 0, 분산 일정하다는 가정 만족 X 

다. 최적회귀방정식의 선택: 설명변수의 선택

  • 회귀모형을 설정하는 데 두 가지 원칙을 따름
    • 1) y에 영향을 미칠 수 있는 모든 설명변수 x를 y의 값을 예측하는데 참여시킨다. 
    • 2) 데이터에 설명변수 x들의 수가 많아지면 관리하는 데 많은 노력 요구, 가능한 범위 내에서 적은 수의 설명변수 포함해야
    • 타협 
  • 설명변수 선택하는 방법 
    • 1) 모든 가능한 조합의 회귀분석 (All possible regression)
      • 모든 가능한 독립변수들의 조합에 대한 회귀모형 고려
      • AIC(Akaike information criterion)이나 BIC(Bayesian information criterion) 기준으로 가장 적합한 회귀모형 선택 --> 가장 작은 AIB값 혹은 BIC값을 가지는 모형을 최적모형으로 선택 
    • 2) 단계적 변수선택 (Stepwise Variable Selection) 
      • (1) 전진선택법 (forward selection) : 절편만 있는 상수모형에서 시작, 중요하다고 생각되는 설명변수부터 차례로 모형에 추가, 가장 제곱합을 기준으로 가장 설명을 잘하는 변수를 고려, 그 변수가 유의하면 추가, 아니면 X
      • (2) 후진제거법 (backward elimination) : 독립변수 후보 모두 포함한 모형에서 출발, 제곱합을 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거, 더이상 유의하지 않은 변수가 없을 때까지 설명변수들을 제거
      • (3) 단계별방법 (stepwise method) : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약해지면 해당변수 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부 검토, 더이상 X 중단 
      • step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수선택방법")
        • lm : 회귀분석
        • scope : 분석시 고려할 변수의 범위 / 가장 낮은 단계 lower에 1 입력시 상수항 의미, 가장 높은 단계 설정하기 위해서는 설명변수들 모두 써주기 
        • direction : 변수 선택방법, 선택 가능 옵션은 forward(전진선택법), backward(후진선택법), both(단계적방법)

 

제3절 다변량 분석 

 

1. 상관 분석 

  • 상관분석 (Correlation Analysis) : 데이터 안의 두 변수 간의 관계
  • 상관계수 (Correlation coefficient) 이용 
    • 피어슨 상관계수 (Pearson correlation) : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계 측정
    • 스피어만 상관계수 (Spearman correlation) : 서열척도인 두 변수들의 상관관계 측정
    • 양수이면 x 증가할 때 y 증가 경향 보임, 음수는 y 감소 경향 보임
    • 산점도가 직선에 가깝게 분포시 상관계수 절대값은 1에 가까워짐, 강한 상관관계
    • 넓게 퍼지면 직선상의 관계 희미, 상관계수는 0에 가까워짐

가. 피어슨의 상관계수 

  • 공분산 : 두 확률변수 X와 Y의 선형관계의 크기 측정
    • X와 Y의 단위에 따라 영향 받음
  • 피어슨 상관계수
    • 단위 영향 X, 언제나 -1과 1 사이의 값 가지도록 함 
    • 공분산 / 두 확률변수의 표준편차 곱 
    • -1과 1 사이의 값
    • X와 Y가 독립이면 상관계수는 0 
  • 모수인 피어슨 상관계수를 추정하기 위해 표본상관계수 이용 
  • plot(x, y) : 산점도
  • corr(drat, disp) : 상관계수 
  • rcorr(as.matrix(mtcars), type="pearson") : Hmisc 패키지의 corr함수 이용, mtcars 상관분석, 모든 변수들 사이의 상관계수와 귀무가설 p(피어슨 상관계수)=0에 대한 p-값 출력 
    • 앞부분의 상관계수 행렬에서 변수 자신과의 상관계수는 모두 1로 대각항에 표현, 비대각항에는 다른 변수들과의 상관계수 표시
    • 아래 부분의 P 행렬은 각 상관계수의 유의확률 포함
  • cov(mtcars) : 공분산, 매트릭스 형식 

나. 스피어만 상관계수 (Spearman's rank correlation coefficient) 

  • 피어슨 상관계수는 두 변수 간의 선형관계 크기 측정 값, 비선형적인 상관관계 나타내지 못함
  • 스피어만 상관계수는 비선형적 관계도 나타낼 수 있음 
    • 한 변수를 단조증가 함수로 변환하여 다른 변수로 나타낼 수 있는 정도 나타냄 
    • 두 변수를 모두 순위로 변환한 후, 두 순위 사이의 피어슨 상관계수로 정의 
  • rcorr(as.matrix(mtcars), type="spearman") 

 

2. 다차원 척도법 

  • 다차원척도법 (Multidimensional Scaling, MDS) : 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법 
    • 주어진 거리는 추상적 or 실수공간의 거리가 될 수도 
    • 대상들을 2차원 혹은 3차원 실수공간의 점으로 대응 -> 시각화 가능, 직관적 이해 도움
    • 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용
  • cmdscale(eurodist) : 각 도시의 상대적 위치를 도식화할 수 있는 X, Y좌표 계산
  • 특정 변수들의 관측치가 없더라도 개체 간의 유사성에 대한 자료 사용하여 산점도 그릴 수 있음

 

3. 주성분 분석 

  • 주성분 분석 (Principal Component Analysis, PCA) : 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법 
    • 자료의 차원을 축약시키는데 주로 사용 
    • p차원 변수가 주어져 있을 때, X의 선형변환 중 분산이 가장 큰 선형변환을 첫 번째 주성분, X의 선형변환 중 첫 번째 주성분과 상관계수가 0이면서 분산이 가장 큰 선형변환을 두 번째 주성분......p번째 주성분까지 정의 가능 
    • 주성분들은 서로 상관관계가 없음 
    • 주성분들의 분산의 합은 Xi들의 분산의 합과 같음
    • ai = i번째 주성분의 로딩 
  • fit <- princomp(USArrests, cor=TRUE) : 주성분분석 시행, 공분산행렬이 아닌 상관계수 행렬 사용
  • summary(fit) : 주성분들의 표분편차, 분산의 비율 등을 보여줌 
  • loadings(fit) : 주성분들의 로딩 벡터 보여줌 
  • plot(fit) : 각 주성분의 분산의 크기를 그림으로 그려줌 -> 스크리 그림 (Scree plot) 
    • 주성분의 분산 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분 개수 정하기
    • 주성분들이 설명하는 분산의 비율이 70~90%  사이가 되는 주성분 개수 선택
  • biplot(fit) : 관측치들을 첫 번째와 두 번째 주성분의 좌표에 그린 그림 

 

제4열 시계열 예측 

 

1. 정상성 

  • 시계열자료 (Time-series Data) : 시간의 흐름에 따라 관측된 데이터
  • 시계열분석 (Time Series Analysis)를 위해서는 정상성 (Stationary) 만족해야 
  • 정상성 : 시점 상관없이 시계열의 특성이 일정하다는 것 
    • 1) 평균이 일정하다.
    • 2) 분산이 시점에 의존하지 않는다. 
    • 3) 공분산은 단지 시차에만 의존, 시점 자체에는 의존 X 
  • 정상성의 조건을 하나라도 만족 X -> 비정상 시계열 (대부분 시계열 자료) ->  정상성 만족하도록 정상으로 만든 후 분석 수행 
  • 먼저 시계열 자료 그림을 통해 파악 
    • 이상점 (Outlier)인 경우 제거 
    • 개입 (Intervention)인 경우 회귀분석 수행 
    • 추세 O (평균이 일정하지 않음) 인 경우 차분(Difference)을 통해 비정상 시계열을 정상 시계열로 바꾸기 
      • 차분 : 현 시점의 자료값 - 전 시점의 자료값 
        • 일반적) 현재 시점 - 바로 전 시점의 자료값 
        • 계절차분 (Seasonal Difference) : 여러 시점 전의 자료를 빼는 것, 계절성 갖는 비정상 시계열을 정상으로 바꿀 때 사용 
    • 시간에 따라 분산이 일정 X 경우 변환(Transformation)을 통해 정상 시계열로 바꾸기

 

2. 시계열 모형 

 

가. 자기회귀 모형(AR 모형) 

  • 자기회귀모형 (Autoregressive model) : 현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있음, AR(p) 모형 
    • (현재 시점의 시계열 자료) = (1~p 시점이 현재 시점에 어느 정도 영향을 주는지 나타내는 모수) * (1~p 시점 이전의 시계열 자료-곱해서 더하기) + 백색잡음과정 (White noise process, 대표적 정상 시계열) 
    • 백색잡음과정 at : 독립, 같은 분포 따르며 평균 0, 분산이 시그마 a 제곱인 확률 변수 
  • 현 시점의 시계열 자료에 몇 번쨰 전 자료까지 영향을 주는지 알아내야 
    • 과거 1 시점 이전의 자료만 영향 -> 1차 자기회귀모형, AR(1) 모형
    • 과거 2 시점 이전 -> 2차 자기회귀모형, AR(2) 모형
  • 판단 방법 -> 자기상관함수 (ACF, Auto-Correlation Function)과 부분자기상관함수 (PACF, Partial Auto-Correlation Function) 이용
    • 자기상관함수는 시차가 증가함에 따라 점차적으로 감소
    • 부분자기상관함수는 p+1 시차 이후 급격히 감소하여 절단된 형태, AR(p) 모형이라 판단

나. 이동평균모형(MA 모형)

  • 이동평균모형 (Moving Average model) : 현 시점의 자료를 유한개의 백색잡음의 선형결합으로 표현, 항상 정상성 만족, 정상성 가정 필요 X 
    • 1차 이동평균모형, MA(1) 모형 : 가장 간단, 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합
    • 판단 방법 
      • 자기상관함수는 p+1 시차 이후 절단된 형태, MA(p) 모형 
      • 부분자기상관함수는 점차 감소하는 형태 

다. 자기회귀누적이동평균모형 (ARIMA 모형) 

  • 자기회귀누적이동평균모형 (Autoregressive Integrated Moving Average model)
    • 대부분 많은 시계열 자료가 이 모형을 따름 
    • 기본적으로 비정상 시계열 모형 -> 차분과 변환을 통해 AR, MA, ARMA 모형으로 정상화 가능
    • ARIMA(p, d, q) 모형 
      • 차수 p는 AR 모형과 관련
        • p=0 이면 IMA(d,q) 모형 -> d번 차분하면 MA(q) 모형 
      • q는 MA 모형 관련
        • q=0 이면 ARI(p,d) 모형 -> d번 차분하면 AR(p) 모형 
      • d는 ARIMA에서 ARMA로 정상화할 때 몇 번의 차분 했는지 의미 
        • d=0 이면 ARMA(p,q) 모형 -> 정상성 만족

라. 분해 시계열 

  • 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법, 회귀분석적인 방법 주로 사용 
  • 시계열 구성 요소는 4가지
    • 1) 추세요인 (Trend factor) :  오르거나 내리는, 이차식, 지수적 형태 등 어떤 특정한 형태를 취하는 경우
    • 2) 계절요인 (Seasonal factor) : 각 월, 각 분기 등 고정된 주기에 따라 자료가 변화하는 경우
    • 3) 순환요인 (Cyclical factor) : 알려지지 않은 주기를 가지고 자료가 변화하는 경우
    • 4) 불규칙요인 (Irregular factor) : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인 
  • 각 구성요인을 정확하게 분리하는 것이 중요하지만 쉽지 않음
  • 분해 시계열 방법은 이론적 약점이 있다고 알려짐
  • 아직까지도 경제 분석, 예측에서 널리 사용
  • 분해식의 일반적 정의 : (시계열 값) = 미지의 함수 (경향(추세)요인, 계절요인, 순환요인, 불규칙요인)

 

3. 실습 

 

가. 시계열 자료  

 

1) 시계열 자료 불러오기 

  • 'ts' 클래스 : 시계열 자료 형식
  • 일반 데이터셋을 시계열 자료 형식으로 변환 : ts함수 사용 

2) 그림 고찰 

  • plot(Nile) : 그래프 추세 확인, 비계절성/계절성 파악 

3) 분해시계열 

  • decompose(Ideaths) : 계절성을 띄는 시계열 자료를 4가지 요인으로 분해
  • plot(Ideaths.decompose) : 추세요인, 계절요인, 불규칙요인으로 분해된 시계열 자료에 대한 그림 
  • Ideaths.decompose$seasonal : 계절성 띄는 시계열 자료에 계절요인을 추정해 그 값을 원 시계열자료에서 빼서 조정 (계절요인 제거)

4) ARIMA 모형 

 

(1) 차분

  • Nile.diff1 <- diff(Nile, differences=1) : 1번 차분 
  • Nile.diff2 <- diff(Nile, differences=2) : 2번 차분

(2) ARIMA 모델 적합 및 결정 

  • acf(Nile.diff2, lag.max=20) : 자기상관함수 그래프, lag 개수 20개
  • pacf(Nile.diff2, lag.max=20) : 부분상관함수 그래프, lag 개수 20개)
  • auto.arima(Nile) : forecast 패키지의 auto.arima 함수 이용하여 적절한 ARIMA 모형 결정 

(3) ARIMA 모형을 통한 예측 

  • Nile.arima <- arima(Nile, order=c(1,1,1)) : 시계열 자료를 ARIMA(1,1,1) 모형에 적합 
  • Nile.forecasts <- forecast(Nile, arima, h=10) : forecast 패키지의 forecast 함수 이용하여 미래 수치 값 예측, 10개 년도만 예측