Time Series Analysis

시계열 또는 시계열 데이터라고 하는 것은 하나의 변수에 대한 시간에 따른 관측치를 말한다. 시계열은 수평적 패턴, 추세 패턴,그리고 계절성이 포함된 패턴 등으로 구분될 수 있는데,이러한 패턴에 따라 적절한 모형을 선택하여 사용하는 것이 중요하다.

1. 시계열 평활기법

  1. 계절 혹은 시간에 따라 특성을 요약하고 시간에 따라서 현재 시간하고 이전시간과 상관계수가 어떻게 되는지 영향을 밝히는 것

  2. 시간에 따른 패턴을 바탕으로 모형화하고, 미래값을 예측하는 것. 회귀모형과 달리 자기 자신의 변수의 과거 패턴이 미래에도 계속 가정된다는 가정에, 과거 값을 바탕으로 예측하는 것이다.

2. 시계열 모형 분류

  1. 평활화 모형: 이동평균, 지수평활, 윈터스 모형, 분해법

  2. ARMA 모형: AR, MA ,ARMA 모형

  3. ARIMA 모형: ARIMA, 계절성 ARIMA

  4. 오차이분산모형: ARCH, GARCH

  5. 다변량시계열: 백터회귀모형(VAR)

  6. 상태공간모형

3. 예측성능 척도

특정 시점에서 다음 시점을 예측한 후, 다음 시점의 실제값과 예측 값 간의 오차를 산출해 예측오차를 구한다. 오차를 구하는 방법에는 아래와 같이 4가지 방법이 있다.

  • 평균제곱오차(MSE) : 오차 제곱을 합해 평균을 구한다.

  • 제곱근 평균제곱오차(RMSE) : MSE가 단위로 환산이 어려워 , 루트를 씌운다.

  • 평균절대오차(MAD) : 오차를 제곱하지 않고, 오차의 절대값의 평균을 구한다.

  • 평균절대퍼센트 오차(MAPE) : 절대오차를 실제값으로 나눈것의 절대값에 대해 100을 곱해 퍼센트로 표

1-1.이동평균

매시점에서 직전 N개의 데이터의 평균을 산출해 평활치로 사용한다. 시계열은 변화가 심해 변화가 덜한 라인선을 찾은 다음, 이를 평활치로 계산한다.

  • 단순 이동평균(Simple Moving Average)

시계열이 수평적 패턴에서 시계열이 변하는 경우에 사용.

예를 들어 T라는 시간이 있으면 , 그 직전의 N개의 데이터를 평균값을 내어 평활치로 삼고, T+1 시간이 지나면 그 평활치 값과 t+1 시간의 측정된 데이터와 , 첫번째 데이터를 뺀 N개를 평균값을 더해 예측치로 삼는다. 따라서 N값이 클수록 평활효과가 크다.

  • 이중이동평균(Double Moving Average)

추세가 있을때, 시간에 따라 증감하는 패턴이 있을 때 사용

어떤 시계열 데이터가 선형추세를 갖는다 가정했을때, 단순 이동평균을 사용할 경우, N-1/2 만큼 추세가 늦게 따라가기 때문에, 이를 보완하기위해 단순 이동평균을 한 것에 다시 이동평균을 취하는 것이다. 즉 단순이동편균을 두번 취한다고 볼수 있다.

1-2. 지수평활법

지수평활법은 평활치를 구하는데 이동평균과 달리 전체 데이터를 사용하는 방법으로, 시간에 따라 다른 가중치를 주는데, 최근의 관측치가 가중치가 크고 점차 과거로 갈수록 가중치가 작다. 지수 평활법은 크게 단순 지수평활법, 이중 지수평활법, 그리고 홀트 모형이 있다.

  • 단순 지수평활(Simple Exponential Smoothing)

시계열이 수평적 패턴인 경우에 주로 사용

t 시점에서 가장 최근 값에 0~1 사이의 alpha라는 가중치를 주고, 그 직전인 t-1 의 관측치에 alpha* (1-alpha) , t-2 관측치에는 alpha* (1-alpha)^2 로 점점 과거로 갈 수록 alpha* (1-alpha)^N 가중치를 작게 부여한다. 그다음 t+1 시점에서 예측할 떄, 이전 평활치와 새로운 관측치 사이의 가중평균을 이용해 구한다.

  • 이중 지수평활(Double Exponential Smoothing)

시계열이 추세가 있을 때 사용

이동평균모형과 유사한 방법으로, 단순 지수평활법의 기대치가 (1-alpha)/(alpha)*b 만큼 추세를 반영하지 못하는 문제를 보완하기 위해 단순지수평활치에 최근 단순지수평활치를 가중평균한 값이다.

  • 홀트모형(Holt's Model)

시계열이 추세가 있을 때 사용

이중치수평활법과 유사하지만, 수평수준과 추세를 각각 갱신하는 모형이다. 하지만, 항상 이중지수 평활법에 비해 좋지는 않다.

1-3 추세와 계절성 고려모형 (Winter, Decomposition)

추세와 계절성(seasonality)을 고려하는 모형으로 , 윈터스와 분해법이 있다. 두 모형 모두 어떠한 요인을 더해지는 모형인 가법(additive)모형과 요인,추세나 계절성등이 곱해진다는 가정이 포함된 승법(multiplicative)모형을 사용한다.

  • 윈터스(winters) 모형

홀트모형에 계절성을 추가하여 확장시킨 것으로, 수평수준(alpha), 추세(beta), 계절성(gamma) 각각 갱신하는 모형이다. 하지만 한가지 유의할 점은 초기치 데이터 가 필요하다.

  • 분해법(Decomposition)

추세와 계절성을 분해한 후, 다시 예측할 때 추세와 계절성을 결합하여 예측할때 사용하는 모형.

2-1.정상적 시계열: 정상성의 조건, 자기상관함수

정상성

  • 강정상성:

기대치가 시간에 따라서 동일한 것뿐만 아니라 분산도 동일하고 자기공분산 또는 자기상관계수가 시간 간격에 의해서만 의존

  • 약정상성:

강정상성보다 약한 성질을 가지고, 임의 두 시점의 자기공분산이 시간 간격에만 의존하고 유한할 때 약정상성을 갖는다.

강정상성이 성립하면 약정상성이 성립하지만 , 역은 성립하지 않는다. 하지만 결합확률분포가 다변량정규분포를 따를 때 강정상성과 약정상성이 동일하다. 시계열 분석에서는 주로 약정상성을 가정하고 다룬다.

자기공분산(autocovariance)

공분산은 어떤 두 변수의 상관 정도를 나타냅니다. 시계열은 변수가 하나이고, 시간에 따른 어떤 변수의 관계를 공분산으로 표현한 것이 자기공분산이다. 이를 바탕으로 자기상관함수(autocorrelation function, 이하 ACF)을 산출할 수 있다.

* 자기상관함수(ACF)

자기상관계수는 공분산을 분산으로 나눈 값으로 자기상관계수의 성질은 시차가 0일 때는 1이 되겠고, 대칭이 된다.

* 편자기상관함수(Partial ACF: PACF)

편자기상관함수 어떤 두개의 시차 값간의 상관계수가 중간 시점들의 값들이 이미 설명한 이후 추가적인 영향만을 고려하기 위해 고안된 것으로, 시차가 얼마나 떨어졌는지 편자기상관함수를 구하는 것

2-2 시계열 표현방식

  • 자기회귀 표현방식(AutoRegressiv: AR) : t 시점의 시계열값을 이전 시점의 시계열 값 마지막 t 시점에서의 백색잡음이 결합된 형태로 표현. ACF를 사용할 시, 지수적으로 감소하고 , PACF는 시차에서 절단되는 형태를 가지는 특성이 있다.

  • 이동평균표현방식(moving average: MA) : t 시점의 시계열 값을 각 시점의 백색잡음으로 표현하는 방식. AR로 표현하려면 가역성 조건이 필요.MA 모형은 ACF가 어떤 시차에서 절단되고, PACF를 구해보면 지수적으로 감소하는 형태.

  • ARIMA : AR 모형과 MA 모형이 결합된 형태

모형

ACF

PACF

AR(p)

지수적으로 감소

시차 p 이후 절단

MA(q)

시차 q이후 절단

지수적으로 감소

ARMA(p,q)

시차 (p-q) 이후 지수적 감소

시차 (p-q) 이후 지수적 감

AR과 MA의 차이점

A하나의 시점 t의 값을 식으로 나타낼 때, AR은 과거 시점들의 값들을, MA는 과거의 백색 잡음 (white noise) 값들을 이용한다.

3.1 시계열 모형 추정방법

시계열 모형 추정방법의 대표적인 예로 3가지가 있다.

최소자승법, 비선형최소자승법, 최우 추정방법이 있다. 최소자승법은 AR 모형에만 사용이 가능하고 일반적으로는 사용할 수 없다. 반면 비선형 최소자승법 (nonlinear least squares method)도 사용이 가능하지만, 일반적으로는 최우추정법(maximum likelihood estimation)을 사용한다.

최우 추정법은 오차항이 서로 독립인 정규분포를 따를 때 우도함수(likelihood function)를 구성하고 이 우도함수의 로그(log)를 취해 (평균, 분산)값 최대화하는 모형 계수를 찾는다.

하지만 ARMA 모형의 경우 관측치들이 서로 독립이 아니므로, 우도함수 구하기가 어렵고, 백색잡음(white noise)이 서로 독립임을 활용하여 우도함수를 구하려면 관측치를 이용해서 각 시점에서의 백색잡음을 계산해야 한다. 그런데 첫번쨰 백색잡음을 계산할 때 Z(0) 값이 주어지지 않으므로 이에 대핸 초기치가정(assumption)을 세울 필요가 있다.

조건이 있을 경우, 임의로 초기치 사용하고 초기치가 없는 경우 과거의 초기치를 후방예측 (back casting)하여 사용한다. 일반적으로 과거의 백색잡음은 0으로 가정하고 과거의 관측값은 평균으로 가정다.

로그우도함수를 최대화하는 것은 백색 잡음으로 구성된 마지막 항 (제곱합)을 최소화하는 것이다.

조건없는 우도함수의 경우 필요한 초기치를 예측을 해서 사용한다. 즉 과거 관측치를 예측한다.

기존에 과거값으로 미래치를 예측하는 방식에서 시간 축을 반대로 생각한다. 즉 시간 축을 반대로 생각해서 과거치를 미래치로 생각해서 현재값으로 예측다.

3.2 시계열 모형 추정에 대한 검증

추정된 모형의 잔차(residual)가 백색잡음을 따르는지 검토를 해야한다.

  1. 색잡음이 정규성을 가정하였기에 잔차가 정규분포를 따르는지 확인 (정규확률분포 사용)

  2. 잔차에 패턴이 없이 등분산성을 가지는지 그리고 랜덤성을 가지는지도 확인 (잔차 산점도 활용)

이때 랜덤성은

  1. 표본 ACF와 PACF를 계산해서 모든 시차에서 0인지 여부를 확인. (잔차가 랜덤성을 가지면 모든 시차에 대해서 표본 ACF아 PACF가 0).

  2. 그 밖에 포트만토 검정이나 Ljung-Box 검정 등 여러 가지 검정을 이용해서 잔차가 랜덤성을 가지는지 확인

4.비정상적 시계열

비정상적 시계열이란 추세 또는 계절성이 포함된 시계열로 정상성을 만족하지 못한 것을 말한다.

비정상적 여부를 판단하는 기준은 크게 시각화, ACF 감소패턴, 통계 검정을 통해 알 수 있다.

  1. 시계열 그래프를 그려 시각적으로 추세가 있는지 , 계절성이 있는지 판단

  2. ACF 패턴이 느리게 감소하는 패턴을 가지고 있음

  3. 단위근 검정을 통해 단위근이 있으면 비정상적인 시계열로 판단

판단 후, 비정상적 시계열을 정상적 시계열로 반한하는 방법은 3가지가 있다.

  1. 차분(difference)을 통해 정상적 시계열로 변환

  2. 원시계열이 분산이 증감하는 패턴을 가지면 로그 같이 함수변환을 통해 분산을 안정화

  3. 분해법으로 추세 및 계절성 제거

차분(differencing)

연이은 관측값들의 차이를 계산하는 것으로, 일차 차분을 해보고 이것이 정상적인 시계열의 모습을 보이면 더이상 차분을 하지 않는다. 그러나 일차 차분을 했음에도 정상적이지 않고 추세가 있을 경우 2차 이상 차분을 취한다. 이렇게 여러번 차분을 할 수 있으나, 보통 2차 차분에 문제가 해결된다. 이러한 비정상적인 모형을 ARIMA 모형으로 나타낼 수 있다.

누적 시계열(intergrated process of order d)

원 시계열이 있으면 차분을 해서 정상적으로 된 경우, 그 때 원 시계열을 누적 시계열 이라고 부른다. 이때 d 번 차분을 했는지 I(d)로 표기한다.

그래서 ARIMA 모형이라는 것은 차분을 통해 정상적 ARMA(p,q) 모형으로 변할 때, 원시계열을 ARIMA(p, d, q) 라고 한다. 예를들어 ARIMA(1,1,1) 모형이 있으면, 1차 차분한 ARMA(1,1)를 따른다고 할 수 있다.

4.2 계절성을 고려한 ARIMA 모형

일반적인 시계열은 추세와 계절성이 동시에 존재하는 경우가 많다. 추세는 차분을 통해 제거될 수 있으나 계절성이 남는 경우가 있다. 그래서 비계절성 모형과 계절성 모형을 복합적으로 고해야 한다.

계절성 차분(seasonal differencing)

계절성 주기를 s라고 표현할 때, 월별 데이터일 경우 s는 12 , 분기는 s가 4이다. 이처럼 시간에 따라 계절성이 있을 때, 차분을 하면 추세가 사라진다. 예를들어 월별 어떤 시점에서(t)에서 계절성 데이터가 주어지면 s가 12가 되고 이전 해의 월(t-12)을 빼 차분 데이터를 구하면 된다.

계절성 ARIMA 모형의 식별 및 추정 방법

  1. 시계열도를 그려 추세나 계절성 존재유무를 파악

  2. 다양한 사항을 고려해 이에 맞는 차분을 실시

  • 추세는 없고 계절성만 있는 경우: 계절성 차분만 실시

  • 추세가 있고 계절성이 없는 경우: 차분만 실시

  • 추세와 계절성이 있는 경우: 먼저 계절성 차분을 하고, 추세가 남아 있으면 차분을 실시

3 . 차분한 시계열에 대해 ACF, PACF를 바탕으로 P,Q를 결

4. 모형 파라미터 추정

5. 잔차검정 실시

단위근(Unit root) 검정

비정상적 시계열 여부를 통계적 검정을 통해 판단하는 기법으로 크게 모수적인 방법과 비모수적인 방법으로 나뉜다. 모수적인 방법은 시계열의 비정상성을 귀무가설로 하여 단위근의 존재여부를 판단하는 것인데, 대표적인 검정으로 ADF(augrmented Dickey-Fuller)가 있다. ADF는 Dickey and Fuller(1984)[1]가 제안한 ARMA 모형을 확장시킨 방법이다. 비모수적인 방법은 정상시계열의라는 가설을 귀무가설로 하여 단위근을 검정하는 방법으로 대표적으로 KPSS 검정이 있다. 여기서는 ADF만 다뤄보겠다.

ADF는 모든 정상적 시계열은 고차원의 AR 모형(P가 큰 모형)으로 근사 될 수 있다고 가정하고, AR 모형만을 고려한다. t-값과 유사한 검정통계량을 통해서 phi가 1이라는 귀무가설을 세워 귀무가설을 채택하면 단위근이 있는 것으로 정상적 시계열이 될 때까지 차분을 통해 단위근 검정을 실시하고, phi가 1이 아니면(가설을 기각하면) 단위근이 없는 것으로 시계열이 정상적으로 간주하고 모형을 검정한다.

Reference

[1] Dickey, D. A., Hasza, D. P., & Fuller, W. A. (1984). Testing for unit roots in seasonal time series. Journal of the American Statistical Association, 79(386), 355–367. https://doi.org/10.1080/01621459.1984.10478057

Last updated