기초통계지식

부천대 전자과 IOT 응용소프트웨어 과목을 수강하는 학생들을 위한 자료로 자주 사용되는 기초통계자료를 소개한다.

1. 공분산과 상관계수

공분산이란, 두 변수가 각자의 평균으로부터 멀어지는 정도를 의미한다. 한 변수가 자신의 평균으로부터 멀어질 때 다른 변수가 자신의 균으로부터 멀어지는 정도를 말한다.

수식을 설명하면, A와 B 각 자기변수에서 평균을 뺀다. 즉 편차를 말하는데 이 둘을 곱하면 서로 같이 변하는 정도를 알 수 있다. 공분산의 범위는 마이너스 무한대에서 플러스 무한대까지 이루어져 있다.

상관계수는 두 변수 간의 관게로, 한의 변수가 변화함에 따라 다른 변수가 변화하는 정도를 의미한다.

수식을 설명하면, 분자에는 공분산(Cov)의 수치 , 분모에는 두 변수의 표준편차가 위치해 있다. 즉 상관계수는 공분산을 통해 구해진다. 공분산이 표준편차에 의해 나눠지기 때문에 표준화(평균이 0, 표준편차가 1로 만들어)가 이루어지고, 상관계수는 -1에서 +1 사이의 범위를 가진다.

예를들어 그림과 같이 수치형 두변수인 X,Y가 있다고 가정하자. 이 두 변수의 관계를 크게 3가지로 나뉠 수 있다. X의 변수가 증가함에 따라 Y가 같이 증가하게 되면 양의 상관관계가 존재한다고 하고, 반대로 X가 증가하는데 Y 변수는 감소하게 되는 경우 음의 상관관계가 존재한다고 한다. 또한 X가 증가함에 따라 Y 변수가 변하지 않는 경우를 무의미한 상관관계가 존재한다고 한다.

다음은 2019년 산학기술학회 10월 호 국내기업의 빅데이터 이용의도에 미치는 영향요인 분석의 상관관계 예이다. 보통 상관관계 표에는 각 변수들의 평균과 표준편차를 함께 표시한다.

상관관계 표에는 대각선의 1이라는 수치로 이루어져 있다. 이는 자신 변수간의 관계를 비교로 언제나 1이 나오고, 1을 기준으로 위아래 대각선으로 같은 수치가 대칭을 이루는데, 둘중의 하나만 표시를 한다.

그림을 예제로 상관관계 해석을 하면 1번의 변수인 비용감소(Cost reduction)은 2번 변수인 의사결정지원(Decision support)와 0.361로 양의 상관관계가 있다.이는 1번변수가 증가하면 2번변수도 같이 증가한다고 볼 수 있다.

2. 가설과 신뢰수준/유의확률

추리통계는 가설 설정하고, 분석을 통해 가설을 채택할지 기각을 할지 정한다.

이때 가설을 어떻게 설정할지 알아본다.

가설은 어떤 사실을 설명하거나 증명하기 위해 설정한 가정을 의미한다.

2-1. 가설은 크게 두가지로 나뉜다.

영가설(H0) 은 연구가설과 반대되는 가설로, 실제 분석이 이루어지는 가설이고, 귀무가설이라 부르기도 한다.
연구가설(H1)은 분석을 통해 알아보고자 하는 내용으로 이루어진 가설이다. 즉 연구자가 증명하고 싶은 주장으로 대립가설이라 부른다.

가설은 이 반대되는 두가지를 모두 합쳐 일어나는 모든 경우의 수를 알아본다. 그리고 확률적으로 나은 한가지 가설을 채택하고 다른 한가지 가설은 기각하게 된다.

예를들어 내가 개와 늑대는 같은 종인지 알아보고자 실험을 하게되면 영가설(H0)은 같은종이다라고 설정하게 되고 연구가설(H1)은 늑대와 개는 같은 종이 아니다라고 설정 후 실험과 분석을 통해 도출한 결과에서 두가지 가설 중 하나를 증명하게 된다.

다음그림은 산학기술학회에 등재된 학술지로 이 학술지를 통해 영구가설과 연구가설을 설명하려고 한다. H1 가설을 예로들면, H1의 영가설은 비용절감은 빅데이터 이용의도에 통계적으로 유의미하지 못하다라고 해석할 수 있고, H1의 연구가설은 비용절감은 빅데이터 이용의도에 통계적으로 유의미한 영향을 미칠것이라고 설정할 수 있다.

하지만 보통 어떤 실험지나 학위논문, 학술지를 읽으면 알 수 있듯이 영가설은 따로 기재하지 않는다. 왜냐하면 영가설은 연구자가 증명하고자 하는 대립가설을 설정하면 자연히 이와 반대되는 가설이기 때문이다.

2-2 유의확률

실제로는 영가설이 참인데도 불구하고 통계분석을 통해 영가설을 거짓으로 판단할 가능성 (p-value)으로 연구결과가 실제 현상을 반영하지 못할 가능성을 말한다. (p-value : probability value ,확률값)
즉 귀무가설을 지지하는 정도라고 해석하면 된다.

예를들어 영가설로 어떤 두 집단간의 평균의 차이가 없다고 설정했을 때, 실험을 통해 두 집단 간 평균의 차이가 있다고 결론내릴 가능성을 말한다.그래서 유의확률이 작아질수록 영가설을 채택할 수 있는 확률이 높아짐에 따 연구가설이 실제발생하지 않음에도 발생했다고 채택될 확률은 낮아지는 것을 말한다.

그리고 검정은 영가설(귀무가설)이 맞다는 가정하에 우리가 가진 데이터가 나올 가능성을 계산하는데 일종의 조건부 확률로 볼 수 있다.

(점점더 어렵다고 느껴질 것이다. 끝까지 읽어보고 마지막 정리를 외우길 바란다.)

2-3 신뢰수준

실제로 영가설이 참이고 통계분석을 통해 영가설을 참으로 판단할 가능성으로 실제 현상에서 발생하지 않은 연구가설을 기각할 가능성을 말한다.

예를들어 영가설로 어떤 두 집단간의 평균의 차이가 없다고 설정했을 때, 실험을 통해 두 집단 간 차이는 없었으면 두 집단 간 차이가 없다고 결론 내릴 가능성을 말한다.

일반적으로 신뢰수준이 높아질 경우, 영가설을 채택할 가능성이 높아지고 연구가설이 채택될 가능성이 낮아지게 된다.

즉 신뢰수준이 높아질 수록 연구가설이 실제 현상을 반영할 가능성이 상승한다.

가설의 판단기준은 다음과 같다.

95% 신뢰수준, 유의확률이 0.05미만 : *
99% 신뢰수준 , 유의확률 0.01 미만: **
99.9% 신뢰수준, 유의확률 0.001 미만: ***
90% 신뢰수준, 유의확률 0.1미만 : †

이 기준을 통해 유의확률이 일반적 유의수준 0.05 미만이면 연구가설을 채택하고, 유의확률이 0.05이상이면 영가설을 선택하게 된다.

도통 모를것이다. 그래서 p-value가 왜이리 중요한지 한 유튜브에서 소개되는 예로 설명하려 한다.

우리가 어떤 사건이 우연히 발생활 확률을 구하자고 가정해보자. p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미가 된다. 우연히 발생할 확률이 5%보다 작다는것은 이 사건은 우연히 일어났을 가능성이 없다고 볼 수 있다. 즉 어떤 인과관계에 의해 일어났다고 추정하는것이다.

기준이 되는 5%는 쉽게 말해 이정도면 우연히 아닐꺼라는 수준의 정도다. p -value가 크면, 이 사건은 우연히 발생한 것이라고 생각하고, 이 사건에 인과관계가 없다고 판단하는 것이다.

3. T 분석방법

독립변수가 비연속형 변수(명목척도나 서열척도)이고, 종속변수가 연속형 변수(ex) 등간/비율척도)일때 사용하는 분석방법
독립변수가 연속형이므로 집단으로 구성되었다는 측면에서 집단간의 평균차이 분석을 의미한다. 특 독립변수 집단이 2개 이하일 때 사용하는 분석방법이다.
T 분석방법은 t-분포를 사용하여 분석한다.
t-분포는 독립변수가 한개의 집단이냐, 두개 집단이냐에 따라서 가설과 분석방법이 달라진다.

3-1 일표본 분석

하나의 모집단에서 표본을 추출할 때 사용되는 분석으로 표본의 평균이 예측한 특정 수치와 같은지 다른지 검증하는 방법이다.

예를들어 영가설에(H0) 부천대학 전자과 학생들의 평균 키는 180cm 이다라고 가설을 설정할 것고, 연구가설(H1)에서는 부천대학 전자과 학생들의 평균 키는 180cm가 아니다, 또는 부천대학 전자과 학생들의 평균 키는 180cm 이상이다.라고 설정하게 될 것이다.

그 다음 한 집단인 부천대학 전자과 학생들의 평균 키가 특정 수치인 180과 같은지 검증한다.

3-2 독립표 t-분석

두개의 모집단에서 각각의 표본을 추출할 때 사용되는 분석으로 두 집단의 표본 평균이 서로 같은지, 다른지 확인하는 방법이다.

예를들어 영가설에는 부천대학 전자과 3학년 학생들 신장과 4학년 학생들의 신장의 평균은 같다라고 설정을 한 다음, 연구가설(H1)에서는 부천대학 전자과 3학년 학생들과 4학년 학생들의 평균은 다르다 . 또는 부천대학 전자과 3학년 학생들의 신장은 부천대학 전좌가 4학년 학생들의 평균신장이 크다라고 설정할 것이다. 그리고 두 집단인 3학년 학생들 신장 평균과 4학년 학생들의 신장 평균을 비교한다.

중요한 것은 독립표본 t-분석은 두개의 집단의 분산이 동질한지 확인해야 한. 이유는 분산에 따라 유의확률이 달라지기 때문이다.

3-3 대응표본 t-분석

하나의 모집단에서 표본을 추출하지만, 같은 표본에게 사전/사후 측정과 같이 두번의 측정이 이루어질 때 사용하는 분석방법이다.
측정이 두번이 이루어짐에 따라서 두개의 집단이 이루어진것처럼 보이지만, 측정은 하나의 집단에서만 이루어지므로, 일표본이나 독립표본 분석방법으로 진행할 수 없다.

예를들어 한달간 부천대학 전자과 학생들에게 비타민 B 복용에 따라 피로도가 얼마나 달라진지 확인하고 싶다고 하자. 그럼 테스트를 하기 전, 먼저 복용하기 전에 피로도를 측정 했을 것이고, 한달간 비타민B를 복용한 다음(사후) 측정 했을 것이다.

이때 영가설로 복용하기 전(사전수치)과 복용했을 때(사후 수치) 피로 수치는 같다 라고 설정하고, 연구가설로는 복용 전(사전 수치)과 복용 이후(사후 수) 피로수치는 달라졌다, 혹은 복용 전보다 복용 이후 피로수치가 낮아졌다라고 설정한다.

그 다음, 같은 집단인 부천대학 전자과 학생들이 비타민 B를 복용하기 전(집단 1의 사전 수치)의 피로 평균의 수치와 복용 이후(집단 1의 사후 수치)의 평균을 검증한다.

막약 독립변수의 집단이 3개 이상일 경우 분산분석(ANOVA)을 사용하면 된다.

Reference

[1] 패스트캠퍼스

[2] https://youtu.be/5Xke4ao1g9E

PreviousAnalysis(with Python & R)Next회귀(Regression)

Last updated 4 years ago

Was this helpful?