연구방법론
귀무가설과 대립가설
귀무가정(歸無假定)·영가설(零假說)이라고도 한다. 검정을 할 때 비교되는 2개의 표본집단(標本集團)의 결과차(結果差)가 확실히 조건차(條件差)가 있다고 생각되는 경우 또는 동일 모집단(母集團)에 귀속하고 있지 않다고 생각되는 경우 그 추측과는 반대의 가설을 설정하는 것이다.
통계가설이 귀무가설이어야 하는 이유는, 만일 추측에 맞는 가설을 설정하였을 때 그 사실에 관한 완전한 지식(知識)에서 계산된 조건차에 기인한 결과차의 분포와 실험(實驗)에 기인한 같은 분포와의 상위(相違)함의 우연을 구하여 검정해야 하므로, 검정할 필요가 있는 사상(事象)의 분포에 관한 정확한 지식이 있으면 검정할 필요가 없게 된다는 모순에 봉착하는 것에서 기인한다.
대립가설(Alternative Hypothesis)는 통계학에서 귀무가설에 대립하여 '모집단에서 독립변수와 결과변수 간에 관련이 있다'라고 기술하는 명제를 말한다. 연구가설 혹은 유지가설이라고도 하며 어떤 가능성에 대해 확률적인 가설검정을 할때 귀무가설과 함께 사용된다. 이 가설은 귀무가설처럼 검정을 직접 수행하기는 불가능하며 귀무가설을 기각함으로서 받아들여지는 반증의 과정을 거쳐 받아 들여 질 수 있다.
가설검증 단계
통계적 추측에서 가설 검증은 표본자료를 이용하여 어떤 가설이 참이라는 가정아래에서 일어날 가능성이 희박한 수준을 정해놓고 표본자료가 그 수준을 벗어나면 가정된 가설을 기각하는 것을 말한다.
일반적으로 가설 검증은 다음 5단계를 거친다.
1) 유의수준의 결정 및 귀무가설과 대립가설의 설정
2) 검정통계량의 결정
3) 기각역의 결정
4) 검정통계량의 계산
5) 통계적 의사결정이 그것이다.
관측된 유의수준을 나타내는 p값(통상 0.05수준)을 이용한 가설검정은 5단계 가설검정절차를 거치지 않은 통계적 가설검정으로 대부분의 통계 패키지는 이러한 방법의 가설검정에 대한 결과를 제공한다.
p값은 귀무가설이 참이라고 가정하였을 때, 자료를 통해 계산된 검정통계량 값보다는 귀무가설을 기각하는 방향으로 검정통계량 값이 관측될 확률을 의미한다.
유의수준 a가 이미 정해진 경우에는 p값과 비교하여 p값이 a보다 작게 나타나면 귀무가설을 기각하고 p값이 a보다 크게 나타나면 귀무가설을 기각하지 못하는 통계적 결정을 내린다.
측정이란?
측정이란 이론을 구성하고 있는 개념들을 현실세계에서 관찰이 가능한
자료와 연결시켜 주는 과정이라 할 수 있음. 즉 측정이란 사물이나 사건 등에 숫자를 부여하는 것으로 정의할
수 있음.
척도의 형태
사물 혹은 사건의 속성이 지니고 있는 특성에 따라 측정할 수 있는 수준이 달라짐
(예: 성별은 단순히 속성을 분류하는 수준, 무게나 길이는 차이나 비율을 의미)
측정의 수준은 명목측정, 서열측정, 등간측정, 비율측정으로 구분함
(1) 명목척도
측정대상의 소속여부나 대상의 분류를 위해 사용된 수를 말함. 성별, 직업 등. 이 때 할당된
숫자는 대상을 구분하는 이외에는 의미가 없다. 측정 중에 정보량이 가장 적은 측정이며,
측정대상을 상호배타적인 집단으로 구분하는 데 이용함.
사용가능한 분석방법은 빈도량을 나타내는 최빈값, 이항분포검증, 교차분석 등으로 제한됨.
(2) 서열척도
측정 대상들 간의 순서개념을 측정하기 위해 사용. 크고 작음, 높고 낮음 등의 순위만 부여
하여 1위와 2위 간의 차이가 2위와 3위 간의 차이와 같다고는 할 수 없고, 단지 순위만
나타낼 뿐임. 주로 정확하게 정량화하기 어려운 응답자의 태도, 선호도, 사회계층 등의
측정에 이용됨. 중앙값, 서열 상관관계, 서열간 차이분석은 시행할 수 있으나, 산술평균이나
표준편차 등과 같은 산술계산은 할 수 없음.
(3) 등간척도
측정대상의 속성에 숫자를 부여하되 숫자 사이의 간격을 동일하게 측정하는 것.
즉 측정대상이 갖는 속성의 양적인 정도의 차이를 나타내주며, 해당 속성이 전혀 없는 절대
‘0’이 존재하지 않고 임의의 ‘0’만 존재함. 따라서 측정치 간의 비율계산은 무의미함.
온도계 수치가 대표적이며, 물가지수, 생산성지수, 주가지수와 같은 지수의 측정에 많이
이용됨. 범위의 계산, 평균값, 표준편차, 상관계수를 구할 수 있음.
(4) 비율척도
등간 측정이 갖는 특성에 추가적으로 등간 측정이 갖지 못한 절대적 기준점인 절대 0점이
존재하는 측정으로 측정값들 간의 비교가 가능하다. 또한 모든 형태의 통계적 분석을 사용할
수 있음.
신뢰도와 타당도
1. 신뢰성의 개념 : 신뢰성(Reliability)이란 유사한 측정도구 혹은 동일한 측정도구를 사용하여 동일한 개념을 반복 측정했을 때 일관성 있는 결과를 얻는 것을 말한다. 신뢰성의 의의는 어떤 조사결과에 대해서 이 조사결과가 부정확한 측정자료에서 우연히 발견된 것이 아니라는 결과에 대한 확신을 줄 수 있으나 연구 결과와 그 해석을 위한 필요조건일 뿐 충분조건은 아니다.
2. 신뢰성의 측정방법
(1) 재검사법 : 동일한 상황에서 동일한 측정도구를 사용하여 동일한 대상을 일정한 간격을 두고 두 번
측정하여 그 결과를 비교하는 것이다.
(2) 복수양식법 : 복수양식법(parallel-forms technique)은 대등한 두 가지 형태의 측정도구를 이용하여
동일한 측정대상을 동시에 측정한 뒤, 두 측정값의 상관관계를 분석하여 신뢰도를 측정하는 방법이다.
(3) 반분법 : 반분법(split-half-method)은 측정도구를 임의로 반으로 나누어 독립된 두 개의 척도를
사용함으로써 신뢰도를 추정하는 방법이다.
(4) 내적 일관성 : 내적 일관성은 동일한 개념을 측정하기 위해 여러 개의 항목을 이용할 경우 Cronbach's
alpha 계수를 이용하여 신뢰도를 저해하는 항목을 측정도구에서 제외시킴으로써 각 항목들의 내적
일관성을 높이는 방법이다.
1. 타당성의 개념
타당성이란 조사자가 측정하고자 하는 개념이나 속성을 측정하기 위하여 개발한 측정도구가 그 개념과
속성을 얼마나 정확히 측정하는가를 말한다. 아무리 측정값들의 신뢰도가 높게 나타났더라도 측정된 값
자체가 다른 속성이 나 다른 개념을 측정한 것이라면 아무런 쓸모가 없는 것이다.
2. 타당성의 종류
(1) 내용타당성 : 내용타당성(content validity)은 측정도구 자체가 측정하고자 하는 속성이나 개념을
얼마나 대표할 수 있는지를 평가하는 것이다.
(2) 기준에 의한 타당성 : 기준에 의한 타당성(criterion-related validity)은 통계적인 유의성을 평가하는
것으로 어떤 측정도구가 타당성이 높다고 한다면 측정도구에 의해 얻어진 결과와 관련된 기준 또는
변수간에 높은 상관관계가 존재해야 하는 것이다. 즉, 속성을 측정해 줄 것으로 알려진 기준과 측정
도구의 측정결과인 점수간의 관계를 비교함으로써 타당도를 파악하는 방법이다.
(3) 개념타당성 : 개념타당성(construct validity)이란 측정도구가 실제로 측정한 것이나 조사자가 측정
하고자 하는 추상적인 개념이 실제로 측정도구에 의해서 적절하게 측정되었는가에 관한 문제로서
이론적 연구를 하는 데 있어서 가장 중요한 타당성이다.
① 이해타당성 : 특정개념을 어떻게 이해하고 있는가에 관한 것이다.
② 집중타당성 : 동일한 개념을 측정하기 위해 최대한 상이한 두 가지 측정방식을 개발하고 이에 의하여
얻어진 측정값들 간에 높은 상관관계가 존재해야 한다는 것이다.
③ 판별타당성 : 서로 다른 개념을 측정했을 때 얻어진 측정값들 간에 상관관계가 낮아야만 한다는 것.
통계분석 종류
통계분석기법들은 분류의 기준에 따라 세분화되는데, 가장 기본적인 기준으로는 분석 상 고려되는 변수의
수에 따라 단일변량통계분석과 다변량 통계분석으로 나눌 수 있다.
또한 변수들 상호간의 관계에 따른 분류로는 종속관계에 관한 기법과 상호관계에 관한 기법 등이 있으며, 변수들의 척도의 종류가 어떤 것인가에 따라 모수통계분석과 비모수통계분석으로 나눌 수 있다.
자료의 형태에 따른 분류방법을 적용하여 분석기법을 크게 모수통계분석법과 비모수통계분석법으로 분류하여 살펴보면,
1. 모수통계분석방법(parametric statistical analysis)
① 빈도분석(Frequency)
도수분포표의 산출 및 변수값들이 이루는 분포의 특성을 알아보는데 이용된다. 분포의 특성은 평균값,
중앙값, 최빈값으로 나타내어지는 분포의 대표값, 표준편차, 분산, 최저.최고값으로 나타내어지는 분산도,
그리고 첨도와 편포도로 나타내어지는 분포의 형태를 말하는데 이들 통계량에 관한 정보를 산출하는 데
이용된다.
② T-test
독립된 두 개의 표본 평균간의 차이를 검증할 때 이용된다. 즉, 두 집단간의 평균이 통계적으로 유의한
차이를 보이고 있는지의 여부를 검증할 때 이용된다. 집단이 3개 이상되면 t-검증을 할 수 없고 분산
분석을 이용하여야 한다.
③ 분산분석(ANOVA)
2집단 이상의 평균간의 차이를 검증하는데 이용되는 방법이다. 분산분석은 크게 일원 분산분석과 다원
분산분석으로 대별되는데 일원 분산분석이란 독립변수가 1개일 때이며 다원 분산분석은 독립변수가 두개
이상일 때이다.
④ 상관관계분석(correlation)
변수들 간의 관련성을 분석하기 위하여 이용된다. 하나의 변수가 다른 변수와 어느 정도 밀접한 관련성을
갖고 변화하는 가를 알아보기 위해서 이용된다. 변수간의 관련성의 정도는 특정 변수의 분산 중에서 다른
변수와 같이 변화하는 분산(공분산)이 어느 정도 되느냐에 좌우된다.
상관계수는 두 변수간의 상관관계를 나타내는 단순상관계수와 하나의 변수와 두 변수 이상의 변수간의
상관관계를 나타내는 다중상관관계, 그리고 다른 변수들의 상관관계를 통제하고 순수하게 두 변수간의
상관관계를 나타내는 부분상관관계가 있다.
⑤ 회귀분석(regression)
변수들 간의 상호관계를 분석하고 특정변수의 변화로부터 다른 변수의 변화를 예측하기 위하여 사용된다.
종속변수에 영향을 미치는 변수를 규명하고 이들 변수들에 의해서 하나의 선형방정식을 도출한다. 도출된
선형방정식을 회귀식이라고 하며 회귀식이 과연 종속변수를 어느 정도 예측해 줄 수 있으며 회귀식에
포함된 독립변수들 중에서 어느 변수가 가장 예측력이 높은지도 검증하게 된다.
⑥ 판별분석(discriminant analysis)
판별분석은 메트릭자료로 측정된 독립변수들을 이용하며 명목자료로 된 종속변수의 카테고리를 예측하는
데 이용된다.
판별분석을 적용하기 위해서는 종속변수인 집단구분에 도움을 주는 독립변수의 선정, 선정된 독립변수를
이용하여 판별식의 도출, 판별능력에 있어서의 독립변수들의 상대적 중요도 평가, 판별식의 판별능력
평가, 새로운 판별대상에 대한 예측력의 평가가 판별분석의 목적이라고 할 수 있다.
⑦ 요인분석(factor analysis)
요인분석은 변수들 간의 상관관계를 이용하여 서로 유사한 변수들끼리 묶어 주는 방법이다. 상관관계가 높은 변수들끼리 동질적인 몇 개의 집단으로 묶어 준다는 점에서 자료의 요약, 변수의 구조파악, 불필요한 변수의
제거, 측정도구의 타당성 검증, 대상을 묶는데 이용되며 추가적인 분석방법에 요인점수를 이용하기도 한다.
⑧ 군집분석(cluster analysis)
대상들이 지니고 있는 다양한 특성의 유사성을 바탕으로 동질적인 집단으로 묶어주는 방법이다. 다수의
대상을 몇 개의 동질적으로 집단화함으로써 동일집단내에 속해 있는 공통된 특성들을 조사하기 위한 목적으로
이용된다.
⑨ 다변량분산분석(MANOVA)
집단간의 종속변수에 대한 평균차이를 검증할 때 이용된다는 점에서는 분산분석과 동일한 점이 있으나 다음의 점들에서 차이가 있다.
다변량분산분석은 종속변수가 2개 이상일 때 종속변수간의 평균값의 차이를 검증하거나 독립변수의 변화에 대한 종속변수들을 종합한 값의 차이를 검증할 때 이용된다. 다변량분산분석에서는 종속변수군에서의 차이가 있음을 검증할 뿐만 아니라 종속변수군에서의 차이가 종속변수들 중에서 어느 변수에서 차이가 나는지도 검증
할 수 있다.
⑩ 다차원척도법(multidimensional scaling)
다차원척도법은 일차원의 개념으로 측정할 수 없는 개념을 측정할 때 사용하는 기법으로 대상들간의 유사성을 평가하게 하여 평가자가 대상을 평가하는데 내재하고 있는 평가기준을 발견하고, 각 기준에 따라 평가대상들이 갖는 측정치를 찾는 데 목적이 있다. 이러한 원리에 의하여 포지셔닝맵을 작성하는 데 다차원척도법을 주로 이용하고 있다. 이러한 다차원척도에 의한 분석은 측정대상이 되는 속성 이외에 다른 요인이 영향을 미치지 않는다는 가정이 필요하다.