마케팅조사기법

도수분포, 교차집계, 가설점검

forever1 2007. 12. 9. 17:19
 

도수분포, 교차집계, 가설점검

1. 도수분포

  도수분포의 목적은 상이한 값과 관련한 응답의 수를 계산하는 것이다. 변수의 상이한 값에 대한 상대적 발생횟수(relative occurrence) 또는 도수는 백분율로 표시한다. 한 변수의 도수분포는 그 변수와 관련한 모든 값에 대한 도수(frequency counts), 퍼센트, 누적 퍼센트를 표로 제시한다.

  도수의 분포는 무응답 항목(item nonresponse)의 정도를 결정하는데 도움이 되고 또한 부적절한 응당(illegimate responses)도 가르킨다.

가. 도수분포와 관련한 통계량 : 도수 분포는 한 변수에 대한 상이한 값을 조사하는 편리한 방법이다. 도수표(frequency table)는 읽기 쉽고 기본적인 정보를 제공하지만, 때때로 이 정보는 너무 상세하므로 조사자는 그것을 기술적 통계량으로 요약해야 한다.

- 위치의 측도 ; 위치에 대한 측도는 이들이 분포의 중심(the center of the distribution)을 기술하는 경향이 있기 때문에, 중심화 경향에 대한 측도(measures of central tendency)를 나타낸다. 전체 표본에사 각각의 관찰치에 일정한 상수를 추가하여 변화시긴다면, 그 때 평균(mean), 최빈수(mode), 중위수(median)는 바로 그 상수의 크기 만큼 변한다.

- 분산도의 측도 : 등간 또는 비율 자료에 대하여 계산되는 분산도에 대한 측도(the measures of variability)에는 범위, 사분위수 범위, 분산 또는 표준편차 및 변동계수가 포함된다.

  * 범 위(range) : 범위는 자료의 퍼짐(the spread of the data)을 측정한 것이다. 표본에서 가장 큰 값과 작은 값 간의 차이를 말한다.

  * 사분위수범위(interquartile range) : 75번째 백분위수와 25번째 백분위수 간의 차이를 말한다. 크기 순으로 정렬된 일련의 자료점들(data points)에 있어서, p 번째 백분위 수는 그것보다 작은 자료점들의 비율이 p%인 값을 말하고, 그것 위의 (100-p)%의 값은 이것보다 크다. 모든 자료점들에 어떤 상수를 곱한다면. 사분위수범위도 동일한 상수의 배수가 된다.

  * 분산과 표준편차(variace and standard deviation) : 평균과 관창된 값9observed value) 간의 차이를 평균으로부터의 편차(the deviation from the mean)라 한다. 분산은 평균으로부터의 평균 제곱 편차이다. 분산은 결코 음이 될 수 없다. 자료점들이 평균주위에서 밀집되어 있다면 분산은 작다. 자료점들이 흩어져 있다면 분산은 커진다.

  * 변동계수(coefficient of variation) ; 변동계수는 평균에 대힌 표준편차의 비율을 백분율로 나타낸 것으로 단위를 떨어버린 상대적 분산도의 측도이다.

- 모양의 측도 : 모양의 측도는 분포의 속성을 이해하는데 유용하다. 분산포의 모양은 왜도와 첨도를 조사함으로써 평가된다.

  * 왜도(skewness) : 분포도는 대칭적이거나 치우친 모양이 될 수 있다. 대칭 분포에 있어서는, 분포 중심의 어느쪽에 위치한 값도 동일하고 평균, 최빈수, 중위수가 동일하다. 평균으로부터의 양의 편차와 음의 편차가 동일하다. 비대칭분포에 있어서는, 평균으로부터의 양의 편차와 음의 편차는 동잃지 않다.

  * 첨도(kurtosis) : 첨도는 도수분포에 의하여 정의된 곡선의 상대적인 뽀족함 또는 평평함에 대한 측도이다. 정규분포의 첨도는 0이다. 첨도가 양이라면, 그 때 분포는 정규분포도다 더 뽀족하다. 음의 값이라면 정규분포보다 분포가 더 평평하다는 것을 의미한다.


나. 가설검정의 일반적 절차

  1) 귀무가설(null hypothesis : H0)과 대립가설(alternative hypothesis : H1)을 설정한다.

  2) 적절한 통계적 기법과 이에 대응하는 검정통계량의 값을 계산한다.

  3) 유의 수준 α를 선택한다.

  4) 표본크기를 결정하고자료를 수집한다. 검정통계량의 값을 계산한다.

  5) 귀무가설 하에서 검정통계량에 대한 표본추출분포를 이용하여, 검정통계량에 대한 확률을 결정한다. 대안적으로, 기각역(rejection region)과 비기각역(nonrejection region ; 채택역)으로 구분하기 위한 검정통계량과 관련된 임계치(critical value)를 결정한다.

  6) 검정통계량과 관련된 확률과 특정 유의수준을 비교한다. 대안적으로, 검정통계량이 기각역과 채택역에 속하는지를 결정한다.

  7) 귀무가설을 기각하거나 기각하지 않는 통계적 결정(statistical decision)을 내린다.

  8) 마케팅조사 문제의 관점에서 통계적 결정을 표현한다.


2. 교차집계(cross-tabulation)

  도수분포가 한 번에 한 변수씩 기술하는 반면에, 교차집계표는 두 변수 또는 그 이상의 변수들의 도수분포를 하나의 표에 포함하여 나타낸다. 교차집계표는 제한된 수의 범주 또는 구별되는 값(distinct values)을 가진 두 변수 도는 그 이상의 변수들의 결합분포(joint distribution)를 반영하는 표를 생성시킨다. 한 변수의 범주가 한 변수 또는 그 이상의 다른 변수들의 범주와 교차 분류된다. 따라서, 한 변수의 도수본포는 다른 변수들의 값 또는 범주들에 따라서 다시 나누어 진다.

  교차집계표는 다음 이유에서는 상업적 마케팅조사에서 널리 이용된다.

  1) 교차집계표 분석과 그 결과는 통계 지향적이 아닌 관리자들에 의하여 쉽게 이해되고 해석될 수 있다.

  2) 해석의 명료함으로 인해 조사결과와 경영관리 행동 간에 강력한 연계(a stronger link)를 제공한다.

  3) 일련의 교차집계표는 단일 다변량분석(a single multivariate analysis)보다 복잡한 현상에 대하여 더 큰 통찰을 제공할 수도 있다.

  4) 교차집계표는 이산 다변량분석(discrete multivariate analysis)에서 심각한 문제를 야기하는 빈약한 셀(sparse cells) 문제를 해결하게 해 준다.

  5) 고차집계표 분석은 실시하기가 단순하므로 경험이 부족한 조사자들에게도 매력이 있다.

- 두 개의 변수 : 두 변수들에 대한 교차 집계는 이변량 교차집계로 알려져 있다. 두 변수가 교차로 분류되어(cross-classified)있기 때문에, 백분율은 열 합계에 근거하여 열방향으로(cloumnwise) 계산될 수 있거나 또는 행 합계에 근거하여 행 방향으로(rowwise) 계산될 수 있다.

- 세 개의 변수 : 세 번째 변수의 도입은 두 변수 사이에 관찰된 초기 관련성(또는 관련성의 부족)을 명확히 한다. 세 번째 변수의 도입은 네 가지의 가능성을 낳을 수 있다.

  1) 두 개의 초기변수들 간의 관련성을 더 정확하게 할 수 있다.

  2) 관련성이 초기에 관찰되었을지라도, 두 변수들 사이에 어떠한 관련성도 없다는 것을 나타낼 수 있다. 달리 표현하면, 세 번째 변수는 두 변수들 사이의 초기 관련성이 의사관계(spurious association)였음을 가리킨다.

  3) 어떤 관련성이 초기에 관찰되지 않았을지라도, 두 벼수들 사이에 어떤 관련성이 나타나게 할 수 있다. 이러한 경우에 있어서, 세 번째 변수는 처음의 두 변수 사아에 억제된(suppressed) 관련성이 나타나게 한다.

  4) 초기 관련성에 어떠한 변화도 생기지 않은 것으로 나타날 수 있다.

- 교차집계와 관련한 통계량 ; 관찰된 관련성의 통계적 유의성은 흔히 카이제곱 통계량에 의하여 측정된다. 관련성의 강도 또는 관련성의 정도는 실용적 또는 실질적 관점에서 중요하다. 관련성의 강도는 파이(phi) 상관계수, 분할계수(contingency coefficient), 크래머의 V(Cramer's V), 람다계수에 의해 측정될 수 있다.

  1) 카이제곱(Chi-Square) : 교차집계표에서 관찰된 관련성의 통계적 유의성을 검증하기 위하여 이용된다. 이것은 체계적인 관련성이 두 변수들 사이에 존재하는지를 결정한는 데 도움이 된다. 귀무가설 H0은 ‘변수들 사이에 어떠한 관련성도 없다’는 것이다. 검정은 기존 행합계와 열합계가 주어진 것이라고 가정하고 어떤 관련성도 변수들 사이에 나타나지 않을 것으로 기대된 셀 도수를 계산함으로써 행해진다.

카이제곱분포(Chi-Square Distribution)]

-- 여기서, 자유도가 n임을 유의해 보자. 에서 독립적인 것들의 수는 n개이다.
-- 카이제곱분포는 표준화정규분포변수들의 제곱합으로 얻어지는[ 들을 제곱하여
-- 합한 것에 대한] 이론적인 분포이다. 또, 자유도를 갖게 되는데, 자유도가 커지면 커질수록
-- 정규분포에 근사하게 된다. 자유도 1, 4, 6의 카이제곱분포형태는 [그림 3-4]와 같다. 자유도가
-- 커질수록 빠른 속도로 정규분포에 접근해감을 볼 수 있다. 이 분포는 분류된 자료의 분석,
-- 판별분석 등에서 다루게 되는 분포이다.

-- 이제, 표본으로부터 표본분산을 얻으면

---------- (3-8)

-- 이 되는데, 이를 약간 변형시켜 에 대한 분포를 고려해보자. 즉,

---------- (3-9)

-- 는 자유도 (n-1)의 카이제곱분포를 하게 된다. 앞의 카이제곱분포정의와 비교해볼 때 로써
-- 를 추정한 것에 차이가 있는데, 로 추정했기에 자유도를 하나 잃게 된 것이다.
-- 그리고, 여기서는 자체의 분포보다는 의 분포를 얻었다.

 

 1. 자유도 1인 카이제곱 분포

 <R 소스코드>

 # 자유도 1인 카이제곱분포
n_1 = 4 
n_2 = 100
x=seq(0, 20, by=1/n_1)
y=seq(0, 20, by=1/n_2)
plot(x, dchisq(x,1), main="카이제곱분포(자유도=1)", col = "blue", lwd=2, cex=1)
points(y, dchisq(y,1), main="카이제곱분포(자유도=1)", col = "red", lwd=1, cex=0.01)

 2. 자유도 3인 카이제곱 분포

 <R 소스코드>

 # 자유도 3인 카이제곱분포
n_1 = 4 
n_2 = 100
x=seq(0, 20, by=1/n_1)
y=seq(0, 20, by=1/n_2)
plot(x, dchisq(x,3), main="카이제곱분포(자유도=3)", col = "blue", lwd=2, cex=1)
points(y, dchisq(y,3), main="카이제곱분포(자유도=3)", col = "red", lwd=1, cex=0.01)

 3. 자유도 6인 카이제곱 분포

 <R 소스코드>

 # 자유도 6인 카이제곱분포
n_1 = 4 
n_2 = 100
x=seq(0, 20, by=1/n_1)
y=seq(0, 20, by=1/n_2)
plot(x, dchisq(x,6), main="카이제곱분포(자유도=6)", col = "blue", lwd=2, cex=1)
points(y, dchisq(y,6), main="카이제곱분포(자유도=6)", col = "red", lwd=1, cex=0.01) 

 

  2) 파이계수 : 2행과 2열로 된 표의 형태를 가진 특별한 경우에 관련성의 강도를 측정하기 위해 이용된다. 파이계수는 카이제곱 통계량의 제곱근에 비례한다.

  3) 분할계수 : 파이계수가 2*2표에 한정하여 적용되는 것인 반면에, 불할계수는 어떠한 규모의 표에 있어서도 관련성의 강도를 판단하기 위하여 이용될 수 있다.

  4) 크래머의 V : 크래머의 V는 파이 상관계수의 수정된 버전으로 2*2보다 큰 표에 이용된다. 파이계수가 2*2보다 큰 표에대하여 계산될 때, 그것은 상한(upper limit)이 없다. 크래머 V는 표에 있는 “열과 행의 수 가운데서 어느 쪽이 적다”는 것에 근거하여 표에 있는 행의 수 또는 열의 수에 대한 파이계수를 조정함으로써 얻어진다.

- 람다 계수 : 변수들의 명목척도로 측정된다고 가정한다. 비대칭 람다(asymmetric lambda)는 독립변수의 값이 주어진 상황에서 종속변수의 값을 예측하는데 있어서 백분율의 개선분(percentage improvement)을 측정한다. 람다도 역시 0에서 1사이에서 변한다. 0의 값은 예측에 있어서 어떤 개선도 없다는 것을 의미한다. 1의 값은 예측이 오차 없이 행해질 수 있다는 것을 가리킨다. 이것은 각 독립변수의 범주가 종속변수의 단일 범주와 관련이 있을 때 발생한다. 비대칭 람다는 변수들의 각각에 대하여 계산된다. 일반적으로 두 개의 비대칭 람다는 주변 분포(marginal distribution)가 대개 동일하지 않기에 서로 다를 수 있다. 대칭 람다(symmetric lambda)도 또한 계산되는데 이것은 두 개의 비대칭 람다값들의 평균의 일종이다. 대칭 람다는 어느 변수가 종속변수인지에 대한 가정을 하지 않는다. 그것은 예측이 두 방향에서 행해질 때 전반적인 개선을 측정하고 있다.

- 실제에 있어서의 교차집계

  1) 카이제곱 통계량을 이용하여 ‘변수들 사이에 어떤 관련성도 없다’는 귀무가설(H0)을 검정한다. 만약 귀무가설을 기각할 수 없다면, 그 때는 어떤 관련성도 없다.

  2) H0이 기각되면 앞에서 제시한 적절한 통계량(파이계수, 부할계수, 크래머의 V, 람다계수 또는 다른 통계량)을 이용하여 관성의 강도를 결정한다.

  3) H0이 기각되면, 독립변수의 방향에서 종속변수와 교차하여 백분율을 계산해 관련성의 패턴을 해석한다.

  4)  변수들이 명목변수가 아니라 서열변수로 간주된다면, 검정통계량으로 타우b와 타우c 또는 감마를 사용한다. H0이 기각되면, 검정통계량의 크기를 이용하여 관련성의 강도를 결정하고 검정통계량의 부호를 이용하여 관련성의 방향을 결정한다.


3. 차이에 관한 가설검정

  모수검정(parametric test)은 관심의 대상이 되는 변수들이 적어도 등간척도에 의해 측정된다고 가정한다.

  비모수검정(nonparametric test)은 변수들이 명목 또는 서열척도에 의해 측정된다는 것을 가정한다.

가. 모수검정 : 모수검정은 모집단의 평균에 관한 진술에 대한 추론을 제공한다. t검정(t test)은 흔히 이러한 목적을 위하여 이용된다. 이 검정은 Student의 t 통계량에 근거를 두고 있다. t 통계량(t statistic)은 변수들이 정규분포를 하고 평균이 알려져 있고(또는 알려져 있다고 가정하고) 그리고 모집단 분산이 표본을부터 추정된다는 것을 가정한다.

  t 통계량이 이용되는 특정한 경우에 대한 가설검정의 절차...

    1) 귀무가설(H0)과 대립가설(H1)을 설정한다.

    2) t 통계량을 구하기 위한 적절한 공식을 선택한다.

    3) H0을 검정하기 위해 유의수준 α를 선택한다. 일반적으로 0.05수준이 선택된다.

    4) 한 개 또는 두 개의 표본을 취하고 그리고 각 표본에 대한 평균과 표준편차를 계산한다.

    5) H0이 참이라고 가정하여 t 통계량을 계산한다.

    6) 자유도를 계산하고 이 검정통계량의 값보다 더 극단적인 값을 얻을 확률을 추정한다.(대안적으로 t 통계량의 임계치를 계산한다.)

    7) 단계 6에서 계산된 확률이 단계3에서 선택된 유의 수준보다 작으면, H0이 기각된다. 계산된 확률이 유의수준보다 크면, H0을 기각하지 않는다(대안적으로 단계 5에서 계산된 t 통계량의 값이 단계 6에서 결정된 임계치보다 크면 H0을 기각한다. 계산된 값이 임계치보다 작으면 H0을 기각하지 않는다.) H0을 기각할 수 없다는 것은 반드시 H0이 참이라는 것을 의미하는 것은 아니다. 이것은 단지 실제 상태가 H0에 의해 가정된 것과 유의하게 다르지는 않는가는 것을 의미한다.

    8) 마케팅조사 문제의 관점에서 t 검정에 의해 도달된 결론을 표현한다.

  - 단일표본

  - 두 독립 표본

  - 쌍대표본

나. 비모수검정 : 비모수검정은 독립변수가 비계량적일 때 이용되고, 모수검정과 유사하게 한 표본, 두 개의 독립 표본 또는 두 개의 관련된 표본으로부터 변수들을 검정하는데 이용할 수 있다.

  - 단일표본

  - 두 독립표본

  - 쌍대표본


'마케팅조사기법' 카테고리의 다른 글

과학적 조사란?  (0) 2008.03.25
과학적 조사의 설계  (0) 2008.03.24
분산분석과 공분산분석  (0) 2007.12.09
교차분석(연습문제)  (0) 2007.11.26
통계함수 (Median, Mode)  (0) 2007.11.26