분산분석과 공분산분석
분산분석과 공분산분석은, 통제되지 않는 독립변수들의 영향을 참작한 후, 통제된 독립변수의 효과와 관련된 종속변수의 평균값의 차이를 조사하는데 유용하다. 본질적으로, 분산분석(analysis of variance)은 두 개 이상의 모집단 평균을 검증하는데 이용된다. 일반적으로 귀무가설은 ‘모든 평균은 동일하다’는 것이다.
분산분석의 가정 간단한 형태에 있어서는 하나의 종속변수(Total 시리얼에 대한 선호)는 계량적(등간 또는 비율 척도를 이용하여 측정된) 변수이어야 한다. 분산분석에는 하나 또는 그 이상의 독립변수(제품사용 : 다량 사용자, 중간 정도의 사용자, 소량의 사용, 비사용자)가 있어야 한다. 독립변수는 모두 범주형의 비계량적인 것이어야 한다. 범주형의 비계량적 독립변수들을 요인(factors)이라 부르기도 한다. 요인 수준들 또는 범주들의 특정한 조합을 처리(treatment)라고 한다. 일원분산분석(one-way analysis of variance)은 단지 하나의 범주형 독립변수, 즉 단일 요인(a single factor)을 가진다. 다량 사용자, 중간정도의 사용자, 소량의 사용자, 비사용자의 선호에 있어서의 차이는 일원분산분석(one-way ANOVA)으로 조사된다. 일원분산분석에 있어서, 처리는 요인수준(factor level, 예 : 중간 정도의 사용자를 하나의 처리로 본다)과 동일하다. 두 개 또는 그 이상의 요인들이 관련되어 있다면, 그러한 분석을 n원 분산분석이라 부른다.(만약, 제품사용에 추가하여, 조사자가 소비자들의 Total 시리얼에 대한 선호가 상표충성적 소비자와 상표 충성적이 아닌 소비자에 있어서 차이가 있는지 조사하기를 원한다면, n원 분산분석이 실행된다.)
독립변수의 집합(the set of independent variables)이 범주형 변수와 계량적 변수 양쪽으로 구성되어 있다면, 이의 처리를 위한 분석기법은 공분산분석(analysis of covariance, ANCOVA)이라 한다. 예를 들면, 조사자가 소비자들이 아침식사에 대해 부여하는 중요성과 영양가에 대한 태도를 고려하면서 제품 사용집단들(product use groups)과 충성도 집단들(loyalty groups)에 있어서의 선호를 조사하고자 한다면, 공분산분석이 실행되어야 한다. 전자의 두 개 변수들은 9점 리커트척도로 측정될 것이다. 이러한 경우에 있어서, 범주형의 독립변수(제품사용과 브랜드충성도)는 여전히 요인(factors)이라 부르지만 계량적 독립 변수들(영양가에 대한 태도와 아침식사로서의 중요성)는 여전히 요인(factors)이라 부른다.
- 일원분산분석
마케팅 조사자들은 종종 하나의 독립변수, 즉 하나의 요인(factor)의 몇 가지 범주에 대하여 종속변수의 평균값에 대한 차이를 조사하는데 관심이 있다. 예를 들면 :
1) 여러 세분시장(segment)이 제품 소비량에 있어서 차이가 있는가?
2) 상이한 광고에 노출된 집단의 상표 평가가 다른가?
3) 소매업자, 도매업자, 대리점(agent)이 기업의 유통정책에 대한 태도에 차이를 보이는가?
4) 상표를 구매하고자 하는 소비자의 의도가 상이한 가격수준에서 어떻게 변하는가?
5) 소비자의 점포 친숙성(높은 친숙성, 중간정도의 친숙성, 낮은 친숙성)의 점포 선홍에 대한 효과는 어떠한가?
이러한 질문들과 유사한 질문들에 대한 대답은 일원분산분석(one-way analysis of variance)을 실행함으로써 결정될 수 있다. 일원분산분석 절차를 기술하기 전에, 일원분산분석과 관련된 주요한 통계량(statistics)을 정의하기로 한다.
- 종속변수와 독립변수의 식별 : 종속변수는 Y로 지정하고 독립변수는 X로 지정한다. X는 c개의 범주를 가진 하나의 범주형 변수(a categorical variable)이다. X의 각 범주에는 Y에 대한 n개의 관찰치가 있다. X변수의 각 범주에 대한 표본크기는 n이고 전체 표본크기는 N=n*c이다. X변수의 각 범주에 대한 표본크기는 단순성을 위해 동일하다고 가정되지만, 그러나 이것은 필요조건은 아니다.
- 전체 변동의 분해 : 평균 간의 차이를 조사하기 위해서는, 일원분산분석을 종속변수에서 관찰된 전체 변동(total variation)을 분해하여야 한다. 이 변동은 평균을 정정한 제곱함(the sums of squares corrected for the mean, SS)으로 측정된다. 분산분석이 표본(종속변수)의 분산도(variability) 또는 변동을 조사하고, 이 분산도에 기초하여, 모집단 평균에 차이가 있다고 믿을 만한 이유가 있는지를 결정하기 때문에 분산분석이라 명명된다.
1) 집단 내 변동(SSwithin) : 관찰치인 Y값이 집단 내에서 얼마나 변화하는가에 대한 척도가 된다. 이것은 모집단에서의 한 집단 내의 분산을 추정하는 것이다. 모든 집단들이 모집단에서 같은 변동을 가진다고 가정한다. 그러나 모든 집단이 동일한 평균을 가졌는지를 모르기 때문에, 모든 관찰치의 분산을 함께 계산할 수 없다. 집단들 각각에 대한 분산(variance)이 개별적으로 계산되어야 하고 이것들은 “평균(average)" 분산 또는 ”전체(overall)" 분산으로 결합 된다. 마찬가지로, Y값의 분산에 대한 다른 추정치는 평균들 간의 변동을 조사함으로써 얻어진다.(이러한 과정은 모집단 분산이 주어졌을 때, 평균들에 있어서의 변동을 결정하는 것과는 반대가 된다.) 모집단과 평균일 모든 집단에 있어서 동일하다면, 그 때 표본 평균에 있어서의 변동과 표본집단의 크기가 y의 변동을 추정하기 위해 이용될 수 있다. Y분산에 대한 이러한 추정치의 타당성(reasonableness)은 귀무가설에 참인가에 달렸다. 귀무가설이 참이어서 모집단 평균이 같다면, 집단 간 변동에 근거한 분산의 추정치(variance estimate)는 옳은 것이다.
- 효과의 측정 : Y에 대한 X의 효과는 SSx에 의하여 측정된다. SSx의 상대적 크기는 X범주에 있어서의 Y의 평균들 간의 차이가 커질수록 커진다. SSx의 상대적 크기는 또한 X범주 내에서 Y의 변동이 감소할수록 커진다.
- 결과에 대한 해석 : 범주 간의 평균이 같다(equal category means)는 귀무가설이 기각되지 않는다면, 그 때는 독립변수는 종속변수에 대하여 유의한 효과를 가지지 않는다. 다른 한편으로, 귀무가설이 기각된다면, 그 때는 독립변수의 효과가 유의하다. 달리 표현하면, 종속변수의 평균값은 독립변수의 상이한 범주에서 차이가 있다. 범주 평균값에 대한 비교는 독립변수 효과의 성격(nature)을 가리킨다.
가. 분산분석에 있어서의 가정
1) 통상 독립변수의 범주는 고정되어 있다고 가정한다. 추론(inferences)은 고려된 특정 범주들에 해해서만 이루어진다. 이것을 고정효과모델(fixed-effects model)이라 부른다. 다른 모델들을 이용할 수도 있다. 무작위효과모델(random-effects model)에 있어서는, 범주 또는 처리(treatments)는 처리의 모집단(a universe of treatment)으로부터 추출된 확률표본(random sample)이라고 간주된다. 추론은 분석에서 조사되 않은 다른 범주들에 대하여도 이루어진다. 혼합효과모델(a mixed-effects model)은 일부 처리는 고정된 것으로, 다른 처리들은 무작위한 것으로 고려되었을 때 생겨난다.
2) 오차항(error term)은 분산이 일정하고 평균이 영(0)인 정규분포를 이루고 있다. 오차 X의 변수들의 어떤 결과도 관련이 없다. 이러한 가정으로부터의 적당한 이탈(modest departures) 은 분석의 타당성에 심각한 영향을 미치지 않는다. 게다가 자료는 정규성(normality) 또는 등분산성(equal variances)의 가정을 만족하도록 변환도리 수 있다.
3) 오차항은 상관관계가 없다. 오차항이 상관관계가 있다면(즉, 관찰치들이 독립적이 아니면), F비율은 심하게 왜곡될 수 있다.
나. N원 분산분석 :
1) 한 상표를 구매하고자 하는 소비자의 의도가 상이한 가격 수준과 상이한 유통 수준에 의해 어떻게 변하는가?
2) 상표의 매출액에 영향을 미침에 있어서 광고 수준들(많은 광고, 중간정도의 광고, 적은 광고)이 가격 수준(높은 가격, 중간정도의 가격, 낮은가격)과 어떻게 상호작용하는가?
3) 교육수준(고졸 미만, 고졸, 대재(some college), 과 나이(35세 미만, 35세부터 55세까지, 56세 이상)가 상표의 소비에 영향을 미치는가?
4) 백화점 점포에 대한 소비자 친숙성(높은 친숙성, 중간정도의 친숙성, 낮은 친숙성)과 점포 이미지(긍정적 이미지, 중간정도의 이미지, 부정적인 이미지)가 갖는 점포 선호도에 대한 효과는 어떠한가?
이들 효과(effects)를 결정하는 데는, n원 분산분석이 이용될 수 있다. 이 기법의 주요한 이점은 조사자에게 요인들(factors)간의 상호작용을 조사할 수 있게 해 준다는 것이다. 상호작용을 조사할 수 있게 해 준다는 것이다. 상호작용은 종속변수에 대한 한 요인의 효과들이 다른 요인들의 수준(범주)에 의존할 때 발생한다. N원 분산부석을 실행하는 절차는 일원분산분석의 절차와 유사하다. N원 분산분석(-way analysis of variance)과 관련한 통계량(statistics)도 또한 유사하게 정의된다.
다. 공분산분석
통제된 독립변수들의 효과와 관련하여 종속변수의 평균값에 있어서 차이를 조사할 때, 종종 통제되지 않은 독립변수들의 영향을 고려할 필요가 생기기도 한다.
1) 상표를 구매하는 소비자의 의도가 상이한 가격 수준에 따라 어떻게 달라지는지를 결정하는데 있어서, 상표에 대한 태도를 고려해야 할 경우가 있다.
2) 상이한 광고(commercial)에 노출된 상이한 집단들이 어떻게 상표를 평가하는가를 결정하는데 있어서, 과거 지식의 통제가 필요할 경우가 있다.
3) 상이한 가격 수준이 가구의 시리얼 소비에 어떻게 영향을 미치는지를 결정하는데 있어서, 가구의 크기(가족 수)가 고려될 필요가 있다.
이러한 경우 공분산분석이 적용되어야 한다. 공분산분석(analysis of covariance)은 최소한 하나의 범주형 독립변수를 포함하고 있고 최소한 하나의 등간 또는 계량적 독립변수를 포함하고 있다. 범주형의 독립변수를 요인(factor)이라고 부르는 반면에 계량적 도립변수를 공변량(covariate)이라 부른다. 공변량의 가장 일반적 이용은 요인들의 효과가 주요 관심사이기 때문에 종속변수로부터 외생 변동을 제거하기 위해 사용하는 것이다. 공변량에 기인하는 종속변수에 있어서의 변동은 각 처리조건 내의 종속변수의 평균값을 조정함으로써 제거된다. 그런 다음 분산분석은 조정된 점수에 대하여 수행된다. 각 공변량의 효과뿐만 아니라 공변량들의 결합된 효과의 유의성 검정은 적합한 F검정을 이용하여 실시된다. 공변량의 계수는 공변량이 종속변수에 미친 효과에 대한 통찰을 제공한다. 공분산분석은 공변량이 종속변수와 선형관계가 있으나 요인들과는 관련이 없을 때 가장 유용하다. 공변량 효과가 유의적이라면 ‘조정 전 계수’(raw coefficient)의 부호는 종속변수에 대한 효과의 방향을 해석하는데 이용될 수 있다.
* 해석상의 문제점
1) 상호작용
- 순서적 상호작용(ordinal interaction)
- 비순서적 상호작용(disordinal interaction)
2) 요인의 상대적 중요도 : 실험 설계는 일반적으로 균형잡힌 형태이므로 각 셀은 동일한 숫자의 응답자를 포함하고 있다. 이 결과 직각 설계(orthogonal design)가 생겨나고 여기서는 요인들을 상관계가 없다. 그러므로 종속변수의 변동을 설명하는데 있어서 각 요인의 상대적인 중요도가 모호하지 않게 결정될 수 있다.
3) 다중 비교 : ANOVA의 F점검은 단지 평균에 있어서의 전반적인 차이만을 조사한다. 평균이 같다는 귀무가설이 기각되면, 우리는 단지 집단 평균 모두가 동일하지 않다고결론 내릴 수 있다. 그러나 평균들의 일부만 통계적으로 차이가 있을 수 있으므로 특정한 평균들 사이의 차이를 조사하기를 원한다. 이것은 적절한 대조(contrasts)를 명시함으로써 행해질 수 있으며 평균들 중 어느 것이 통계적으로 다른가를 결정하기 위하여 사용된 비교들을 대조라고 부른다. 대조는 사전 또는 사후에 정해진다. 사전 대조(priori contrasts)는 연구자의 이론적 틀에 근거하여 분석이 실행되기 전에 결정된다. 일반적으로 사전 대조는 ANOVA F검정 대신에 이용된다. 선택된 대조는 직각이다.(이것들은 통계적 의미로 독립적이다.) 사후 대조(posteriori contrasts)는 분석이 이루어진 후 행해진다. 이들은 일반적으로 다중비교 검정(multiple comparison test)dl 된다. 이들은 조사자에게 모든 처리 평균(treatments means)의 쌍대비교를 하는데 이용될 수 있는 일반화된 신뢰구간을 구축하게 한다. 검정력이감소하는 순서로 나열하면 최소 유의적 ck이 검정(least significant difference : LSD), 던칸 다중 범위(Duncan’s multiple range test), Student-Newnam-Keuls, Tukey의 대안 절차, 진실로 유의한 차이, 수정 최소 유의적 차이 및 Scheffe 검정의 순이다. 이들 가운데서 최소 유의적 차이 검정의 검정력이 가장 높고 Scheffe 검정이 가장 보수적이다.
라. 반복측도 ANOVA
마케팅 조사에 있어서 응답자의 배경 특성과 개인적 특성에 종종 큰 차이가 존재한다. 분산도의 원천이 처리 효과(독립변수들의 효과)와 실험 오차로부터 분리될 수 있다면, 그 때 실험의 민감도(sensitivity)는 향상될 수 있다. 대상들 사이의 차이를 통제하는 한 방법은 각 실험조건 하에서 각 대상을 관찰하는 것이다. 이러한 의미에서, 각 대상은 그 자체가 통제 기능을 한다. 예를 들면, 여러 항공사의 평가에 대한 차이를 결정하는 설문에 있어서, 각 응답자는 모든 주요 경쟁 항공사를 평가한다. 반복된 측정이 각 응답자로부터 얻어지므로, 설계는 대상 내 설계(within subjects design) 또는 반복측도 분산(repeated measures analysis of variance)이라 부른다. 이것은 앞에서의 토의에서 각 응답자가 단지 한 처리 조건에 노출된 다는 대상 간 설계(between subjects design)에 있어서의 가정과는 차이가 있는 것이다. 반복측도 분산분석은 세 개 이상(more than two)의 관련된 표본에 대해서 실시할 수 있도록 쌍대표본 t검정을 확장한 것으로 생각할 수 있다.
마. 비계량적 분산분석
비계량적 분산분석(nonmetric analysis of variance)은 종속변수가 서열척도로 측정된 경우 세 집단 이상에 대한 중심 경향(central tendencies)에 있어서 차이를 조사한다. 그러한 절차의 하나는 k표본 중위수 검정(k-sample median test)이다. 이것은 두 집단의 중위수 검정을 확장한 것이다. 귀무가설은 k모집단의 중위수들이 동일하는 것이다. 이 검정은 k표본에 대한 공통 중위수에 대한 계산을 포함하고 있다. 그 때 셀의 도수에 대한 2*k표가 공통중앙치 이상 또는 이하의 사례에 근거하여 만들어진다. 카이제곱 통계량이 계산된다. 카이제곱이 유의하면 귀무가설이 기각되는 것을 의미한다.
보다 강력한 검정은 Kruskal-Wallis 일원분산분석이다. 이 것은 맨 휘트니 검정의 확장이다. 이 검정은 또한 중위수들에 있어서의 차이를 조사하고 있다. 귀무가설은 k표본 중위수 검정에 있어서의 귀무가설과 동일하지만, 검정 절차는 상이하다. K집단으로부터의 모든 사례들은 단일 등급에서의 순서가 매겨진다. K모집단들이 동일하다면, 집단들은 각 집단 내의 동급의 관점에서 볼 때 유사해야 한다. 등급 합(rank sum)은 각 집단에 대해 계산된다. 이들로부터 Kruskal-Wallis H 통계량이 계산되는데 이 통계량은 카이스퀘어 분포를 이룬다.
Kurskal-Wallis 검정은 그것이 중위수와 관련한 단순한 위치뿐 아니라 각 사례의 등급값을 이용하고 있기 때문에, k표본 중위수 검정보다 더 강력하다. 그러나 자료에 있어서 많은 수의 동순위(ties) 등급이 있으면, k표본 중위수 검정을 선택하는 것이 좋다.
마. 다변량분산분석
다변량분산분석(multivariate analysis of variance, MANOVA)은 하나의 계량적 종속변수 대신에 두 개 또는 그 이상의 종속변수를 가진다는 것을 제외하고는 분산분석(ANOVA)과 유사하다. MANOVA도 또한 집단 간의 차이를 조사하는데 관심이 있으므로 그 목적은 동일하다. ANOVA가 단일 종속변수에 대한 집단 간 차이를 조사하는 반면에 MANOVA는 다수의 종속변수에 걸쳐 집단 간 차이를 동시에 조사하고 있다. ANOVA의 경우, 귀무가설은 종속변수의 평균이 집단들에 있어서 동일하다는 것이다. MANOVA에 있어서, 귀무가설은 다수의 종속변수에 대하나 평균의 벡터가 집단들에 있어서 동일하다는 것이다. 다변량분산분석은 상관된 두 개 이상의 종속변수에 대한 ANOVA는 MANOVA보다 더 적절하다.
한 예로서, 각각 100명의 무작위로 선택된 개인들로 구성되니 네 개의 집단이 Tide 세제에 관한 네 개의 상이한 광고(commercials)에 노출되었다고 가정하자. 광고를 본 후, 각 개인들은 Tide에 대한 선호 평점, Procter & Gamble(Tide의 마케팅 기업)에 대한 선호 평점 그리고 광고 그 자체에 대한선호 평점을 제공하였다. 이들 세 가지 선호 변수들은 상관관계가 있기 때문에, 다변량분산분석이 어느 광고가 가장 효과적인가(세 가지 선호변수들에 있어서 가장 높은 선호를 낳게 하였는가)를 결정하기 위하여 실행되어야 한다.
'마케팅조사기법' 카테고리의 다른 글
과학적 조사의 설계 (0) | 2008.03.24 |
---|---|
도수분포, 교차집계, 가설점검 (0) | 2007.12.09 |
교차분석(연습문제) (0) | 2007.11.26 |
통계함수 (Median, Mode) (0) | 2007.11.26 |
비모수 통계의 의미와 종류 (0) | 2007.11.26 |