SPSS(Statistical Package for Social Science)
통계조사분석(1)
(용어해설)
1. 열(column) : 변수를 의미한다. 각 열을 변수(variable)라 한다. 설문조사에서 설문지의 각 문항이 변수가 된다. 20개의 문항이 포함된 설문지를 작성하여 조사를 하였을 경우에 변수의 수는 20개가 된다.
2. 행(row) : 케이스를 의미한다. 각 행을 케이스(case) 또는 관측값(observations)이라고 한다. 설문조사에서 응답자들이 작성한 각 설문지가 케이스가 된다. 1,000명의 응답자로부터 1,000매의 설문지를 회수하였을 경우에 케이스의 수는 1,000이 된다.
3. 셀(cell) : 변수값이 된다. 행과 열이 교차되는 부분을 셀이라고 하는데, 각 셀에 나타나는 값을 변수값이라 한다.
4. 데이터 파일은 직사각형의 구조를 갖는다. 데이터 파일의 크기는 케이스의 수와 변수의 수에 의하여 결정되며 직사각형의 구조를 갖게 된다.
5. 결측갑(missing values)
A. 시스템 결측값(system missing values) : 숫자변수에 공백문자가 할당된 경우 이를 시스템 결측값이라 한다. 시스템 결측값은 점(.)으로 표기된다.
B. 사용자 결측값(user missing values) : 데이터가 어떻게 누락되었는가를 나타내기 위해 사용되는 결측값으로 설문조사에서 ‘잘 모르겠음’, ‘해당 없음’, ‘응답거부’ 등을 사용자 결측값으로 지정한다. 이때 각 응답값에 대하여 ‘0’, ‘9’, ‘99’ 등의 값을 부여한 후 이를 사용자 결측값으로 지정한다.
i. 결측값 없음(no missing values) : 결측값이 없는 경우, 모든 변수값들은 유효한(valid) 값으로 취급된다.
ii. 이산형 결측값(discrete missing values) : 하한(low)과 상한(high) 사이의 모든 숫자를 결측값으로 지정한다.
iii. 범위형 및 이산형 결측값(range plus one discrete missing value) : 하한과 상한 사이의 범위와 한 개의 이산형 숫자를 결측값으로 지정한다.
6. 변수의 종류
A. 척도에 따른 분류
i. 명목변수 : 측정대상을 고유한 특성에 따라 분류하거나 구분할 목적으로, 동일한 특성을 갖는 대상들이 동일한 수치를 갖도록 한 변수로, 명명변수로 부르기도 한다.(성별, 츨생지, 직업…)
ii. 순서변수 : 측정대상들을 비교하기 위해 특성의 다과 또는 대소의 서열에 따라 측정대상에 수치를 부여한 변수로 서열변수로 부르기도 한다.(설문지)
iii. 등간변수 : 측정대상이 갖고 있는 속성의 양적인 정도의 차이에 따라 등간격으로 수치를 부여한 변수로 간격변수로 부르기도 한다.(온도기)
iv. 비율변수 : 등간변수가 갖는 특성에 추가로 절대적 원점이 존재하고 비율계산이 가능한 변수를 말한다.(체중)
v. 범주의 변부(categorical variable) : 명복변수 와 수서변수를 묶어서 말함.
vi. 연속형 변수(continuous variable) : 등간변수 와 비율변수를 묶어서 말함.
B. 인과관계에 따른 분류
i. 독립변수(설명변수) : 다른 변수에 영향을 주는 변수로 원인이 된다.
ii. 종속변수(반응변수) : 다른 변수에 영향을 받는 변수로 결과가 된다.
C. 코드형식에 따른 분류
i. 숫자 변수 : 숫자로 코딩된 변수
ii. 문자 변수 : 문자열로 코딩된 변수
iii. 날짜 변수 : 날짜 표기형식으로 코딩된 변수
7. 빈도분석 : 통계량
A. 백분위수 값(percentile values)
i. 사분위수(quartiles) : 사분위수로 가장 작은 값에서 큰 값의 순서로 나열하였을 때, 아래서부터 25%, 50%, 75%에 해당하는 값이 출력된다.
ii. N 분위수 – n개 동일집단(챗 points fo n equal groups) : 크기대로 정렬된 수치들을 지정하는 n개의 집단으로 나누었을 경우에 각 집단의 구분점(cut points)에 위치하는 값이 출력된다.
iii. 백분위수(percentiles) : 사용자가 지정하는 분위수로 0 ~ 100 사이의 분위수를 지정하면, 지정한 분위수들이 출력된다.
B. 산포도(dispersion)
i. 표준편차(std. Deviation) : 관측값들이 평균을 중심으로 얼마나 펴져 있는가를 측정하는 통계량을 출력한다.
ii. 분산(variance) : 관측값들이 평균으로부터 얼마나 떨어져 있는가를 측정하는 통계량으로, 표준편차를 제곱한 값이다.
iii. 범위(range) : 가장 큰 값(최대값)에서 가장 작은 값(최소값)을 뺀 값으로 표준편차나 분산의 보조통계량으로 사용된다.
iv. 최소값(minimum) : 관측값 중에서 가장 작은 값.
v. 최대값(maximum) : 관측값 중에서 가장 큰 값
vi. 평균의 표준오차(S. E. mean) : 표본평균의 산포 정도를 측정하는 통계량.
C. 중심경향(central tendency)
i. 평균(mean) : 산술편군으로 모든 관측값의 합을 관측값의 수로 나눈 값.
ii. 중위수(median) : 중앙값이라고도 하며, 크기순서로 가장 작은 값 가장 큰 값으로 나열하였을 경우에 정 중앙에 위치하는 관측값.
iii. 최빈값(mode) : 가장 많은 빈도를 가지고 있는 관측값. 빈도가 같은 여러 관측값이 존재할 경우에는 이중에 가장 작은 관측값만이 최빈값으로 출력한다.
iv. 합계(sum) : 모든 관측값을 합산한 값.
D. 분포(distribution)
i. 왜도(skewness) : 분포의 비대칭 정도 – 분포의 모양이 얼마나 좌우대칭인지를 나타내는 통계량으로 왜도의 표준오차가 같이 출력된다.
ii. 첨도(kurtosis) : 분포의 뽀족한 정도 – 분포의ㅣ 모양이 중심저메서 뽀족한지를 나타내는 통계량으로, 첨도의 표준오차가 같이 출력된다다.
8. 교차분석 : 단일변수의 빈도분석이 널리 사용되고 있기는 하나, 두 가지 이상의 변수를 결합하여 교차분석하면 보다 유용한 정보를 얻을 수 있는 경우가 많다. 이러한 교차분석은 한 변수의 빈도분석표를 작성하는 것과는 달리, 두개 이상의 행과 열을 갖는 교차표(cross tabs)를 작성하게 된다.
A. 카이제곱(chi-square) : 카이는 그리스어 알파벳 22번째 글자이며, 카이제곱 검정통계량을 출력한다.
B. 상관관계(correlations) : 피어슨 상관계수 출력
C. 명목데이터(Nominals) : 명목 데이터의 통계량
i. 분할계수(contingency coefficient)
ii. 파이 및 Cramer의 V (Phi and Cramer’s)
iii. 람다(Lambda)
iv. 불확실성 계수(uncertainty coefficient)
D. 명목 대 구간 데이터(Nominal by interval)
i. 에타(Eta) : 그리스어 알파벳 7변째 글자
E. 순서 데이터(Ordinal data)
i. 감마
ii. Sommer의 d
iii. Kendall의 타우-b
iv. Kandall의 타우-c
F. 기타 통계량
i. 카파(Kappa) : 그리스어 알파벳 10번째 글자
ii. 위험도(Risk)
iii. McNemar
G. 잔차(Residuals) : 나머지, 잔여, 오차
i. 표준화하지 않음(Unstandardized) : 표준화하지 않은 잔차
ii. 표준화(Standardized) : 표준화 잔차
iii. 수정된 표준화(Adj. Standardized) : 수정된 표준화 잔차
'마케팅' 카테고리의 다른 글
[스크랩] 협상의 목표는,,,????? (0) | 2007.12.22 |
---|---|
진화하는 인터랙티브 미디어 트렌드 (0) | 2007.12.03 |
더미변수 (0) | 2007.11.25 |
더비(dummy) 변수(가변수) (0) | 2007.11.25 |
컨조인트 분석 (0) | 2007.11.24 |