[통계] 기술통계

반응형

전 포스트에서 다루었듯이 기술통계는 수치, 그래프를 통하여 그 경향성과 성질을 살펴본다.

따라서 수치, 그래프에 대해서 어떤 용어가 사용중이고 어떤 의미가 있는지 알아보겠다.

1. 표와 그래프 기본

도수분포표

계급

도수()

51점~60

0

61~70

10

71~80

25

81~90

11

91~100

4

합계

50

변량은 조사대상의 특징이나 성질을 문자나 숫자로 나타냄. 여기서 변량은 도수

계급은 데이터의 각 구간을 나타내고 도수는 빈도수와 같은 의미

히스토그램은 계급을 x축으로 하여 그린 그래프

 상대도수분포표

총계를 1로 정하여 해당 계급의 상대적인 비율을 나타낸 표

 

 

계급

상대도수

51~60

0

61~70

0.2

71~80

0.5

81~90

0.22

91~100

0.08

합계

1

 

누적도수와 상대누적도수

전체에 대한 상위 하위 비율을 조사할 때 편하다.

계급

누적도수

누적상대도수

51~60

0

0

61~70

10

0.2

71~80

35

0.7

81~90

46

0.92

91~100

50

1.0

  다음 그래프를 보면 점수 80점 이하는 전체 데이터의 70%를 차지하고 있음을 쉽게 알 수 있다. 

 

크로스 집계표(분할표)

동시에 조사한 2개의 항목에 대해 해당 수를 표로 정리한 것.

이산 데이터의 경우에는 아무런 작업을 하지 않아도 되지만, 연속 데이터의 경우에는 계급처럼 범위를 나눠야 빈도수를 계산 할 수 있다.

나중에 데이터 분석에서 엑셀이나 r로 다뤄보겠다.

 

2. 데이터 파악

평균이 같더라도 데이터가 퍼진 정도는 다를 수 있다.

  *편차(점수-평균), 즉 데이터가 퍼진 정도

A반 점수

편차

50

0

48

-2

57

7

45

-5

43

-7

57

7

 

B반 점수

편차

37

-13

42

-8

60

10

65

15

44

-6

52

2

 

Q. 여기서 편차를 평균내면 퍼진 정도를 단일 값으로 표시할 수 있지 않을까?

A. 평균은 이미 편차가 반영되어 있는 값이기에 편차를 모두 더하면 0이 된다.

따라서 모두 양수로 바꾼다는 발상으로 각각의 편차를 제곱하여 더한다.

이 값이 분산이다. 다만 이 경우 원 데이터의 단위 역시 제곱(위 표에서는 점^2)이 되어버리기에 단위를 맞춰주기 위하여 분산에 제곱근을 씌운 표준편차가 있다.

한편 표준편차는 전체 데이터의 퍼진 정도를 나타내지만 평균이 달라지면 직접적인 비교가 힘들다. 여기서는 변동계수를 이용해야 한다. (표준편차/평균)

Z반 점수

편차

500

0

480

-20

560

60

450

-50

460

-60

550

50

A반의 표준편차는 약 5.9()이고 평균은 50(), Z반의 표준편차는 약 50.0()이고 평균은 500(). 단순 수치만 보면 A반의 표준편차 수치가 Z반의 표준편차 수치보다 작다. 하지만 평균점수도 달라 규모가 다르기에 비교할 수 없다. 따라서 비율을 계산하여 상대적으로 볼 수 있다.

A반의 변동계수 : 5.9/50 = 0.118    Z반의 변동계수 : 50.0/500 = 0.100

즉 평균과 표준편차간의 비율을 비교하면 A반이 Z반보다 점수 변동 폭이 크다는 점을 알 수 있다.

 

중앙값은 데이터에 인덱스를 매긴다고 생각했을 때 인덱스 중간인 데이터이다. 가령 1~7까지 인덱스가 매겨진다면 4번 인덱스 값, 1~6번까지 인덱스가 매겨진다면 3번 인덱스 값과 4번 인덱스 값의 평균이다.

최빈값은 가장 도수가 많은 데이터이다. 데이터 값에 상관없이 그저 제일 많이 출현한 데이터가 최빈값이다.

중앙값과 최빈값은 평균보다 이상값(지 혼자 툭 튀는 데이터)의 영향을 덜 받는다.

 

정규분포는 큰 데이터를 모아서 히스토그램을 작하면 가운데 부분은 솟아있고 양쪽으로 갈 수록 떨어지는 종모양의 그래프형이 나타나는 경우이다.이터 수가 적으면 이상값의 영향을 받아 히스토그램 뭉치의 경향성이 없지만, 데이터 수를 늘리고 계급을 세분화할 수록 정규분포곡선을 그리게 된다고 한다. (후에 다룰 대수의 법칙) 평균, 중앙값, 최빈값이 모두 일치하게 되며, 종 모양 중 가장 볼록 솟은 위치가 평균을 가리킨다.

한편 정규분포의 확률밀도함수(다음 포스팅의 확률에서 다룸)을 이용하여 확률을 구하는 것은 힘들어서 평균을 0, 분산을 1로 표준화시킨 표준정규분포가 이용된다.

'(데이터값-평균)/표준편차' 표준화를 이용하여 새로운 확률변수로 변환시켜 준다. 표준정규분포에 대한 자세한 내용은 다음에 다룬다.