[통계] 통계학에서 나오는 확률개념들

반응형

모집단에서 복수의 표본을 무작위로 추출하면 모집단과 표본집단의 성질이 달라진다.

예를 들어 한 고등학교의 학생들을 추출하는데 우연히 몸무게 상위10% 학생만 뽑힐 수도 있다. 이 경우 모집단과 표본집단의 평균, 표준편차 등의 성질이 달라진다는 것은 쉽게 알 수 있다.

이러한 차이를 극복하기 위하여 확률의 개념이 이용된다.

사상 : 시행 결과 중 조건에 맞는 집합.

전사상 : 모든 시행 결과의 집합.

ex) 주사위를 1번 던졌을 때 짝수가 나올 확률은?

사상 : 2, 4, 6 ->3개

전사상 : 1, 2, 3, 4, 5, 6 -> 6개

즉 3/6=1/2

(다만 위와같이 사상의 개수/전사상의 개수로 확률을 구할 때에는 모든 결과의 확률이 같아야 함. 마치 로또에 당첨될 확률은 1/2이다! 라고 주장하지 말아야 한다는 뜻)


경우의 수

동시에 일어나지 않는 두가지 사건 A, B가 있을때, A가 일어나는 방법은 p가지, B가 일어나는 방법은 q가지라면

i) 두 사건 중 하나가 일어날 경우의 수는 p+q 

ii) A 발생 후 B 또는 B 발생 후 A처럼 연속하여 일어나는 것은 p*q -> 경로의 개수 정하기


확률변수와 확률분포

확률변수 : 시행해야 값이 확정되는 변수

확률변수는 이산형 확률변수(주사위의 눈, 설문조사 점수,....)와 연속형 확률변수(키, 몸무게,....)로 나뉜다.

확률분포 : 확률변수의 각 값의 확률


이산형 확률변수일 때 (기댓값은 '뮤', 표본오차는 '시그마'라고 부르면 됨. x항은 사건, p항은 그 사건의 확률이다)

(기댓값) : 

(분산) : 

(표본오차) :  

시행을 다수 반복하면 확률분포에 비례하여 도수(도수분포표의 그 도수 맞다)가 나타나기에 도수분포표의 평균은 기댓값과 일치한다.


연속형 확률변수일 때

도수분포표를 만들때처럼 계급을 설정하여 확률분포표를 만들 수도 있겠지만, 계급폭으로 인한 오차가 있기 때문에 '확률밀도함수'라는 것을 이용한다.

여기서 시행의 횟수를 늘리면 확률밀도함수가 종모양의 좌우가 대칭한 그래프형을 보이게 되는데, 이것이 정규분포이다.

확률변수의 기댓값을 0, 표본오차를 1로 조정한 분포를 따르는 확률분포가 표준정규분포이다.