[통계] 통계학 분류, 데이터의 종류

반응형

내가 배운 통계, 확률은 고등학교 시절 달달외운 분산, 표준편차, 콤비네이션 정도가 기억난다.

데이터 분석을 하려면 필수적으로 통계지식이 필요해서 처음부터 공부하고 있다.

현재는 <퇴근시간이 빨라지는 비즈니스 통계입문>, <그림으로 설명하는 개념쏙쏙 통계학>을 이용하여 공부하고 있다.

나중에는 수리통계학도 다뤄보고싶다.

 

1. 통계학의 분류

통계학은 다음과 같이 분류할 수 있다.

   1) 기술 통계학 : 수치, 그래프를 통하여 그 경향성과 성질을 살펴본다.

   2) 수리 통계학 : 통계적인 현상을 확률적으로 받아들인다. 또 다음과 같이 분류할 수 있다.

      (1) 추측 통계학 : 빈도론(추정, 검정)과 베이즈통계로 이루어져 있다. 일부를 가지고 전체의 성질을 조사한다.

      (2) 다변량 해석 : 벡터와 행렬을 이용하여 조사 항목의 관계를 살펴본다.

 

2. 통계학의 탐구방법

통계학은 PPDAC 사이클을 활용하는 학문이다.

Problem : 어떤 문제에 대하여 특징을 찾은 다음 이를 토대로 예상(가설)을 세운다.

Plan : 가설을 확인하기 위한 조사 계획을 세운다.

Data : 조사 계획을 토대로 데이터를 수집한다.

Analysis : 얻은 자료로 통계적인 분석을 한다.

Conclusion : 분석한 결과를 토대로 가설을 받아들일지 결정한다.

 

3. 통계학이 다루는 데이터의 종류

연속 데이터 : 연속적인 수치로 나타낼 수 있는 데이터

이산 데이터 : 연속적인 수치가 아닌 데이터

 

  질적데이터

  명목척도

단순 수치화 분류        ex) 문과대를 1로, 공과대를 2로 수치화

  순서척도

명목척도이면서 순서적으로 의미가 있을 때        ex) '잘함'을 3, '보통'을 2, '못함'을 1로 수치화

  양적데이터

  간격척도

순서척도이면서 수의 간격에 의미가 있어 단위가 있는 데이터        ex) 온도, 시각

  비례척도

간격척도이면서 수치의 비에도 의미가 있는 데이터        ex) 길이, 무게, 시간, 월소득

순서척도는 단계를 나타낼 수는 있지만, 이와달리 간격척도는 '정도'를 나타낼 수 있다.

수치의 비에 의미가 있다는게 잘 이해가 안가서 찾아봤는데, 구체적으로 비례척도는 길이나 무게처럼 절대적인 원점이 있다는 것.

온도는 절대영점(0도는 온도가 없다는 것이 아니니까)이 없기에 50도가 25도의 2배라고 할 수 없어서 간격척도

반면 길이는 0(즉 길이자체가 존재하지 않음)이 있기에 50cm는 25cm의 2배라고 할 수 있어서 비례척도

 

 

덧붙임) 통계학은 먼저 가설을 세우고 그 가설의 유의미를 판단.

빅데이터 수업에서 나같은 비전공자들은 데이터 여러개 모아두고 시각화한 후에 의미를 찾아내려고 했다.

(혹은 상식적으로 인과관계가 있다고 보이는 데이터를 활용하여 응용하거나.)

데이터를 어떻게 접근하느냐는 나 스스로 좀 더 생각해 볼 문제인듯. 각자 장단점이 있기 때문에...