내가 배운 통계, 확률은 고등학교 시절 달달외운 분산, 표준편차, 콤비네이션 정도가 기억난다.
데이터 분석을 하려면 필수적으로 통계지식이 필요해서 처음부터 공부하고 있다.
현재는 <퇴근시간이 빨라지는 비즈니스 통계입문>, <그림으로 설명하는 개념쏙쏙 통계학>을 이용하여 공부하고 있다.
나중에는 수리통계학도 다뤄보고싶다.
1. 통계학의 분류
통계학은 다음과 같이 분류할 수 있다.
1) 기술 통계학 : 수치, 그래프를 통하여 그 경향성과 성질을 살펴본다.
2) 수리 통계학 : 통계적인 현상을 확률적으로 받아들인다. 또 다음과 같이 분류할 수 있다.
(1) 추측 통계학 : 빈도론(추정, 검정)과 베이즈통계로 이루어져 있다. 일부를 가지고 전체의 성질을 조사한다.
(2) 다변량 해석 : 벡터와 행렬을 이용하여 조사 항목의 관계를 살펴본다.
2. 통계학의 탐구방법
통계학은 PPDAC 사이클을 활용하는 학문이다.
Problem : 어떤 문제에 대하여 특징을 찾은 다음 이를 토대로 예상(가설)을 세운다.
Plan : 가설을 확인하기 위한 조사 계획을 세운다.
Data : 조사 계획을 토대로 데이터를 수집한다.
Analysis : 얻은 자료로 통계적인 분석을 한다.
Conclusion : 분석한 결과를 토대로 가설을 받아들일지 결정한다.
3. 통계학이 다루는 데이터의 종류
연속 데이터 : 연속적인 수치로 나타낼 수 있는 데이터
이산 데이터 : 연속적인 수치가 아닌 데이터
질적데이터 |
명목척도 |
단순 수치화 분류 ex) 문과대를 1로, 공과대를 2로 수치화 |
|
명목척도이면서 순서적으로 의미가 있을 때 ex) '잘함'을 3, '보통'을 2, '못함'을 1로 수치화 | |
|
간격척도 |
순서척도이면서 수의 간격에 의미가 있어 단위가 있는 데이터 ex) 온도, 시각 |
|
간격척도이면서 수치의 비에도 의미가 있는 데이터 ex) 길이, 무게, 시간, 월소득 |
순서척도는 단계를 나타낼 수는 있지만, 이와달리 간격척도는 '정도'를 나타낼 수 있다.
수치의 비에 의미가 있다는게 잘 이해가 안가서 찾아봤는데, 구체적으로 비례척도는 길이나 무게처럼 절대적인 원점이 있다는 것.
온도는 절대영점(0도는 온도가 없다는 것이 아니니까)이 없기에 50도가 25도의 2배라고 할 수 없어서 간격척도
반면 길이는 0(즉 길이자체가 존재하지 않음)이 있기에 50cm는 25cm의 2배라고 할 수 있어서 비례척도
덧붙임) 통계학은 먼저 가설을 세우고 그 가설의 유의미를 판단.
빅데이터 수업에서 나같은 비전공자들은 데이터 여러개 모아두고 시각화한 후에 의미를 찾아내려고 했다.
(혹은 상식적으로 인과관계가 있다고 보이는 데이터를 활용하여 응용하거나.)
데이터를 어떻게 접근하느냐는 나 스스로 좀 더 생각해 볼 문제인듯. 각자 장단점이 있기 때문에...
'데이터 공부' 카테고리의 다른 글
[R] 초보자도 할 수 있는 지도 색칠 시각화 (시, 도 색칠) (6) | 2018.03.07 |
---|---|
[통계] 통계학에서 나오는 확률개념들 (0) | 2018.01.14 |
[데이터베이스] 숫자함수, 날짜함수_1 (0) | 2018.01.09 |
[데이터베이스] 기초 SQL과 문자함수 (0) | 2018.01.03 |
[통계] 기술통계 (0) | 2017.12.31 |