[쉽게 배우는 통계학] 평균의 함정
< 목차 >
1장. 고양이와 시작하는 통계학
2장. 기본은 평균부터 _통계학으로 할 수 있는 것
3장. 무엇을 알고 싶은가? _추측통계학
4장. 추측해볼까? _추정
5장. 고양이의 성격을 알아보자 _독립성 검정
6장. 데이터를 보면 알 수 있는 것 _회귀분석
-----현재 3장 읽는 중-----
1장과 2장에서는 통계학이 무엇인지 , 알고 싶은 대상과 그 평균에 대해 학습한다.
책에서는 고양이에 대한 주제로 통계학의 개념을 알려주는데
쉽고 재밌게 통계학의 지식을 얻을 수 있을 뿐만 아니라 고양이에 대한 잡다한 지식도 덤으로 알 수 있다.
(예를 들면, 고양이는 사실 리비아살쾡이가 가축화되어 현재 우리 곁에 남아있다는 것과 왜 고양이를 집고양이로 키워야하는지? .. 매우 다양한 지식을 재미있게 얻을 수 있다.)
현재까지 읽고 나서 생각할 수 있었던 점은, 수업시간에 평균과 중앙값을 학습했었는데 난 이 둘을 왜 나누는지 의문이었다. 사실 표준편차나 오차 등과 같은 개념이 왜 필요한지 생각도 안하고 그냥 평균만 있으면 대충 통계가 만들어 지는 거 아닌가? 라는 생각도 했었는데, 오늘 책을 읽으면서 평균에 대한 개념과 어떨 때 쓸모가 있는지, 어떨 때 쓸모가 없는지에 대해서 알게되었다.
우리는 일상 생활 속에서 평균이라는 말을 자주 사용하기도 하고, 실제 통계를 낼 때도 평균은 중요한 역할을 한다.
만약 책의 내용처럼 길고양이들이 얼마나 살 수 있는가?를 통계적으로 추측해본다 하자.
주어진 데이터는 총 15개로 이 데이터는 편의 표본이라고 하자(편의 표본과 판단 표본을 알고싶다면 이전 포스트 참고!), 도수 분포표로 나타내면
0살 이상 1살 미만 | 9 |
1~2살 | 2 |
2~3살 | 1 |
3~4살 | 1 |
4~5살 | 1 |
5~6살 | 1 |
계 | 15 |
일단 이 데이터로 평균을 구해보면 길고양이의 평균 수명은 1.2살이 나온다.
그럼 실제로도 그럴까?
정답은 아니다. 길고양이의 평균 수명은 3~5살 정도로 알려져 있다.
이와 같은 상황을 평균의 함정이라고 이야기 한다.
평균의 함정은 위와 같이 데이터 수가 적은 경우 또는 극단적으로 값이 낮거나 반대로 너무 높은 값이 들어오면 평균만으로 전체를 나타내기 어려울 수 있다.
이는 사람들의 연봉 체계로도 쉽게 알 수 있다
(평균 연봉이 500이고 사람의 수가 3명인 집단 A가 있다고 하면
집단 A의 2명 각각의 연봉이 100이고 나머지 한명의 연봉은 1300이라면, 이들의 평균연봉은 실제 연봉과 큰 거리감이 있다.)
이렇게 평균을 사용하기 어려울 경우 중앙값을 이용하는 것이 하나의 방법이 될 수 있다.
중앙값(메디안)이란 문자 그대로 데이터의 중앙값을 말하는 것으로 데이터를 작은 순서로 나열했을 때 한 가운데 수치를 가리킨다.
여기서 중앙값을 구하면 0.3살로 앞서 구한 평균값인 1.2살 보다도 훨씬 그럴듯한 수치가 되었다.
또한 기술통계학과 추측통계학에 대해서도 알 수 있었는데
기술통계학
-> 표본이 많을 수록 정확한 결과를 예측할 수 있다. 조사한 데이터의 특징이나 경향을 알 수 있다.
추측통계학
->세상에는 많은 데이터를 모을 수 없는 것도 있다. 이럴 경우 무작위로 추출한 데이터를 표본으로 취급해서 모집단의 경향을 추측할 수 있다.
우리가 푸는 머신러닝은 추측통계학에 해당한다고 생각이 드는데,
문득 생각이 든 것은 세미나를 할 때 항상 많은 데이터셋이 필요하다는 말을 자주 들었다.
그런데, 음,
모든 데이터가 그렇겠지만.. 추측통계학 입장에서 생각해 보았을 때 머신러닝이 추측통계학에 해당한다면
그렇게 많은데이터가 필요한가?
어쩌면 통계적으로 적은 데이터만으로도 데이터 간의 상관 관계를 계산하고 입증할 수 있도록 한다면
데이터의 양이 크게 유의미하지 않을 것 같다는 생각이 들었다.
대신 앞서 말한 것처럼 상관관계가 분석되고 새로 추출된 데이터가 모든 데이터를 대표할 만한 대표값이 되어야 겠지!ㅁ