본문 바로가기
데이터분석/Statistics

[기초통계] 평균과 분산, 표준편차

by _Bree_ 2023. 8. 7.
반응형

 

평균과 분산, 그리고 표준편차

 

만약 누군가 내가 가진 자료를 설명해 보라 한다면, 어떻게 설명할 수 있을까? 🙄

아마 해당 자료의 대표적인 특징을 찾아서 얘기할 수 있을 것이다.

여기서 대표적인 특징이 우리가 통계에서 배우는 대표값, 즉 평균, 중간값, 최빈값, 표준편차(분산) .. 과 같은 것이 된다. 

따라서 우리는 위의 대표값에 대해 이해할 필요가 있다.

 

평균

자료의 중심값, 자료의 특성을 대표하는 값
->모든 자료로 부터 영향을 받기 때문에 이상값에 취약하다. 



분산

내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리

 

분산 공식



수식을 살펴보면,

분자는 각 값에서 평균을 뺀 것인데 제곱합으로 이루어져 있다. 왜 제곱으로 만들까? 
만약 제곱을 하지 않는다면 각 요소 값이 + - 가 섞여 나오므로 값이 뭉개지게 된다. 이를 해결하기 위해 강제로 모든 값을 플러스로 만들어주기 위해 제곱을 한다.

분모는 자유도라고 표현하며 자료의 개수 n이 아닌 n-1로 나눈다.
왜냐? 이미 분자에서 평균값으로 한번씩 빼주었기 때문이다

이렇게 평균적인 거리 즉, 분산을 구했으나 원래있던 멀쩡한 값에 제곱을 하였으므로 루트를 씌워 다시 보정한 것이 표준편차이다.

 

표준편차 

표준편차 수식

표준편차는 분산에 루트만 씌운 것이므로 본질적인 의미는 분산과 같게 된다.

 

반응형

댓글