본문 바로가기
데이터분석/Statistics

[쉽게 배우는 통계학] 필요 표본의 수

by _Bree_ 2022. 7. 10.
반응형


추측통계학은 오차라는 것을 생각해야한다!
어떻게든 일부를 조사해서 전체의 특징을 파악할 수 있게 연구하는 것이 목적!

연구자가 표본을 조사할 때는 대개 얼마나 많은 숫자를 조사하는 것일까?
기준이 있을까?

이상적인 건 모집단을 100으로 했을 때 표본 수 80정도를 조사하면 그 나름대로 정확도 높은 결과를 얻을 수 있다.
모집단이 많을 수록 필요한 표본의 수도 늘어나지만 모집단이 10,000을 넘으면 그렇게 많이 할 필요는 없다.
다만 이건 일반적인 이야기일 뿐.

예를 들어 설문조사를 할때 샘플이 400개라면 표본 오차를 5% 미만으로 하는 것이 좋다고들 하지. 하지만 설문의 목적이나 신뢰도를 얼마나 높이느냐에 따라 필요한 표본수는 달라짐.

표본 수 산출 식


동물실험에서는 표본수가 적어도 괜찮다. (그런데 연구 분야에 따라 정말 많이 다름)

일반적인 동물실험에서는 최소한 5마리, 보통은 6마리가 이상적이라고 한다.
근데 약의 효과 같은 것을 조사하는 게 동물실험인데 동물실험을 하는데 이렇게 적어도 괜찮은가?

-> 동물실험에서 많이 쓰는 것은 생쥐나 쥐인데, 이들은 "계통 보존"이 되기 때문이다.

* 계통보존

-> 특징적인 유전 정보를 갖고 있거나 유전적 배경을 알고 있는 경우, 그 유전 정보를 유지하는 것.
예를 들면 특정 질환에 대한 신약의 효과를 확인하고 싶다면 그 특정 질환을 갖는 계통이나 유전적으로 문제가 없는 계통의 쥐를 사용해서 효과를 확인하기도 한다.
모집단의 유전적 계통 보존이 되어있는 상태니까 적은 표본 수로도 신뢰성 높은 데이터를 얻을 수 있다.

그러나, 쥐도 생물이기 때문에 돌연변이가 일어날 가능성이 제로는 아니다. 그럴 경우에도 6마리 이상이면 1마리에 이상이 있어도 5마리가 남기때문에 괜찮은데, 4마리 이하인데 데이터가 흩어져 있다면 유의차를 얻지 못할 가능성이 존재한다.

*유의차
-> 우연과 오차로 생긴 차이가 아니라 의미가 있는 차이

또한 실험하는 데 걸리는 시간이나 수법도 관계가 있다. 동물실험을 하려면 쥐를 사육할 필요가 있지만 마리 수가 늘어나면 사육하는 데 손이 많이 가지. 그리고 분석하려면 불쌍하긴 하지만 어떻게든 죽일 필요가 있는 실험도 있다.

그 경우에는 죽이는 시간이 길어지면 데이터에 영향을 줄 수도 있기 때문에 많을수록 좋은 것도 아닌 것
(즉, 여러가지 사정이 있다.)

이러한 사정을 잘 알고 연구하지 않으면 얻어진 데이터에 신뢰성이 떨어질 수 있고, 통계 해석을 해도 의미 있는 결과가 나오지 않을 수도 있다. 그러니까 제대로 이해하고 실험해야 하는 것. 의학적 연구 등은 특히 제대로 검증해야 되겠지

짧지만 많은 생각이 드는 3장이었다..


-> 나중에 캐글 문제 풀면서 의학이나 연구 관련 데이터 셋은 조금 섬세히 다루어야겠다는 생각을 했다.
춘계학술대회때 암 관련 영상 데이터에 관해 딥러닝으로 분류하는 발표를 들은 적이 있는데, 의학쪽에서도 이러한 머신러닝+딥러닝 기술을 가지고 영상분석을 많이 한다는 이야기를 들었던 것 같다.

아직 이미지에 대해서 학습을 해보지는 않았지만,
의학데이터와 같은 섬세한 데이터를 다룰때는 위에서 말했던 "사정"이라는 것이 중요할 것 같다.
물론 이미지만을 이용해서도 충분히 지금과 같은 훌륭한 결과물을 낼 수 있겠지만, 결과물을 설명할 수 있는 XAI, 즉 설명 가능한 인공지능의 필요도 위와 같은 각 "연구 사정"을 모르기 때문이 아닐까라는 생각도 든다. 도출된 결과물이 왜 이렇게 되었는지 원인과 결과의 관계를 분석하여 이해할 수 있게 사람들에게 보여주는 것.
이것이 데이터를 분석의 필요성과 즐거움을 대변한다고 생각한다.




+)통계는 알면 알수록 "무기"와 같다는 생각이 든다.
같은 데이터라도 나와 다른 사람의 생각이 완전히 상이할 수 있다.
예를 들면, 아프리카에 사람들은 신발을 신지 않는다는 정보(데이터)가 있다고 하자.
나는 이 데이터를 가지고 "아프리카 사람들은 신발을 신지 않기 때문에 우리 공장에선 아프리카로 신발을 수출하면 안됩니다."라고 말을 할 수 있다.
그러나 또 다른 사람은 "아프리카 사람들은 신발을 신지 않기 때문에 블루 오션입니다"라고도 말할 수 있다.
물론 위와 같은 의견은 하나의 데이터만을 보고 판단하는 실수일 수 있지만, 달리 말하면 하나의 데이터가 가지는 영향이 크다고도 이해할 수 있겠다.

그러니 하나의 데이터를 보더라도 이 데이터와 주변 데이터간의 인과관계, 의미, 흐름을 잡아서 근거있는 스토리를 만듦으로써 보다 나은 인사이트를 도출할 수 있도록 깊고 정확히 공부해야겠다는 생각이 들었다.

반응형

댓글