추측통계학은 오차라는 것을 생각해야한다!
어떻게든 일부를 조사해서 전체의 특징을 파악할 수 있게 연구하는 것이 목적!
연구자가 표본을 조사할 때는 대개 얼마나 많은 숫자를 조사하는 것일까?
기준이 있을까?
이상적인 건 모집단을 100으로 했을 때 표본 수 80정도를 조사하면 그 나름대로 정확도 높은 결과를 얻을 수 있다.
모집단이 많을 수록 필요한 표본의 수도 늘어나지만 모집단이 10,000을 넘으면 그렇게 많이 할 필요는 없다.
다만 이건 일반적인 이야기일 뿐.
예를 들어 설문조사를 할때 샘플이 400개라면 표본 오차를 5% 미만으로 하는 것이 좋다고들 하지. 하지만 설문의 목적이나 신뢰도를 얼마나 높이느냐에 따라 필요한 표본수는 달라짐.
동물실험에서는 표본수가 적어도 괜찮다. (그런데 연구 분야에 따라 정말 많이 다름)
일반적인 동물실험에서는 최소한 5마리, 보통은 6마리가 이상적이라고 한다.
근데 약의 효과 같은 것을 조사하는 게 동물실험인데 동물실험을 하는데 이렇게 적어도 괜찮은가?
-> 동물실험에서 많이 쓰는 것은 생쥐나 쥐인데, 이들은 "계통 보존"이 되기 때문이다.
* 계통보존
-> 특징적인 유전 정보를 갖고 있거나 유전적 배경을 알고 있는 경우, 그 유전 정보를 유지하는 것.
예를 들면 특정 질환에 대한 신약의 효과를 확인하고 싶다면 그 특정 질환을 갖는 계통이나 유전적으로 문제가 없는 계통의 쥐를 사용해서 효과를 확인하기도 한다.
모집단의 유전적 계통 보존이 되어있는 상태니까 적은 표본 수로도 신뢰성 높은 데이터를 얻을 수 있다.
그러나, 쥐도 생물이기 때문에 돌연변이가 일어날 가능성이 제로는 아니다. 그럴 경우에도 6마리 이상이면 1마리에 이상이 있어도 5마리가 남기때문에 괜찮은데, 4마리 이하인데 데이터가 흩어져 있다면 유의차를 얻지 못할 가능성이 존재한다.
*유의차
-> 우연과 오차로 생긴 차이가 아니라 의미가 있는 차이
또한 실험하는 데 걸리는 시간이나 수법도 관계가 있다. 동물실험을 하려면 쥐를 사육할 필요가 있지만 마리 수가 늘어나면 사육하는 데 손이 많이 가지. 그리고 분석하려면 불쌍하긴 하지만 어떻게든 죽일 필요가 있는 실험도 있다.
그 경우에는 죽이는 시간이 길어지면 데이터에 영향을 줄 수도 있기 때문에 많을수록 좋은 것도 아닌 것
(즉, 여러가지 사정이 있다.)
이러한 사정을 잘 알고 연구하지 않으면 얻어진 데이터에 신뢰성이 떨어질 수 있고, 통계 해석을 해도 의미 있는 결과가 나오지 않을 수도 있다. 그러니까 제대로 이해하고 실험해야 하는 것. 의학적 연구 등은 특히 제대로 검증해야 되겠지
-> 나중에 캐글 문제 풀면서 의학이나 연구 관련 데이터 셋은 조금 섬세히 다루어야겠다는 생각을 했다.
춘계학술대회때 암 관련 영상 데이터에 관해 딥러닝으로 분류하는 발표를 들은 적이 있는데, 의학쪽에서도 이러한 머신러닝+딥러닝 기술을 가지고 영상분석을 많이 한다는 이야기를 들었던 것 같다.
아직 이미지에 대해서 학습을 해보지는 않았지만,
의학데이터와 같은 섬세한 데이터를 다룰때는 위에서 말했던 "사정"이라는 것이 중요할 것 같다.
물론 이미지만을 이용해서도 충분히 지금과 같은 훌륭한 결과물을 낼 수 있겠지만, 결과물을 설명할 수 있는 XAI, 즉 설명 가능한 인공지능의 필요도 위와 같은 각 "연구 사정"을 모르기 때문이 아닐까라는 생각도 든다. 도출된 결과물이 왜 이렇게 되었는지 원인과 결과의 관계를 분석하여 이해할 수 있게 사람들에게 보여주는 것.
이것이 데이터를 분석의 필요성과 즐거움을 대변한다고 생각한다.
+)통계는 알면 알수록 "무기"와 같다는 생각이 든다.
같은 데이터라도 나와 다른 사람의 생각이 완전히 상이할 수 있다.
예를 들면, 아프리카에 사람들은 신발을 신지 않는다는 정보(데이터)가 있다고 하자.
나는 이 데이터를 가지고 "아프리카 사람들은 신발을 신지 않기 때문에 우리 공장에선 아프리카로 신발을 수출하면 안됩니다."라고 말을 할 수 있다.
그러나 또 다른 사람은 "아프리카 사람들은 신발을 신지 않기 때문에 블루 오션입니다"라고도 말할 수 있다.
물론 위와 같은 의견은 하나의 데이터만을 보고 판단하는 실수일 수 있지만, 달리 말하면 하나의 데이터가 가지는 영향이 크다고도 이해할 수 있겠다.
그러니 하나의 데이터를 보더라도 이 데이터와 주변 데이터간의 인과관계, 의미, 흐름을 잡아서 근거있는 스토리를 만듦으로써 보다 나은 인사이트를 도출할 수 있도록 깊고 정확히 공부해야겠다는 생각이 들었다.
'데이터분석 > Statistics' 카테고리의 다른 글
[기초통계] 상관관계와 상관계수 (0) | 2023.08.07 |
---|---|
[기초통계] p-value란? (0) | 2023.08.07 |
[기초통계] 평균과 분산, 표준편차 (0) | 2023.08.07 |
[쉽게 배우는 통계학] 평균의 함정 (0) | 2022.07.09 |
[통계데이터분석] 표본과 모집단 (0) | 2022.07.08 |
댓글