본문 바로가기
데이터분석/Statistics

[통계데이터분석] 표본과 모집단

by _Bree_ 2022. 7. 8.
반응형

 

데이터 수집 절차 
데이터를 무엇으로 어떻게 수집할 것인가? 

 

표본과 모집단
표본 (데이터 수집에 포함된 참여자의 집단)
모집단으로부터 추출된 관측값이나 측정값의 집합
예: 쇼핑몰을 이용하는 300명의 고객
->기술 통계에 해당
 
모집단
우리가 궁극적으로 결론을 도출하고자하는 대상이 되는 전체 집단
예 : 쇼핑몰을 이용하거나 이용할 잠재 고객 전체
->추론통계에 해당
 
우리는 300명의 데이터 분석의 결과를 서베이 참여자(표본)에게만 적용하기 보단 더 큰 집단(모집단)에 대한 결론을 도출하기 위해 사용하는 것이 일반적 
=> 이 부분이 텐서 플로에서 머신러닝 문제를 풀 때와 같다고 느낌
머신러닝 문제도  학습세트에는 피쳐와 라벨이 주어지고 
우리는 결과세트의 라벨을 구해야하는 문제가 나온다. 
즉 여기서 표본은 학습세트가 되고 결과세트는 모집단이 된다.
 
표본의 선정은 어떻게 할까?
1) 판단 표본(judgement sample)
-> 특정 분야에 관한 지식이나 경험이 풍부하여 모집단의 특성을 효과적으로 반영할 수 있을 것으로 생각되는 표본
(인터넷 쇼핑몰 이용 경험이 풍부한 사람 가운데서 선택할 수 있음)
 
2) 편의 표본(convenience sasmple)
-> 임의로 조사자 편의에 따라 선정된 표본
(내 집 주변 길 지나가는 사람 아무나 잡아서 )
 
3) 무작위 표본(random sample)
모집단 내의 모든 구성요소를 포함하고 있는 목록(표본프레임)으로 부터 선정된 표본
 
어떤 표본이 바람직한 표본일까?
바람직한 표본을 선정하는 열쇠는 "대표성"에 있다. 

=> 이것도 머신러닝 문제를 풀면서 과적합/ 적합 이야기가 나오는데 그것과 비슷한 개념인 것 같다. 

표본의 특성이 모집단의 특성을 정확히 반영하도록 참여자를 선택하는 것이 중요하다.
대표성을 갖춘 표본은 통계적으로 데이터분석을 위해 반드시 필요하다.
따라서 머신러닝에서도 과적합이 되지 않도록 적절한 표본과 학습이 필요하다.
 
무작위 표본
모집단 내의 모든 구성요소를 포함하고 있는 목록(표본프레임으로 부터 선정된 표본)
대표성을 보장하는 유일한 방법.
 
모집단과 정확히 일치하는 표본 프레임을 얻는다는 것이 현실적으로 힘들고
가능하다 하더라도 시간과 비용측면에서 바람직하지 않을 수 있다는 한계를 가지고 있음
많은 조사 방법론 기법들이 이렇나 무작위 표본을 목표로 해서 설계가 되고 사용이 되고 있다.
 
측정척도
필요한 데이터 항목별로 적절한 측정 척도를 결정해야함
측정이란?
 데이터 항목의 속성에 숫자를 부여하는 과정을 말함
 
척도란?
측정을 위하여 사용되는 도구
몸무게나 키를 측정한다면..
줄자와 체중계와 같은 도구가 필요하지 ! 
이런 것들을 척도라고 하는데, 
하지만 모든 데이터 항목이 체중계와 줄자와 같은 그런 도구가 있는 것은 아님
예를 들어 만족도를 측정한다고 했을 때 만족도를 측정하기 위한 척도는 우리가 개발을 해야한다
=> 머신러닝/데이터 사이언스 문제도 같다고 생각. 여러 상황에 맞는 척도를 우리는 찾아야 한다. 
 
1은 매우 불만족을 나타내고 5는 매우 만족을 나타낸다라고 한다면
1부터 5까지의 숫자를 이용해서 만족도를 측정할 수가 있다. 
그러면 그 12345는 만족도를 측정하기 위한 척도
 
그 척도를 이용해서 만족도의 정도를 숫자로 변환해서 측정을 할 수 있다!
 
 
척도의 종류 
===========범주형 데이터(categorical)=========

 

1) 명목척도
속성을 단지 숫자로 식별하기 위한 목적으로만 사용
(성별, 산업 분류)
덧셈 뺄셈 곱셈 나눗셈과 같은 사칙연산이나 로그함수와 같은 수학함수의 적용이 불가능
 
=> 초급의 문제에서 많이 봤던 것 같다. 특히 클래스를 나눌때? 딱히 숫자에 의미를 부여해서 계산을 목적으로 하는 게 아니라 데이터의 분류를 위해 사용할 때 사용했던 기억이 있다( 반팔 : 0  긴팔:  1  ...)
 
2) 서열 척도
크기 순으로 서열화 가능(성적 등급, 모스 경도) 
사칙연산이나 수학함수 적용이 불가능 
 
==========연속형(continuous)데이터==========
3) 간격척도
값 간의 간격이 고정된 측정 단위로 표현
(온도) 
값 간의 덧셈 뺄셈 가능하나 값 간의 비율을 계산하는 것은 의미가 없음

 

=> 40도가 20도의 2배다 (x) 언뜻 보면 맞는 말 같지만 
화씨로 환산하게 되면 두배가 아니게 되지. 각각 104 도 68도이기 때문에 !! 
또한 0도라는 것을 정의할 때에 물이 어는 그 지점을 정한 것이기 때문에 절대적인 0을 알 수는 없다.
따라서 간격 척도를 통해서 어떤 속성이 상대적으로 얼마나 더 많은가 를 알 수 있을 뿐이다. 
 
 
4) 비율척도
값 간의 비율적 비교가 가능(소득)
소득은 절대적인 0이 있지. 또한 값 간의 비율의 계산도 유의미하다. 
사칙연산 및 수학함수의 적용이 가능 

 

--------------------
통계를 공부하니까 기존의 머신러닝을 공부하면서 들었던 의문점들이 점점 풀리는 기분이 든다. 
아직 모르는 게 많으니 머신러닝과 비교하며 더 알아보고 싶다는 생각이 들었다.
 
반응형

댓글