본문 바로가기
반응형

통계2

[22하]사출품 양품판별 데이터 분석-1 1. 문제 정의 클래스(G/NG)를 나누는 게 목적이 아님. 그래서 분류 모형을 써서 테스트하는건 의미가 없을 것 같다. 통계적으로 유의미한 피처를 찾아 해당 피처의 범위 최적 범위값을 제공하는 것. 이게 목적임 2. 해결방안(1차) 그럼 어떻게 해볼까? 1. 두 집단으로 보이는 것 분류한다 현재 데이터가 극과 극에 있는 양상을 보이므로 두 집단으로 분류하여 샘플링을 해본다. 이에 따른 상관계수와 같은 기술통계량을 찾아본다. 2. 데이터 불균형 ->오버 샘플링을 하든 별도의 샘플링이 필요하다 2. 각각의 G/NG 분포를 보고 Corr 또는 로지스틱 회귀 진행 3. 차원이 줄어들었다면 biplot을 이용하여 현재 가장 영향을 미치고 있는 피처를 선택한다. (피처 수가 10 이하로 줄었을것) 피처수가 아직도.. 2022. 10. 20.
[통계데이터분석] 표본과 모집단 데이터 수집 절차 데이터를 무엇으로 어떻게 수집할 것인가? 표본과 모집단 표본 (데이터 수집에 포함된 참여자의 집단) 모집단으로부터 추출된 관측값이나 측정값의 집합 예: 쇼핑몰을 이용하는 300명의 고객 ->기술 통계에 해당 모집단 우리가 궁극적으로 결론을 도출하고자하는 대상이 되는 전체 집단 예 : 쇼핑몰을 이용하거나 이용할 잠재 고객 전체 ->추론통계에 해당 우리는 300명의 데이터 분석의 결과를 서베이 참여자(표본)에게만 적용하기 보단 더 큰 집단(모집단)에 대한 결론을 도출하기 위해 사용하는 것이 일반적 => 이 부분이 텐서 플로에서 머신러닝 문제를 풀 때와 같다고 느낌 머신러닝 문제도 학습세트에는 피쳐와 라벨이 주어지고 우리는 결과세트의 라벨을 구해야하는 문제가 나온다. 즉 여기서 표본은 학습세.. 2022. 7. 8.
반응형