반응형 데이터분석/Statistics11 [기초통계] ANOVA Test 총정리 ANOVA TEST 총정리 ANOVA TEST란? t-test는 두 집단 간의 평균의 비교 혹은 두 집단 간의 차이가 있는지 비교하는 검정이었다. 그러나 3집단 이상의 집단 비교에는 쓰일 수 없었다. 이 처럼 3집단 이상의 비교를 위해 사용하는 것이 ANOVA 이다. 독립변수는 명목형, 종속변수는 수치형인 경우 사용 가능 ANOVA TEST 종류 1 ) One way ANOVA TEST 하나의 독립변수를 이용하여 집단 간의 차이를 비교. 이때 독립변수는 반드시 하나여야 하며, 해당 독립변수 내부에 레벨이 여러 개가 있는 경우에 사용. 예시) Titanic 데이터에서 sex 변수(male, female 두 개의 레벨 존재) 가 평균 fare에 차이가 있는지 검정 귀무가설(H0) : k개의 집단 간 모평균에.. 2023. 8. 24. [기초통계] One-way ANOVA Test 공식 설명 One-way ANOVA Test 공식 설명 One-way ANOVA Test 공식 식을 하나씩 살펴보자 1) µ 우변의 µ(mu)는 평균을 의미한다. 왜 평균이 필요할까? 종속 변수의 값이 100% 독립변수의 영향이라고 볼 수 없기 때문이다. 예를 들어 사과의 출하량을 종속변수, 비료를 준 그룹과 비료를 주지 않은 그룹의 사과 출하량을 비교할 때, 비료를 주지 않은 그룹의 사과 출하량이 상식적으로 "0"이 되지는 않을 것이다. 2) T_ j 하지만 ANOVA 에서 이 평균값은 우리의 관심사가 아니다. 관심사는 τ_j(타우_제이)이다. 여기서 τ는 독립변수를 의미, j는 그룹을 의미한다 (j = 1,2,3,4...) 3) Y_ ij '=' 좌측을 보면 Y_ij가 있는데 이는 종속 변수이다. 이전 포스팅에.. 2023. 8. 14. [기초통계] One-way ANOVA Test의 사용 변수와 주의점 One-way ANOVA Test 사용 변수와 주의점 One-way ANOVA에 사용되는 변수 - 종속변수 : 연속형 변수만 가능 - 독립변수 : 이산형/범주형 변수만 가능 만약 이전 포스팅 예시에서 3개의 그룹을 A,B,C 학원 간 아이들의 평균 점수 차이를 ANOVA test에 적용해 보면 종속변수: 아이들의 평균 점수 독립변수: 학원의 종류 (A,B,C 3가지 학원) 가 된다. 여기서 독립변수는 변수가 1개이다. 이걸 더미변수로 바꿔서 넣기도 하고 이러는 경우가 많은데 절대로 해당 방법을 사용하면 안 된다. ANOVA를 하겠다라는 것은 -> 독립변수는 "한 개"이고, 그 독립변수 안에 레벨이 3개(혹은 이상)가 있는 것 다른 예를 들어보자. 코로나 신약을 개발한 어느 제약회사에서, 코로나 감염자를 .. 2023. 8. 14. [기초통계] One-way ANOVA Test (1) ANOVA Test (1) 우리는 이전 포스팅에서 2개의 그룹의 차이를 알아보기 위해 t-test가 필요한 이유와 진행 방법에 대해 알아보았다. 이전 포스팅 링크) https://2days.tistory.com/61 [기초통계] t-test(1) t-test란? t-test ? 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모든 샘플(표본)의 평균값에 대한 가설검정 방법 t-test의 목적 두 개의 집단이 같은지 다른지 비교하기 위해 사 2days.tistory.com 만약 2개 그룹(남-여)이 아니라 3개 그룹(A 학원,B 학원,C 학원)의 집단 비교가 필요하다면 어떤 통계적 방법을 쓸 수 있을까? 우리는 이미 이전에 t-test를 한 번 배웠으니, 아래와 같이 총 3번의 t-test를.. 2023. 8. 14. [기초통계] t-test(1) t-test란? t-test ? 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모든 샘플(표본)의 평균값에 대한 가설검정 방법 t-test의 목적 두 개의 집단이 같은지 다른지 비교하기 위해 사용 그렇다면 어떻게 두 집단이 같은지 다른지 비교할까? 👉 두 집단의 평균값이 통계적으로 같은지 다른지를 확인한다. * 왜 평균값을 통해 집단을 비교할까? 이전 포스팅에서 누군가에게 우리가 가진 자료를 설명해보라고 한다면, 우리는 모든 자료 하나하나를 다 얘기하는 것이 아니라 한 번에 얘기할 수 있게 하는 것이 대표값의 역할이라고 했다. 같은 원리로, 두 샘플의 대표값인 평균값을 가지고 비교를 하는 것이다. t-test 예시 어느 날 갑자기 교실의 여학생들의 몸무게보다 남학생들의 몸무게가 더 크다는.. 2023. 8. 10. [기초통계] 상관관계와 상관계수 상관관계와 상관계수란? 상관관계란? 한 변수가 다른 변수와 공변하는 함수관계 양의 상관관계 두 변수가 같은 방향으로 움직인다 ex: x가 증가할 때 y가 증가 음의 상관관계 두 변수가 다른 방향으로 움직인다. -> x가 증가할 때 y가 감소한다 상관계수란? 상관관계를 나타내는 상관계수는 힘과 방향 두가지 의미 상관계수는 -1 ~ +1까지만 존재하며 상관계수의 +/- 는 방향을 의미, 상관계수의 크기는 힘을 의미 상관계수가 절대값 1에 가까울수록 힘이 세다 👉 힘이 세다는 것은 데이터들이 가깝게 모여 있다는 것을 의미한다. 따라서 데이터들이 퍼져 있으면 상관계수가 0에 가까워 짐을 알 수 있다 2023. 8. 7. [기초통계] p-value란? p-value? p-value란? probability value. 즉, p-value란 확률값을 의미 그럼 p-value에서 말하는 확률값은 무슨 확률을 의미하는 것일까? 쉽게 풀어 말하면 "어떤 사건이 우연히 발생할 확률"을 의미한다. p-value는 확률값이므로 p-value는 0-1사이의 값을 가진다. 우리가 p-value를 사용할 때 일반적으로 "p-값이 0.05보다 작을 때 유의하다" 라고 종종 말한다. 여기서 0.05보다 작다는 건 결국 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미가 된다. 다시 말해 우연히 발생할 확률이 5% 보다 작다는 것은 이 사건이 우연히 일어날 가능성이 거의 없다는 것을 의미한다. 따라서 이 사건이 우연히 발생한 것이 아니라 분명히 뭔가 이유가 있다고 추정.. 2023. 8. 7. [기초통계] 평균과 분산, 표준편차 평균과 분산, 그리고 표준편차 만약 누군가 내가 가진 자료를 설명해 보라 한다면, 어떻게 설명할 수 있을까? 🙄 아마 해당 자료의 대표적인 특징을 찾아서 얘기할 수 있을 것이다. 여기서 대표적인 특징이 우리가 통계에서 배우는 대표값, 즉 평균, 중간값, 최빈값, 표준편차(분산) .. 과 같은 것이 된다. 따라서 우리는 위의 대표값에 대해 이해할 필요가 있다. 평균 자료의 중심값, 자료의 특성을 대표하는 값 ->모든 자료로 부터 영향을 받기 때문에 이상값에 취약하다. 분산 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리 수식을 살펴보면, 분자는 각 값에서 평균을 뺀 것인데 제곱합으로 이루어져 있다. 왜 제곱으로 만들까? 만약 제곱을 하지 않는다면 각 요소 값이 + - 가 섞여 나오므로.. 2023. 8. 7. [쉽게 배우는 통계학] 필요 표본의 수 추측통계학은 오차라는 것을 생각해야한다! 어떻게든 일부를 조사해서 전체의 특징을 파악할 수 있게 연구하는 것이 목적! 연구자가 표본을 조사할 때는 대개 얼마나 많은 숫자를 조사하는 것일까? 기준이 있을까? 이상적인 건 모집단을 100으로 했을 때 표본 수 80정도를 조사하면 그 나름대로 정확도 높은 결과를 얻을 수 있다. 모집단이 많을 수록 필요한 표본의 수도 늘어나지만 모집단이 10,000을 넘으면 그렇게 많이 할 필요는 없다. 다만 이건 일반적인 이야기일 뿐. 예를 들어 설문조사를 할때 샘플이 400개라면 표본 오차를 5% 미만으로 하는 것이 좋다고들 하지. 하지만 설문의 목적이나 신뢰도를 얼마나 높이느냐에 따라 필요한 표본수는 달라짐. 동물실험에서는 표본수가 적어도 괜찮다. (그런데 연구 분야에 따.. 2022. 7. 10. 이전 1 2 다음 반응형