본문 바로가기
반응형

머신러닝6

[부트캠프 지원] 2023 구글 머신러닝 부트캠프 지원 나의 첫 부트캠프 지원서를 제출했다!! 7월 중순에 구글 머신러닝 부트캠프가 열린다는 것을 알게 된 이후로 틈틈히 설문지를 채워넣었다. 여유를 두며 채운 건 아니지만 혹여나 문제 하나라도 틀릴까봐 계속 보고 또 보느라 거의 한달을 작성한 설문지가 되어버린.. (정든 설문지야 이젠 안녕.. bye) 지원 동기에는 내가 왜 이 캠프를 꼭 들어야 하는 지, 나의 꿈은 무엇이며 또 내가 성장했던 경험은 어떤 것인지에 대해 적어서 제출했다. 막상 다 제출하니 이젠 내 손을 떠났다는 후련한 마음과 또 꼭 붙길 바라는 간절함이 공존해서 어떤 마음으로 있어야 할 지 모르겠다..😂😂 최선을 다 했으니 좋은 결과를 기다리며 또 다시 공부하고 기록하고 무한 반복 해야겟담 o( ̄▽ ̄)d 난 꼭 최고의 데이터 사이언티스트가 될.. 2023. 8. 13.
[기초통계] 평균과 분산, 표준편차 평균과 분산, 그리고 표준편차 만약 누군가 내가 가진 자료를 설명해 보라 한다면, 어떻게 설명할 수 있을까? 🙄 아마 해당 자료의 대표적인 특징을 찾아서 얘기할 수 있을 것이다. 여기서 대표적인 특징이 우리가 통계에서 배우는 대표값, 즉 평균, 중간값, 최빈값, 표준편차(분산) .. 과 같은 것이 된다. 따라서 우리는 위의 대표값에 대해 이해할 필요가 있다. 평균 자료의 중심값, 자료의 특성을 대표하는 값 ->모든 자료로 부터 영향을 받기 때문에 이상값에 취약하다. 분산 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리 수식을 살펴보면, 분자는 각 값에서 평균을 뺀 것인데 제곱합으로 이루어져 있다. 왜 제곱으로 만들까? 만약 제곱을 하지 않는다면 각 요소 값이 + - 가 섞여 나오므로.. 2023. 8. 7.
[22하]사출품 양품판별 데이터 분석-1 1. 문제 정의 클래스(G/NG)를 나누는 게 목적이 아님. 그래서 분류 모형을 써서 테스트하는건 의미가 없을 것 같다. 통계적으로 유의미한 피처를 찾아 해당 피처의 범위 최적 범위값을 제공하는 것. 이게 목적임 2. 해결방안(1차) 그럼 어떻게 해볼까? 1. 두 집단으로 보이는 것 분류한다 현재 데이터가 극과 극에 있는 양상을 보이므로 두 집단으로 분류하여 샘플링을 해본다. 이에 따른 상관계수와 같은 기술통계량을 찾아본다. 2. 데이터 불균형 ->오버 샘플링을 하든 별도의 샘플링이 필요하다 2. 각각의 G/NG 분포를 보고 Corr 또는 로지스틱 회귀 진행 3. 차원이 줄어들었다면 biplot을 이용하여 현재 가장 영향을 미치고 있는 피처를 선택한다. (피처 수가 10 이하로 줄었을것) 피처수가 아직도.. 2022. 10. 20.
shape와 dimension 텐서?란 무엇인가 tensor example in NLP sentence hi John hi James hi Brian 단어 단위로 자른다 unique word index hi 0 John 1 James 2 Brian 3 자연어 처리에서는 원핫인코딩을 기본적으로 사용하니까 아래와 같이 각 단어를 벡터화 시키자 unique word index one hot encoding vector hi 0 [1,0,0,0] john 1 [0,1,0,0] james 2 [0,0,1,0] Brian 3 [0,0,0,1] 이렇게 워드들을 벡터로 표현할 수 있으니까 문장도 당연히 벡터로 표현할 수 있음 sentence vector representation hi John [[1,0,0,0], [0,1,0,0]] hi Jame.. 2022. 7. 13.
[쉽게 배우는 통계학] 필요 표본의 수 추측통계학은 오차라는 것을 생각해야한다! 어떻게든 일부를 조사해서 전체의 특징을 파악할 수 있게 연구하는 것이 목적! 연구자가 표본을 조사할 때는 대개 얼마나 많은 숫자를 조사하는 것일까? 기준이 있을까? 이상적인 건 모집단을 100으로 했을 때 표본 수 80정도를 조사하면 그 나름대로 정확도 높은 결과를 얻을 수 있다. 모집단이 많을 수록 필요한 표본의 수도 늘어나지만 모집단이 10,000을 넘으면 그렇게 많이 할 필요는 없다. 다만 이건 일반적인 이야기일 뿐. 예를 들어 설문조사를 할때 샘플이 400개라면 표본 오차를 5% 미만으로 하는 것이 좋다고들 하지. 하지만 설문의 목적이나 신뢰도를 얼마나 높이느냐에 따라 필요한 표본수는 달라짐. 동물실험에서는 표본수가 적어도 괜찮다. (그런데 연구 분야에 따.. 2022. 7. 10.
[통계데이터분석] 표본과 모집단 데이터 수집 절차 데이터를 무엇으로 어떻게 수집할 것인가? 표본과 모집단 표본 (데이터 수집에 포함된 참여자의 집단) 모집단으로부터 추출된 관측값이나 측정값의 집합 예: 쇼핑몰을 이용하는 300명의 고객 ->기술 통계에 해당 모집단 우리가 궁극적으로 결론을 도출하고자하는 대상이 되는 전체 집단 예 : 쇼핑몰을 이용하거나 이용할 잠재 고객 전체 ->추론통계에 해당 우리는 300명의 데이터 분석의 결과를 서베이 참여자(표본)에게만 적용하기 보단 더 큰 집단(모집단)에 대한 결론을 도출하기 위해 사용하는 것이 일반적 => 이 부분이 텐서 플로에서 머신러닝 문제를 풀 때와 같다고 느낌 머신러닝 문제도 학습세트에는 피쳐와 라벨이 주어지고 우리는 결과세트의 라벨을 구해야하는 문제가 나온다. 즉 여기서 표본은 학습세.. 2022. 7. 8.
반응형