본문 바로가기
반응형

전체 글55

사례 연구 1) 자동차 보험 사기 자동차 보험 사기 적발 프로젝트에서 청구 예측 해법을 수용하기로 했다고 하자. 이 모델을 이용하면 보험금 청구의 사기 가능성을 예측할 수 있을 것이다. 이 시스템은 신규 접수된 청구서를 조사하고 사기 가능성이 높은 건에 대해 추가 조사 필요 표시를 한다. 예측 주제는 보험 청구서가 되며 이 문제의 ABT는 사기 서술 속성으로 표현된 과거 청구의 세부 내역과 사기 여부를 표시하는 대상 속성이 들어 있따. 청구의 사기 여부를 판단할 때 중요한 개념들이 도메인 개념이 된다. 아래는 유용할 듯한 도메인 개념들을 보여준다. 분석 전문가와 해당 사업 분야 전문가가 상담을 통해 이런 도메인 개념들을 정리한다. 속성 설게와 구현 도메인 개념에 대한 합의가 이뤄졌다면 다음 작업은 이 개념들로부터 구체적인 속성을 구현하는.. 2022. 7. 23.
[도서 리뷰]하버드 새벽 4시 반 누구도 자신의 한계에 가보지 못했다 당신이 상상하는 그 이상의 힘을 쏟아야 비로소 잠재력이 발휘되기 시작한다 나는 평소 자기 개발에 관심이 많았던 터라 이 책의 존재를 익히 알고 있었다. 그러나 숱한 자기개발서를 읽고 나서 느낀 회의감 때문에 일반적인 자기개발서와 같겠거니 하는 생각에 막상 읽어보려는 생각을 가지진 못했었는데, 우연히 학교 도서관에 꽂혀진 책을 보고 읽게 되었다. 첫 장을 넘기고, 다음 장을 넘길 때마다 왜 더 일찍 이 책을 읽지 않았을까? 라는 생각이 들었다. 특히 시중의 자기개발서들은 자신의 경험만을 과시하여 ‘이렇게 하면 성공할 수 있다’, 혹은 ‘이것이 진리다’라는 묵시적인 성공에 대한 왕도와 자신만의 경험을 강조하는 반면 “하버드 새벽 4시 반”은 학문에 대한 열정으로 가득찬 하.. 2022. 7. 13.
shape와 dimension 텐서?란 무엇인가 tensor example in NLP sentence hi John hi James hi Brian 단어 단위로 자른다 unique word index hi 0 John 1 James 2 Brian 3 자연어 처리에서는 원핫인코딩을 기본적으로 사용하니까 아래와 같이 각 단어를 벡터화 시키자 unique word index one hot encoding vector hi 0 [1,0,0,0] john 1 [0,1,0,0] james 2 [0,0,1,0] Brian 3 [0,0,0,1] 이렇게 워드들을 벡터로 표현할 수 있으니까 문장도 당연히 벡터로 표현할 수 있음 sentence vector representation hi John [[1,0,0,0], [0,1,0,0]] hi Jame.. 2022. 7. 13.
[쉽게 배우는 통계학] 필요 표본의 수 추측통계학은 오차라는 것을 생각해야한다! 어떻게든 일부를 조사해서 전체의 특징을 파악할 수 있게 연구하는 것이 목적! 연구자가 표본을 조사할 때는 대개 얼마나 많은 숫자를 조사하는 것일까? 기준이 있을까? 이상적인 건 모집단을 100으로 했을 때 표본 수 80정도를 조사하면 그 나름대로 정확도 높은 결과를 얻을 수 있다. 모집단이 많을 수록 필요한 표본의 수도 늘어나지만 모집단이 10,000을 넘으면 그렇게 많이 할 필요는 없다. 다만 이건 일반적인 이야기일 뿐. 예를 들어 설문조사를 할때 샘플이 400개라면 표본 오차를 5% 미만으로 하는 것이 좋다고들 하지. 하지만 설문의 목적이나 신뢰도를 얼마나 높이느냐에 따라 필요한 표본수는 달라짐. 동물실험에서는 표본수가 적어도 괜찮다. (그런데 연구 분야에 따.. 2022. 7. 10.
[쉽게 배우는 통계학] 평균의 함정 1장. 고양이와 시작하는 통계학 2장. 기본은 평균부터 _통계학으로 할 수 있는 것 3장. 무엇을 알고 싶은가? _추측통계학 4장. 추측해볼까? _추정 5장. 고양이의 성격을 알아보자 _독립성 검정 6장. 데이터를 보면 알 수 있는 것 _회귀분석 -----현재 3장 읽는 중----- 1장과 2장에서는 통계학이 무엇인지 , 알고 싶은 대상과 그 평균에 대해 학습한다. 책에서는 고양이에 대한 주제로 통계학의 개념을 알려주는데 쉽고 재밌게 통계학의 지식을 얻을 수 있을 뿐만 아니라 고양이에 대한 잡다한 지식도 덤으로 알 수 있다. (예를 들면, 고양이는 사실 리비아살쾡이가 가축화되어 현재 우리 곁에 남아있다는 것과 왜 고양이를 집고양이로 키워야하는지? .. 매우 다양한 지식을 재미있게 얻을 수 있.. 2022. 7. 9.
[통계데이터분석] 표본과 모집단 데이터 수집 절차 데이터를 무엇으로 어떻게 수집할 것인가? 표본과 모집단 표본 (데이터 수집에 포함된 참여자의 집단) 모집단으로부터 추출된 관측값이나 측정값의 집합 예: 쇼핑몰을 이용하는 300명의 고객 ->기술 통계에 해당 모집단 우리가 궁극적으로 결론을 도출하고자하는 대상이 되는 전체 집단 예 : 쇼핑몰을 이용하거나 이용할 잠재 고객 전체 ->추론통계에 해당 우리는 300명의 데이터 분석의 결과를 서베이 참여자(표본)에게만 적용하기 보단 더 큰 집단(모집단)에 대한 결론을 도출하기 위해 사용하는 것이 일반적 => 이 부분이 텐서 플로에서 머신러닝 문제를 풀 때와 같다고 느낌 머신러닝 문제도 학습세트에는 피쳐와 라벨이 주어지고 우리는 결과세트의 라벨을 구해야하는 문제가 나온다. 즉 여기서 표본은 학습세.. 2022. 7. 8.
반응형