본문 바로가기
반응형

데이터분석/Projects5

[AIFactory] 철도 인공지능 경진대회 정리 보호되어 있는 글 입니다. 2023. 8. 14.
[23상]잔류농약에 영향을 끼치는 변수 - 1 잔류 농약 기준치 초과에 영향을 끼치는 변수 잔류농약에 대한 관심이 해에 따라 증가해옴에 따라 특히 2019년부터는 농약허용기준 강화제도(PLS, Positive List System)를 시행함에 따라 잔류농약에 대한 경각심을 더욱 일깨우고 있다. 농산물의 잔류농약의 단점에 대해 말하고 이를 개선하기 위하여 잔류농약에 영향을 끼치는 독립변수들을 찾자!! 농산물품질관리원에서 제공한 샘플데이터를 사용하였다종속 변수 목록은 57개로 각 변수는 다음과 같다. ['Unnamed: 0','연도', '접수번호', '시료번호', '업무구분', '분석구분', '수확시기', '수거단계', '재배양식', '대분류', '품명', '생산자', '생산자전화번호', '소유자', '소유자전화번호', .. 2023. 1. 26.
[22하]사출품 양품판별 데이터 분석-1 1. 문제 정의 클래스(G/NG)를 나누는 게 목적이 아님. 그래서 분류 모형을 써서 테스트하는건 의미가 없을 것 같다. 통계적으로 유의미한 피처를 찾아 해당 피처의 범위 최적 범위값을 제공하는 것. 이게 목적임 2. 해결방안(1차) 그럼 어떻게 해볼까? 1. 두 집단으로 보이는 것 분류한다 현재 데이터가 극과 극에 있는 양상을 보이므로 두 집단으로 분류하여 샘플링을 해본다. 이에 따른 상관계수와 같은 기술통계량을 찾아본다. 2. 데이터 불균형 ->오버 샘플링을 하든 별도의 샘플링이 필요하다 2. 각각의 G/NG 분포를 보고 Corr 또는 로지스틱 회귀 진행 3. 차원이 줄어들었다면 biplot을 이용하여 현재 가장 영향을 미치고 있는 피처를 선택한다. (피처 수가 10 이하로 줄었을것) 피처수가 아직도.. 2022. 10. 20.
[머신러닝 탐구생활] kaggle 입문 내가 만들어 낼 수 없다면, 난 그것을 이해하지 못한 것이다 _리처드 파인만 캐글의 경진대회 유형 5가지 피처드(Featured) 외부 기업 + 캐글 연계, 상금과 캐글 포인트가 할당되는 일반적인 경진대회 입문자용(Getting Started) 머신 러닝 입문자를 위한 예제 기반 학습용 경진대회, 상금과 캐글 포인트는 할당되지 않는다 연구(Research) 연구 목적으로 진행되는 경진대회, 피처드 대비 적은 양의 상금이 할당된다. 놀이터(Playground) 캐글이 직접 주최하는 경진대회, 상금이 할다외는경우도 있다. 채용(Recruitment) 채용을 목적으로 진행되는 경진대회, 상금 대신 채용 면접권을 얻을 수 있으며, 캐글 포인트도 할당된다 Kaggle 경진대회 탭 소개 1. Evaluation 탭.. 2022. 7. 26.
사례 연구 1) 자동차 보험 사기 자동차 보험 사기 적발 프로젝트에서 청구 예측 해법을 수용하기로 했다고 하자. 이 모델을 이용하면 보험금 청구의 사기 가능성을 예측할 수 있을 것이다. 이 시스템은 신규 접수된 청구서를 조사하고 사기 가능성이 높은 건에 대해 추가 조사 필요 표시를 한다. 예측 주제는 보험 청구서가 되며 이 문제의 ABT는 사기 서술 속성으로 표현된 과거 청구의 세부 내역과 사기 여부를 표시하는 대상 속성이 들어 있따. 청구의 사기 여부를 판단할 때 중요한 개념들이 도메인 개념이 된다. 아래는 유용할 듯한 도메인 개념들을 보여준다. 분석 전문가와 해당 사업 분야 전문가가 상담을 통해 이런 도메인 개념들을 정리한다. 속성 설게와 구현 도메인 개념에 대한 합의가 이뤄졌다면 다음 작업은 이 개념들로부터 구체적인 속성을 구현하는.. 2022. 7. 23.
반응형