반응형 전체 글55 [22하]사출품 양품판별 데이터 분석-1 1. 문제 정의 클래스(G/NG)를 나누는 게 목적이 아님. 그래서 분류 모형을 써서 테스트하는건 의미가 없을 것 같다. 통계적으로 유의미한 피처를 찾아 해당 피처의 범위 최적 범위값을 제공하는 것. 이게 목적임 2. 해결방안(1차) 그럼 어떻게 해볼까? 1. 두 집단으로 보이는 것 분류한다 현재 데이터가 극과 극에 있는 양상을 보이므로 두 집단으로 분류하여 샘플링을 해본다. 이에 따른 상관계수와 같은 기술통계량을 찾아본다. 2. 데이터 불균형 ->오버 샘플링을 하든 별도의 샘플링이 필요하다 2. 각각의 G/NG 분포를 보고 Corr 또는 로지스틱 회귀 진행 3. 차원이 줄어들었다면 biplot을 이용하여 현재 가장 영향을 미치고 있는 피처를 선택한다. (피처 수가 10 이하로 줄었을것) 피처수가 아직도.. 2022. 10. 20. [ML]지도학습과 비지도학습 지도학습? 정답이 있는 데이터를 활용해 데이터를 학습시키는 것 입력값(X data)이 주어지면 입력값에 대한 Label(Y data)를 주어 학습시키는 것 지도학습의 종류 분류와 회귀 분류(classification)/회귀(regression) 주어진 데이터를 정해진 카테고리에 따라 분류하는 문제를 말함(이산적) 어떤 데이터들의 특징을 토대로 값을 예측하는 것(연속적) what is feature? 머신러닝에 입력시킬 수치화된 데이터의 특성 지도 학습 알고리즘 -K-최근접 이웃(k-Nearest Neighbors) -서포트 벡터 머신 (support vector machine) -은닉 마르코프 모델 (Hidden Markov model) -회귀 분석 (Regression) -신경망 (Neural netw.. 2022. 8. 1. [ML]classification , regression 1. training 하는 방법을 알자 여기에 쓰이는 수학적 지식 -> Probability/Linear Algebra/ Calculus are used -> 이게 어떻게 쓰이는지? : 앞으로 천천히 포스팅 할 예정 2. Terms used in ML (머신러닝에 쓰이는 용어) 이것을 실제로 동작시키기 위한 파이썬으로 코드화 3. Realizing ML with python codes Regression과 classification의 차이 내가 맞추는 variable이 연속이냐 이산이냐? 만약에 개냐 고양이냐. 마스크 썻냐 안섯냐 맞추는 것은 classification 여기선 feature가 2차원 2차원 데이터가 수치화 된것을 보고 나서 이런 값이면 마스크를 안 썼네 / 안 썼네로 분류하는 것은 cla.. 2022. 7. 29. [데이콘] 기초 파이썬 lv.0 1. colab에 데이터 불러오기 2. 필요한 라이브러리 불러오기 => 데이터 분석을 위해 pandas, 학습시킬 머신러닝 모델을 위해 sklearn을 import 한다 3. pd.read_csv()로 DataFrame형식으로 불러옴 데이터를 pandas의 기본 데이터 형식인 DataFrame형식으로 불러온다. 4. head()와 shape를 통해 일부 데이터의 구조를 파악하고 행/열 정보를 확인한다. 5. 결측치 확인 일반적으로 값이 없을 때는 Null이라고 하는 값이 판다스에서는 NaN이라고 하고, 결측치라고 말한다. 판다스에서는 결측치를 확인하기 위해 info()함수로 한 눈에 결측치를 알아볼 수 있다. 6. 데이터 전처리 dropna() 를 사용해 train 데이터는 결측치를 제거하고 fillna.. 2022. 7. 26. [머신러닝 탐구생활] kaggle 입문 내가 만들어 낼 수 없다면, 난 그것을 이해하지 못한 것이다 _리처드 파인만 캐글의 경진대회 유형 5가지 피처드(Featured) 외부 기업 + 캐글 연계, 상금과 캐글 포인트가 할당되는 일반적인 경진대회 입문자용(Getting Started) 머신 러닝 입문자를 위한 예제 기반 학습용 경진대회, 상금과 캐글 포인트는 할당되지 않는다 연구(Research) 연구 목적으로 진행되는 경진대회, 피처드 대비 적은 양의 상금이 할당된다. 놀이터(Playground) 캐글이 직접 주최하는 경진대회, 상금이 할다외는경우도 있다. 채용(Recruitment) 채용을 목적으로 진행되는 경진대회, 상금 대신 채용 면접권을 얻을 수 있으며, 캐글 포인트도 할당된다 Kaggle 경진대회 탭 소개 1. Evaluation 탭.. 2022. 7. 26. 간단한 파이썬 웹 크롤러 구현 간단한 파이썬 웹 크롤러 구현 : 지금은 간단한 hTML 태그를 이용하여 웹사이트 에서 크롤링 이것은 매우 간단 -> 응용하여 고급 크롤링 프로그램을 만드는 것은 더 공부해야지!! ex) 네이버 웹 사이트 뉴스 기사 가져온다고 할 때 웹사이트 접속 --> html 데이터 가져오기 --> parsing(분류/분리) 뉴스 , 날씨, 증권,,, 수시로 데이터가 바뀌니까 특정 사이트의 내용을 계속 가져와야하기 때문에 주기적으로 호출할 때 크롤링이 필요하다! 코드 설명 from urllib.request import urlopen #웹페이지 URL 을 다룰 때 사용하는 Python 라이브러리 from bs4 import BeautifulSoup #웹 페이지의 정보를 쉽게 스크랩할 수 있도록 기능을 제공하는 라이브.. 2022. 7. 25. 이전 1 ··· 5 6 7 8 9 10 다음 반응형