본문 바로가기

전체 글

(75)
통계기초(자료의 중심과 퍼짐) 집중 경향성(central tendency) 자료의 중심이 어디에 있는지, 자료가 어떤 값들을 중심으로 모이는지 중심경향 측정치 I. 평균(mean) 일반적으로 산술평균을 말하며 모든 점수(n개의 수)의 합을 사례의 수(n)로 나눈 값 극단적인 점수의 영향을 받고, 등간성을 지닌 척도(등간척도, 비율척도)를 이용해 측정한 변수에만 적용될 수 있음 수학적으로 다루기 매우 용이하며 간단한 식으로 표현 가능, 표집이 안정적 집중경향성에 대한 가장 유용한 측정값이며, 거의 모든 추론 통계가 평균에 기초함 변수 X의 모든 값에 상수(c)를 더하여 새롭게 만들어진 변수 (X+c)의 평균은 x̅+c 변수 X의 모든 값에 상수(c)를 곱하여 새롭게 만들어진 변수 (X*c)의 평균은 x̅*c X-x̅ (편차)의 합은 0..
통계기초(모집단, 변수, 측정,무선표집과 무선할당) ♧ 빈도주의 기술 통계(descriptive statistics) 자료의 상태를 있는 그대로 설명하고 기술하는 방식의 통계 그래프나 표를 이용해 자료를 요약해 보여주는 것 표와 그래프, 자료의 중심과 퍼짐 등 추리 통계(inferential statistics) 모집단의 모수를 추정하고, 이 추정치를 이용해 모집단의 속성에 대해 추론하는 통계 집단 중심: 평균 검정(z 검정, t 검정 등), 분산분석 등 변수 중심: 상관관계, 회귀분석 등 I. 모집단과 표본 모집단, 전집(population): 연구자가 관심을 두고 있는 전체 집단 모수(parameter): 모집단의 속성을 보여주는 값 표본(sample): 연구를 위하여 선택된 모집단의 일부분 통계치(statistic): 또는 추정치(estimate):..
통계기초(빈도주의와 베이지안) 통계의 큰 분류( 숲 ) 지금까지 우리는 표본 집합의 부분 집합인 사건에 대해 확률값이라는 숫자를 할당했다. 이 확률값이라는 숫자는 어떤 의미를 가지는 걸까? 확률값이라는 숫자가 가지는 의미에 대해서는 여러가지 해석이 있을 수 있다. 그 중 가장 대표적인 것이 빈도주의(Frequentist) 관점과 베이지안(Bayesian) 관점이다. 빈도주의에서는 반복적으로 선택된 표본이 사건(부분 집합) a의 원소가 될 경향(propensity)을 그 사건의 확률이라고 한다. 예를 들어 동전을 던져 '앞면이 나오는 사건'의 확률값이 0.5라는 것은 빈도주의 관점에서는 실제로 동전을 반복하여 던졌을 경우 동전을 던진 전체 횟수에 확률값을 곱한 숫자만큼 해당 사건이 발생한다고 본다. 예를 들어 10,000번을 던지면 1..
html의 태그 Hyper Text Markup Language An HTML tag is a special word or letter surrounded by angle brackets, . HTML tags are the hidden keywords within a web page that define how your web browser must format and display the content. Most tags must have two parts, an opening and a closing part. For example, is the opening tag and is the closing tag. Note that the closing tag has the same text as the o..
웹크롤링(Selenium) 간단한 검색, 네이버 로그인, yes24검색 후 장바구니 담기 Selenium https://selenium-python.readthedocs.io/getting-started.html 웹앱을 테스트하는데 사용하는 프레임 워크 Webdriver라는 API를 통해 다양한 브라우저를 제어 브라우저를 직접 동작시킴으로써, Javascript를 이용해 비동기적인 컨텐츠를 가져올 수 있음 Requests 라이브러리와는 다른 동적 페이지의 결과 또는 접근 가능 설치 방법 1) pip install selenium (프롬프트에서) 2) https://selenium-python.readthedocs.io/installation.html 에서 크롬용 드라이버 다운로드 3) 다운로드 받은 zip파일 압축풀면 exe파일 나오는데 주피터 노트북 실행폴더에 저장 4) from selen..
웹크롤링(Requests & BeautifulSoup) 웹페이지는 html(hyper text markup language) / CSS / Javascript 가 섞여있다. 웹 크롤링 (Web Crawler) - 웹 크롤러란 자동화된 방법으로 웹(Web)에서 다양한 정보를 수집하는 소프트웨어다. - 원하는 서비스에서 원하는 정보를 편하게 얻어올 수 있다. - 언어를 막론하고 구현할 수 있지만, 주로 Python을 이용한다. 파이썬으로 크롤링할 때, 주로 사용하는 라이브러리 Requests: 파이썬에서 동작하는 작고 빠른 브라우저 웹서버로부터 초기 HTML만 받을 뿐, 추가 CSS/JavaScript 처리 X 거의 모든 플랫폼에서 구동 가능 Selenium: 브라우저 X, 브라우저를 원격 컨트롤하는 테스팅 라이브러리 Chrome, Firefox, IE, pha..
사이킷런 주요 모듈정리 사이킷런은 ML 모델 학습을 위해서 fit( )을, 학습된 모델의 예측을 위해 predict( ) 메소드를 제공한다. 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 그리고 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭한다. 이 두가지를 합쳐서 Estimator 클래스라고 부른다. 즉, 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부른다. cross_val_score( )와 같은 evaluation 함수, GridSearchCV와 같은 하이퍼 파라미터 튜닝을 지원하는 클래스의 경우 이 Estimator를 인자로 받는다. 인자로 받은 Estimator에 대해서 cross_val_score( ), GridSearchCV.fit( ) 함수 내에서 이..
sklearn 기초 - 붓꽃 품종 예측하기 사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리다. pip install scikit-learn conda install sciket-learn import sklearn print(sklearn.__version__) pip 또는 conda로 사이킷런을 인스톨하고 임포트 해준다. 버전확인까지 해주는 습관을 들이는 것이 좋다. 첫 번째로 만들어볼 머신러닝 모델은 붓꽃 데이터 세트로 붓꽃의 품종을 분류(classification)하는 것이다. 가장 대표적이고 모르면 간첩이자 깔끔하게 정제된 데이터셋이기 때문에 입문용으로 모두가 안다고 한다... 붓꽃(iris) 데이터 세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비 피처(Feature)를 기반으로 꽃의 품종..