본문 바로가기

전체 글

(75)
군집화(K-means clustering) K - Means clustering K-평균은 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. [각 클러스터의 거리 차이의 분산을 최소화 하는 방식으로 동작하는 비지도 학습] 군집 중심점은 선택된 포인트의 ①평균 지점으로 이동하고 ②이동된 중심점에서 다시 가까운 포인트를 선택, ③다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행한다. 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법이다. ♧ 군집 중심점을 설정하면 각 데이터는 가장 가까운 중심점에 소속된다. 중심점에 할당된 데이터들의 평균 중심으로 중심점 이동을 한다. 각 데이터는 ..
빅데이터를 지배하는 통계의 힘 빅데이터를 지배하는 통계의 힘 니시우치 히로무 저/신현호 역 비전코리아 | 2013년 07월 30일 | 원제 : 統計學が最强の學問である|| 정가 15,000원, 할인가 13,500원/사진 출처: yes24 19세기 런던에서 인류는 통계학의 힘을 빌려 만 단위의 인명을 앗아간 원일을 알아내는데 도전했고 원인 모를 전염병을 막기 위해 연구한는 학문을 역학이라고 한다. 당시 외과의사 였고 역학의 아버지 '존 스노(John snow, 1813~1858)가 한 행동은 단순했다. -콜레라로 목숨을 잃은 희생자 집마다 방문해 이것저것 묻고 주변 환경을 잘 관찰한다. -똑같은 상황 아래서 콜레라에 걸린 사람과 걸리지 않은 사람의 차이를 비교한다. -가설이 세워졌으면 대규모로 데이터를 모아 콜레라의 발병과 관련돼 있을 ..
판다스 한번에 정리하기 ♧ Pandas란? 데이터를 효과적으로 처리하고, 보여줄 수 있도록 도와주는 라이브러리 Numpy와 함께 사용되어 다양한 연계적인 기능을 제공 인덱스에 따라 데이터를 나열하므로 사전(Dictionary) 자료형에 가까움 시리즈(Series)를 기본적인 자료형으로 사용 # Series: 시리즈는 인덱스와 값으로 구성됨 (칼럼이 하나) # DataFrame: 다수의 Series를 모아 처리하기 위한 목적으로 사용 (칼럼이 여러개) 표 형태로 데이터를 손쉽게 출력하고자 할 때 사용 가능 ♧ 파일 읽어오기 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있다. read_csv( ) / read_table( ) / read_fwf( ) read_csv와 read_table의 차이는 필드 구분 문자(de..
넘파이 한번에 정리하기 나동빈 님, 파이썬 머신러닝 완벽 가이드 기반으로 작성했습니다. Numerical Python: Numpy pip install numpy #또는 conda install numpy import numpy as np 기반 데이터 타입은 naddray이다. # Numpy의 차원 1차원 축(행): axis 0 -> Vector 2차원 축(열): axis 1 -> Matrix 3차원 축(채널): axis 2 -> Tensor(3차원 이상) array_int = np.array([1,2,3]) array_float = array_int.astype('float64') array_float_int = array_float.astype('i..
R기초 R Studio에서 R Script를 누르면 그럼 스크립트 창에 이렇게 써야할 패키지들을 인스톨한다. # R을 실행시키고, 스크립트 창에 입력 install.packages("tidyverse") install.packages("readr") 실행하려면 줄마다 ctrl+enter 조금만 기다리면 알아서 주륵주륵 설치를 한다. library(readr) DM = 30000) ---------------------------------------------------------------------------------------- > DM %>% filter(Age == 'Old') # A tibble: 205 x 10 Age Gender OwnHome Married Location Salary Child..
기초통계 - 척도 척도의 조건 1. 논리적 관련성 진술문들간에 서로 관련 되어있는 것 처럼 보일 때 2. 경험적 관련성 진술문을 어떤 실험집단에서 실시한 뒤 진술문에 대한 반응이 어느정도로 일관성을 갖는지 척도의 종류 질적척도: 명목, 서열 양적척도: 등간, 비율 관찰하는 대상의 속성에 따라 그 값을 숫자로 나타낸다. 연구대상을 구분하거나 분류할 목적으로 숫자를 사용하고 숫자 자체가 가지고 있는 의미는 없음. 한 그룹에 속하면 다른 그룹에 속하지 않는 상호배타적인 특성 (ex) 초등학생: 0 / 중학생: 1 / 고등학생: 2 / 대학생 : 3 즉 같은 숫자는 같은 특성, 다른 숫자는 다른 특성 관찰하는 대상의 특성을 측정해서 그 값을 순위로 나타내는 것 매겨진 숫자 자체가 가지고 있는 의미가 있다. 그렇기 때문에 높은지 ..
챗봇솔루션 closer를 이용한 나만의 챗봇 만들기! https://app.closer.ai/login?redirect_uri=https%3A%2F%2Fbuilder.closer.ai%2Fapp CLOSER | 비즈니스 성장을 이끄는 챗봇 브랜드를 알리고, 전환률을 높이고, 고객 문의에 24시간 쉬지 않고 답변하는 챗봇을 코딩없이 만들어 보세요. closer.ai 챗봇의 경우 간단한 솔루션, 플랫폼을 이용해서 만들 수 있다. 생각보다 만들기도 간단하고 알고리즘에 따라서 동작하기 때문에 귀찮은(?) 작업의 반복으로 볼 수도 있다. closer의 경우 1000명까지 무료로 이용할 수 있다. 간단하게 연습해보는 용도이기 때문에 closer로 만들어보자 로그인을 하면 다음과 같이 깔끔한 화면이 나온다. 첫봇은 연습용으로 만든 것인데 오늘 점심뭐먹을지에 대해서 동작..
와인 종류 예측하기(체크포인트_모델저장, 그래프, Early stopping) 목표 : 레드와인, 화이트 와인 구분하기 데이터: UCI repository 데이터 6497개 행 레드와인 1599개, 화이트와인이 4898개 13개 컬럼 12개 feature : 주석산 농도, 아세트산 농도, 구연산 농도, 잔류 당분 농도, 염화나트륨 농도, 유리 아황산 농도, 총 아황산 농도, 밀도, PH, 황산칼륨 농도, 알코올 도수, 와인 맛(0~10등급) class: 레드와인(1), 화이트와인(0) from keras.models import Sequential from keras.layers import Dense from keras.callbacks import ModelCheckpoint, EarlyStopping # 모델 최고값 저장, import numpy import pandas as..