feature Scaling

표준화와 정규화 소개

표준화 (standardization)

http://www.dataminingblog.com/standardization-vs-normalization/

데이터 피쳐값이 평균이 0 ,분산이 1인 가우시안 정규분포를 이루는 값으로 변환하는 것으로 대표적인 class로는 Standardscaler 가 있다.

Code_Review

data_load

from sklearn.datasets

import load_iris import pandas as pd

iris =load_iris()

iris_data= iris.data

data=pd.DataFrame(data=iris_data, columns=iris.feature_names)

print(data.shape)

data.info()

data.head()

각 컬럼의 평균, 분산 구하기

print(data.mean())

print('-----------------------------')

print(data.var())

표준화 적용 전 평균(mean), 분산(var)

from sklearn.preprocessing import StandardScaler

standard = StandardScaler()

can = standard.fit(data)

iris_standard = can.transform(data)

iris_standard = pd.DataFrame(data=iris_standard, columns=iris.feature_names) iris_standard.head()

print(iris_standard.mean())

print('-----------------------------')

print(iris_standard.var())

표준화 적용 후 평균과 분산

정규화 (normalization)

http://www.dataminingblog.com/standardization-vs-normalization/

서로 다른 피처의 크기를 통일하고자, 데이터 크기를 0과 1사이의 범위로 변환(음수가 포함한 경우 -1에서 1사이의 )한다. 대표적인 class로 MinMaxScalar가 있다.

Code_Review

from sklearn.preprocessing import MinMaxScaler #정규화모듈불러오

minmaxsc = MinMaxScaler()

can = minmaxsc.fit(data) #틀생성

iris_standard = can.transform(data) #정규화 변환적

iris_standard = pd.DataFrame(data=iris_standard, columns=iris.feature_names)#데이터프레임변환

iris_standard.head()

print(iris_standard.min()) #최

print('---------------------------------')

print(iris_standard.max()) #최

정규화 적용 후 최소,최대값

Reference

Last updated

Was this helpful?