feature Scaling

표준화와 정규화 소개

표준화 (standardization)

데이터 피쳐값이 평균이 0 ,분산이 1인 가우시안 정규분포를 이루는 값으로 변환하는 것으로 대표적인 class로는 Standardscaler 가 있다.

from sklearn.datasets

import load_iris import pandas as pd

iris =load_iris()

iris_data= iris.data

data=pd.DataFrame(data=iris_data, columns=iris.feature_names)

print(data.shape)

data.info()

data.head()

print(data.mean())

print('-----------------------------')

print(data.var())

from sklearn.preprocessing import StandardScaler

standard = StandardScaler()

can = standard.fit(data)

iris_standard = can.transform(data)

iris_standard = pd.DataFrame(data=iris_standard, columns=iris.feature_names) iris_standard.head()

print(iris_standard.mean())

print('-----------------------------')

print(iris_standard.var())

서로 다른 피처의 크기를 통일하고자, 데이터 크기를 0과 1사이의 범위로 변환(음수가 포함한 경우 -1에서 1사이의 )한다. 대표적인 class로 MinMaxScalar가 있다.

from sklearn.preprocessing import MinMaxScaler #정규화모듈불러오

minmaxsc = MinMaxScaler()

can = minmaxsc.fit(data) #틀생성

iris_standard = can.transform(data) #정규화 변환적

iris_standard = pd.DataFrame(data=iris_standard, columns=iris.feature_names)#데이터프레임변환

iris_standard.head()

print(iris_standard.min()) #최

print('---------------------------------')

print(iris_standard.max()) #최

Last updated 5 years ago

Was this helpful?