📖
Simple & Clear Engineer Note
  • This is me
  • Infra 용어
  • Linux Acceptance test
    • ISO 9126의 특성에 따른 OS 항목 분류
    • 기능성 (Functionality)
      • Kernel 영역
      • LVM (Logical Volume Manager)
      • API (daemon 서비스 상태 체크)
      • CPU 정보 및 Firmware 확인
      • Memory 용량 및 Slot 확인
      • Negotiation 상태 확인
      • Raid 구성 확인
      • WEB/WAS 설치
      • Cache/Swap 메모리 초기화
      • NFS (Network File System)
    • 신뢰성 (Reliability)
      • Bonding
      • System Reboot
      • Disk Mirror
      • Multipath
      • Cluster
      • Backup & Optical Drive check
      • kdump
      • watchdogtimer
    • 사용성 (Usability)
      • Locale
      • Network 구성
      • Hosts file
      • DNS(Domain Name System)
      • NTP(Network Time Protocol) 시간 동기화
      • tcpdump
      • SSH (Secure Shell)
      • Runlevel
      • Crontab 작업 예약
      • TimeZone
      • VNC(Virtual Network Computing)
      • Yum local repository
    • 유지보수성 (Maintenance)
      • hdparm
    • 보안성 (Security)
      • Permission error 해결방법
    • 기타(ETC)
      • X window
      • Macro (Shell Script & TeraTerm(TTL))
  • Webserver
    • Infra Structure 소개
      • HTML +CSS +JavaScript
      • MongoDB + Flask
  • Hadoop Guide
    • Hadoop Single설치 (ver 2.7.4)
  • MachineLearning
    • 확률(Probability)
    • Machine learning이해하기
    • Processing Data(Numpy)
    • Data Handling - Pandas
      • feature Scaling
      • Data encoding
    • Analysis(with Python & R)
      • 기초통계지식
      • 회귀(Regression)
      • 분류(Classification)
      • 차원축소(Dimension Reduction)
      • 군집화(Clustering)
      • 평가(Evaluation)
      • Scikitlearn
    • Text Analysis
    • Time Series Analysis
    • Statistics
    • Customer Value Analysis
  • Deep Learning
    • CS231n
      • CS231n (Lecture 1~6)
      • CS231n(Lecture7~12)
  • DataBase
    • DataBase
    • Transaction
    • Oracle 12C setup
    • MySQL setup
    • neo4j Enterprise Setup
    • SQL
    • Data inquiry and data analysis using SQL
    • 품질 & RiskManagement
    • 성능(Performance)
    • 안정성
    • 이기종간 데이터 이관방법
  • 기타
    • JAVA용어정리(암기)
  • Windows 관리
    • WINDOW 서버 root 권한 설정 방법
    • 접속자 확인
  • EMRproject
    • Git & Github
Powered by GitBook
On this page
  • 표준화 (standardization)
  • Code_Review
  • 정규화 (normalization)
  • Code_Review
  • Reference

Was this helpful?

  1. MachineLearning
  2. Data Handling - Pandas

feature Scaling

표준화와 정규화 소개

PreviousData Handling - PandasNextData encoding

Last updated 5 years ago

Was this helpful?

표준화 (standardization)

데이터 피쳐값이 평균이 0 ,분산이 1인 가우시안 정규분포를 이루는 값으로 변환하는 것으로 대표적인 class로는 Standardscaler 가 있다.

Code_Review

data_load

from sklearn.datasets

import load_iris import pandas as pd

iris =load_iris()

iris_data= iris.data

data=pd.DataFrame(data=iris_data, columns=iris.feature_names)

print(data.shape)

data.info()

data.head()

각 컬럼의 평균, 분산 구하기

print(data.mean())

print('-----------------------------')

print(data.var())

from sklearn.preprocessing import StandardScaler

standard = StandardScaler()

can = standard.fit(data)

iris_standard = can.transform(data)

iris_standard = pd.DataFrame(data=iris_standard, columns=iris.feature_names) iris_standard.head()

print(iris_standard.mean())

print('-----------------------------')

print(iris_standard.var())

정규화 (normalization)

서로 다른 피처의 크기를 통일하고자, 데이터 크기를 0과 1사이의 범위로 변환(음수가 포함한 경우 -1에서 1사이의 )한다. 대표적인 class로 MinMaxScalar가 있다.

Code_Review

from sklearn.preprocessing import MinMaxScaler #정규화모듈불러오

minmaxsc = MinMaxScaler()

can = minmaxsc.fit(data) #틀생성

iris_standard = can.transform(data) #정규화 변환적

iris_standard = pd.DataFrame(data=iris_standard, columns=iris.feature_names)#데이터프레임변환

iris_standard.head()

print(iris_standard.min()) #최

print('---------------------------------')

print(iris_standard.max()) #최

Reference

그림출처:

http://www.dataminingblog.com/standardization-vs-normalization/
https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html
http://www.dataminingblog.com/standardization-vs-normalization/
표준화 적용 전 평균(mean), 분산(var)
표준화 적용 후 평균과 분산
http://www.dataminingblog.com/standardization-vs-normalization/
정규화 적용 후 최소,최대값