[빅데이터분석기사] 20 투표기반 앙상블

자기계발/Python

[빅데이터분석기사] 20 투표기반 앙상블

호등 2022. 6. 23. 10:15

투표기반 앙상블

여러 분류기를 학습시킨 후 각각의 분류기가 예측하는 레이블 범주가 가장 많이 나오는 범주를 예측하는 방법이다. 사용 방법은 개별 분류기의 최적 하이퍼파라미터를 찾은 후, 투표기반 앙상블로 모델을 만들어 좀 더 좋은 분류와 회귀 예측을 찾는 것이다. 로지스틱모델, 서포트벡터머신, 랜덤포레스트 등 여러 머신러닝 분류기를 수행한 후 예측 범주가 많이 나온 것을 최종 범주로 분류한다.

투표기반 앙상블의 옵션에는 범주 기반일 경우 'Hard Learner'

확률을 기반으로 결정할 경우 'Soft Learner'를 선택한다.

scikit-learn

투표기반 앙상블은 사이킷런의 ensemble에 있다.

이 중 분류는 VotingClassifier,

회귀는 VotingRegressor을 사용한다.

VotingClassifier에서 핵심 하이퍼파라미터는 'vote'이다. 범주로 할지(hard), 확률로 할지(soft)를 결정해야한다.

VotingRegressor에서 중요한 하이퍼파라미터는 없다.

Part1.분류(Classification) : VotingClassifier

분석에 사용된 데이터에서는 개별 분류 알고리즘과 거의 유사한 결과를 보였지만 앙상블은 일반적으로 좋은 개별 알고리즘을 조합한다면 더 나은 결과를 보인다. 또한 일반적으로 soft 방식이 정확도가 높은 것으로 알려져 있다.

1) 데이터셋 분리 후 정규화

import warnings
warnings.filterwarnings("ignore")

import pandas as pd

data=pd.read_csv('breast-cancer-wisconsin.csv', encoding='utf-8')
X=data[data.columns[1:10]]
y=data[["Class"]]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)

#min-max 정규화
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

유방암 데이터로 VotingClassifier 라이브러리를 실습할 예정

2) 강한 학습기 : hard learner

#Part1. 분류(Classification)
#강한 학습기: hard learner

from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier

logit_model = LogisticRegression(random_state=42)
rnf_model = RandomForestClassifier(random_state=42)
svm_model = SVC(random_state=42)

voting_hard = VotingClassifier(
estimators=[('lr', logit_model), ('rf', rnf_model), ('svc', svm_model)],
voting='hard')
voting_hard.fit(X_scaled_train, y_train)

투표기반 앙상블을 사용하기 위해서는 개별 머신러닝 알고리즘을 결정해야한다. 여기서는 랜덤포레스트, 로지스틱모델, 서포트벡터모델 3가지를 사용했다. 그 후 sklearn.ensemble에서 VotingClassfication을 가져왔다.

각각의 모델을 명명한 이름을 설정한 후 VotingClassifier( )안에 사용할 개별 분류 알고리즘을 설정했다.

(랜덤포레스트 모델 이름을 rnf_model로 한 이유를 모르겠음. rf_model로 통일해서 쓰면 안되는건가..?)

from sklearn.metrics import accuracy_score

for clf in (logit_model, rnf_model, svm_model, voting_hard):
    clf.fit(X_scaled_train, y_train)
    y_pred = clf.predict(X_scaled_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

3개의 개별 모델과 1개의 투표앙상블 모델의 결과를 확인하기 위해 for문을 사용했다.

#로지스틱 회귀모델 분류결과 확인
from sklearn.metrics import confusion_matrix
log_pred_train = logit_model.predict(X_scaled_train)
log_confusion_train = confusion_matrix(y_train, log_pred_train)
print("로지스틱 분류기 훈련데이터 오차행렬:\n", log_confusion_train)

log_pred_test = logit_model.predict(X_scaled_test)
log_confusion_test = confusion_matrix(y_test, log_pred_test)
print("로지스틱 분류기 테스트데이터 오차행렬:\n", log_confusion_test)

가장 먼저 로지스틱 회귀모델의 분류결과를 혼동행렬로 확인해보았다.

#서포트 벡터머신 분류결과 확인
svm_pred_train = svm_model.predict(X_scaled_train)
svm_confusion_train = confusion_matrix(y_train, svm_pred_train)
print("서포트벡터머신 분류기 훈련데이터 오차행렬:\n", svm_confusion_train)

svm_pred_test = svm_model.predict(X_scaled_test)
svm_confusion_test = confusion_matrix(y_test, svm_pred_test)
print("서포트벡터머신 분류기 테스트데이터 오차행렬:\n", svm_confusion_test)

서포트벡터머신의 훈련데이터와 테스트데이터의 혼동행렬이다.

#랜덤포레스트 분류결과 확인
rnd_pred_train = rnf_model.predict(X_scaled_train)
rnd_confusion_train = confusion_matrix(y_train, rnd_pred_train)
print("랜덤포레스트 분류기 훈련데이터 오차행렬:\n", rnd_confusion_train)

rnd_pred_test = rnf_model.predict(X_scaled_test)
rnd_confusion_test = confusion_matrix(y_test, rnd_pred_test)
print("랜덤포레스트 분류기 테스트데이터 오차행렬:\n", rnd_confusion_test)

랜덤포레스트 훈련데이터와 테스트데이터 혼동행렬 결과이다.

#투표분류기 분류결과 확인
voting_pred_train = voting_hard.predict(X_scaled_train)
voting_confusion_train = confusion_matrix(y_train, voting_pred_train)
print("투표분류기 훈련데이터 오차행렬:\n", voting_confusion_train)

voting_pred_test = voting_hard.predict(X_scaled_test)
voting_confusion_test = confusion_matrix(y_test, voting_pred_test)
print("투표분류기 테스트데이터 오차행렬:\n", voting_confusion_test)

마지막으로 투표기반 앙상블 모델의 훈련데이터와 테스트데이터의 혼동행렬이다.

3) 약한 학습기: soft learner

#약한 학습기: soft learner
logit_model = LogisticRegression(random_state = 42)
rnf_model = RandomForestClassifier(random_state = 42)
svm_model = SVC(probability=True, random_state = 42)

voting_soft = VotingClassifier(
estimators=[('lr', logit_model), ('rf', rnf_model), ('svc', svm_model)], voting='soft')
voting_soft.fit(X_scaled_train, y_train)

범주가 아닌 확률로 투표기반 앙상블을 진행해보았다. 앞의 강한 학습기에서 voting = soft로 바꾼 차이다.

from sklearn.metrics import accuracy_score

for clf in (logit_model, rnf_model, svm_model, voting_soft):
    clf.fit(X_scaled_train, y_train)
    y_pred = clf.predict(X_scaled_test)
    print(clf.__class__.__name__, accuracy_score(y_test, y_pred))

각각의 학습기 분석 결과 우연의 일치로 hard 방식과 동일한 결과를 얻었다.

voting_pred_train = voting_soft.predict(X_scaled_train)
voting_confusion_train = confusion_matrix(y_train, voting_pred_train)
print("투표분류기 훈련데이터 오차행렬:\n", voting_confusion_train)

votind_pred_test = voting_soft.predict(X_scaled_test)
voting_confusion_test = confusion_matrix(y_test, voting_pred_test)
print("투표분류기 테스트데이터 오차행렬:\n", voting_confusion_test)

혼동행렬 중 투표기반 앙상블의 결과만 보았는데 hard 방식의 결과와 동일하게 나타났다.

(중간에 오타 하나 수정했더니 또 알수없는 Value Error 발생해서 결과물 캡쳐는 못함)

Part2. 회귀(Regression) : VotingRegression

회귀문제에서 투표기반 앙상블로 2개만 조합하였음에도 개별알고리즘을 적용할 때보다 2~3% 높은 정확도를 보였다. (낮은 수치가 아니다) 개별 알고리즘에서 가장 좋은 하이퍼파라미터를 찾아 설정한다면 더 좋은 결과를 얻을 수 있다.

1) 데이터 분리와 정규화

import pandas as pd 

data2 = pd.read_csv('house_price.csv', encoding='utf=8')
X=data2[data2.columns[1:5]]
y=data2[["house_value"]]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42)

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

주택가격 데이터(housing_price)를 사용하여 실습을 진행했다.

2) 모델적용

#Part2. 회귀(Regresson) : VotingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import VotingRegressor

linear_model = LinearRegression()
rnf_model = RandomForestRegressor(random_state = 42)

voting_regressor = VotingRegressor(estimators=[('lr',linear_model),('rf',rnf_model)])
voting_regressor.fit(X_scaled_train, y_train)

pred_train = voting_regressor.predict(X_scaled_train)
voting_regressor.score(X_scaled_train, y_train)

pred_test = voting_regressor.predict(X_scaled_test)
voting_regressor.score(X_scaled_test, y_test)

여기서는 개별 모델을 선형회귀모델(LinearRegression)과 랜덤포레스트(RandomForestRegressor)를 사용했고,

VotingRegressor로 두 알고리즘을 설정해주었다.

분석 결과 훈련데이터의 정확도는 79%, 테스트데이터 정확도는 59%가 나왔다.

훈련데이터에 비해 낮게 나왔으나 다른 개별 알고리즘에 비해 높은 수준이라고 할 수 있다.

3) RMSE 오차 계산

#RMSE (Root Mean Squred Error)
import numpy as np
from sklearn.metrics import mean_squared_error
MSE_train = mean_squared_error(y_train, pred_train)
MSE_test = mean_squared_error(y_test, pred_test)
print(np.sqrt(MSE_train))
print(np.sqrt(MSE_test))

RMSE 계산하여 훈련데이터와 테스트데이터의 오차도 확인해보았다.

'자기계발 > Python' 카테고리의 다른 글

[빅데이터분석기사] 22 앙상블 부스팅 (0)	2022.06.23
[빅데이터분석기사] 21 앙상블 배깅 (0)	2022.06.23
[빅데이터분석기사] 19 랜덤포레스트 (0)	2022.06.22
[빅데이터분석기사] 18 의사결정나무 (0)	2022.06.22
[빅데이터분석기사] 17 서포트 벡터머신 (0)	2022.06.22

현재글[빅데이터분석기사] 20 투표기반 앙상블

마개이너가 되고 싶은 퍼포먼스 마케터입니다. 주로 제가 공부한 IT, 경제, 재테크 지식을 업로드합니다. 공부하고 정보 공유할 분들, 언제나 환영입니다.

한빛미디어, 혼자공부하는파이썬, 남자신발기본템, 파이썬, 데이터분석도서, 가계부, 혼공분석, 다이소꿀템, 파이썬독학, 혼자공부하는데이터분석, PYTHON, 빅분기실기, 혼공, 사회초년생, 데이터캠퍼스, 직장인자기계발, 빅데이터분석기사, 혼공학습단, 유니클로바람막이, Python독학,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

마개이너를 꿈꾸는 새싹 퍼포먼스마케터의 이야기