단순히 식별자 역할만 하는 범주형 변수로 데이터 분석을 하면, 숫자의 크기에 의미가 있는 것으로 잘못 해석될 수 있다. 따라서 각 케이스에 해당될 때 '1', 아니면 '0'을 입력해주는 원핫인코딩을 해줘야 한다. 가장 주의해야 할 점은 '데이터셋을 훈련-테스트로 나누기 전' 원핫인코딩을 수행해야 한다는 것이다. 1) 데이터 범주-연속-레이블로 나누기 #vote.csv 데이터셋 불러오기 import pandas as pd data=pd.read_csv('vote.csv', encoding = 'utf-8') data.head() 범주형 변수가 있는 vote.csv 데이터셋을 불러왔다. #범주형 변수와 다른 변수들을 분리시키기 X1 = data[['gender', 'region']] XY = data[['e..