반응형

자기계발 53

[빅데이터분석기사] 07 범주변수의 변환(원핫인코딩)

단순히 식별자 역할만 하는 범주형 변수로 데이터 분석을 하면, 숫자의 크기에 의미가 있는 것으로 잘못 해석될 수 있다. 따라서 각 케이스에 해당될 때 '1', 아니면 '0'을 입력해주는 원핫인코딩을 해줘야 한다. 가장 주의해야 할 점은 '데이터셋을 훈련-테스트로 나누기 전' 원핫인코딩을 수행해야 한다는 것이다. 1) 데이터 범주-연속-레이블로 나누기 #vote.csv 데이터셋 불러오기 import pandas as pd data=pd.read_csv('vote.csv', encoding = 'utf-8') data.head() 범주형 변수가 있는 vote.csv 데이터셋을 불러왔다. #범주형 변수와 다른 변수들을 분리시키기 X1 = data[['gender', 'region']] XY = data[['e..

자기계발/Python 2022.06.17

[빅데이터분석기사] 06 회귀문제

from sklearn.model_selection import train_test_split #모델셀렉션 / 트레인 테스트 스플릿 X_train, X_test, y_train, y_test = train_test_split(X1, y, random_state_42) 1) 분석 데이터 검토 주택가격 파일(house_price.csv)을 불러와 데이터를 확인하는 과정 import pandas as pd data = pd.read_csv('house_price.csv', encoding='utf-8') data.head() print(data.shape) data.describe() data.hist(bins=50, figsize=(20,15)) shape으로 행(케이스 수)와 열(컬럼 수) 구조를 확인, ..

자기계발/Python 2022.06.16

[빅데이터분석기사] 05 분류문제

데이터캠퍼스 교재 내용 토대로 타이핑하면서 실습한 내용 정리했습니다. 분류문제에서 2건의 에러 확인했습니다. 1) 분석 데이터 검토 유방암 데이터를 불러와서 세 가지 방법으로 확인한다. head() .value_counts( print(data.shape) import pandas as pd data=pd.read_csv('breast-cancer-wisconsin.csv', encoding='utf-8') #전부 영어라 encoding은 안해도 무방 #head()로 데이터셋 상위 수치 확인 data.head() #레이블 변수(유방암) 비율 확인을 위해 빈도 확인 data['Class'].value_counts(sort=False) #행과 열 구조 확인을 위해 shape 해보기 print(data.sha..

자기계발/Python 2022.06.16

[빅데이터분석기사] 04 데이터정제 실전과제

01 데이터 불러오기 및 탐색 #데이터 불러오기 : read_csv() import pandas as pd data = pd.read_csv('house_raw.csv') #데이터 살펴보기 data.head() data.describe() data.hist(bins=50, figsize=(20,15)) 02 선형회귀 적용 ① 데이터를 학습용 데이터, 테스트용 데이터로 나누기 #특성데이터셋(X)과 레이블 데이터셋(y)으로 나누기 X = data[data.columns[0:5]] y = data[['house_value']] #학습용 데이터(train)과 테스트 데이터(test) 구분을 위한 라이브러리 #sklearn의 model_selection에서 train_test_split from sklearn.m..

자기계발/Python 2022.06.15

[빅데이터분석기사] 03 결측치 처리(제거, 대체)

결측치 확인 import pandas as pd data=pd.read_csv('Ex_Missing.csv') data 결측치가 있는 csv 파일을 읽어서 데이터를 확인해보면 결측치가 'NaN'으로 표기되는 걸 확인할 수 있다. 결측치 확인 결측치를 세부적으로 파악하는 방법으로는 pandas의 isnull() 혹은notnull()를 이용할 수 있다. (실제 분석에서는 많이 사용하는 방법은 아니라고 함) #isnull() : 결측이면 True, 아니면 False값 반환 pd.isnull(data) data.isnull() #notnull() : 결측이면 False, 아니면 True값 반환 pd.notnull(data) data.notnull() 변수(컬럼)별 결측값 개수 확인 이때 변수(컬럼)별 결측값 개..

자기계발/Python 2022.06.14

[빅데이터분석기사] 02 이상치 처리(log변환, 제곱근변환)

이상치 파악 이상치를 판단하는 명확한 기준은 없기 때문에 분석자의 주관적인 판단에 따라서 제거한다. 이상치를 시각적으로 판단하는 방법에는 상자수염도표가 있다. 상자수염도표 data.boxplot(column='salary', return_type='both') #column의 변수를 다르게 하여 변수별로 파악하기 ● boxplot의 return_type은 axes, dict, both 세 가지가 있다. IQR 기준으로 이상치 제거 IQR보다 크거나 작은 값을 제거 Q1_salary = data['salary'].quantile(q=0.25) Q3_salary = data['salary'].quantile(q=0.75) IQR_salary = Q3_salary-Q1_salary IQR_salary IQR을..

자기계발/Python 2022.06.13

[빅데이터분석기사] 01 단변량 데이터, 이변량 데이터 탐색

단변량 데이터 탐색 판다스로 데이터 기본 정보 확인 import pandas as pd data=pd.read_csv('Ex_CEOSalary.csv', encoding='utf-8') data.info() data.head() csv 파일 읽기 : pd.read_csv('파일명') 데이터 기본 정보(케이스수, 컬럼 수, 자료 개수 형태 등) : data.info() 데이터 상위 5개 구조 : data.head() 1.1 범주형 자료의 탐색 #변수의 범주별 빈도수 data['industry'].value_counts() #replace 함수로 라벨링 data['industry'] = data['industry'].replace([1,2,3,4], ['Service', 'IT', 'Finance', 'Ot..

자기계발/Python 2022.06.12

[Python] 기본16. 예외 고급

예외 객체 예외와 관련된 정보가 저장된 객체를 말한다. 다음과 같은 형태로 사용할 수 있다. try: 예외가 발생할 가능성이 있는 구문 except 예외의 종류 as 예외 객체를 활용할 변수 이름: 예외가 발생했을 때 실행할 구문 예외 구분하기 except 구문 뒤에 예외의 종류를 입력해서 예외를 구분할 수 있다. 예외가 발생했을 때 예외 정보를 수집하면 프로그램을 개선하는데 도움이 된다. Exception 객체를 사용하면 어떤 에러가 발생하는지 확인 가능하다. try: 예외가 발생할 가능성이 있는 구문 except 예외의 종류 A: 예외A가 발생했을 때 실행할 구문 except 예외의 종류 B: 예외B가 발생했을 때 실행할 구문 except 예외의 종류 C: 예외C가 발생했을 때 실행할 구문 excep..

자기계발/Python 2022.03.16

[Python] 기본15. 구문 오류와 예외

오류의 종류 1) 프로그램 실행 전에 발생하는 오류 → 구문 오류(syntax error) 문자열 따옴표를 제대로 닫지 않아 프로그램 시작이 아예 안되는 오류 2) 프로그램 실행 중에 발생하는 오류 → 예외(exception) 또는 런타임 오류(runtime error) 프로그램이 일단 실행된 다음 실행 중 발생하는 오류 기본 예외 처리 예외를 처리하는 방법에는 두 가지 방법이 있다. * 조건문을 사용하는 방법 → 기본 예외 처리라고 부름 * try 구문을 사용하는 방법 기본 예외 처리(조건문 사용) #정수입력 number_input_a = int(input("정수 입력> ")) #원 둘레, 넓이 구하기 print("원의 반지름:", number_input_a) print("원의 둘레:", number_..

자기계발/Python 2022.03.10

[Python] 기본14. 파일 처리 open(),close(),with 키워드

파일처리 파이썬엔 파일 관련된 처리를 하는 표준 함수가 기본으로 제공된다. 기본으로 제공되어 처리할 수 있는 파일은 2종류(텍스트 파일, 바이너리 파일)인데 텍스트 파일에 관련된 내용을 정리할 예정이다. 파일 열고 닫기 * open( ) 함수 파일 객체 = open(문자열: 파일 경로, 문자열: 읽기 모드) 모드 설명 w write 모드(새로 쓰기 모드) a append 모드(이어서 쓰기 모드) r read 모드(읽기 모드) * close( )함수 파일 객체.close( ) file = open("basic.txt", "w") file.write("Hello, Python Programming!") file.close() 위 코드는 txt파일을 열고 간단한 글을 작성하는 예제이다. 이 코드를 실행하면 내..

자기계발/Python 2022.03.09
반응형