반응형

파이썬 35

[빅데이터분석기사] 08 데이터셋 분할과 모델검증

일반적으로 train 데이터셋과 test 데이터셋으로 구분하여 분석하지만, 모델 성능을 일반화하기 위해 교차검증과 검증데이터(valid data)를 추가로 두기도 한다. 1) 특성치(x), 레이블(y) 나누기 import warnings warnings.filterwarnings("ignore") import pandas as pd data=pd.read_csv('Fvote.csv', encoding='utf-8') data.head() 이전에 원핫인코딩을 했던 Fvote.csv 데이터셋을 불러와 데이터를 확인하는 작업이다. #특성변수(X) 데이터셋 따로 분리 X=data[data.columns[0:13]] #레이블(y) 변수 따로 분리 y=data[["vote"]] 특성변수(X)를 편한 방법으로 나눠주..

자기계발/Python 2022.06.18

[빅데이터분석기사] 06 회귀문제

from sklearn.model_selection import train_test_split #모델셀렉션 / 트레인 테스트 스플릿 X_train, X_test, y_train, y_test = train_test_split(X1, y, random_state_42) 1) 분석 데이터 검토 주택가격 파일(house_price.csv)을 불러와 데이터를 확인하는 과정 import pandas as pd data = pd.read_csv('house_price.csv', encoding='utf-8') data.head() print(data.shape) data.describe() data.hist(bins=50, figsize=(20,15)) shape으로 행(케이스 수)와 열(컬럼 수) 구조를 확인, ..

자기계발/Python 2022.06.16

[빅데이터분석기사] 03 결측치 처리(제거, 대체)

결측치 확인 import pandas as pd data=pd.read_csv('Ex_Missing.csv') data 결측치가 있는 csv 파일을 읽어서 데이터를 확인해보면 결측치가 'NaN'으로 표기되는 걸 확인할 수 있다. 결측치 확인 결측치를 세부적으로 파악하는 방법으로는 pandas의 isnull() 혹은notnull()를 이용할 수 있다. (실제 분석에서는 많이 사용하는 방법은 아니라고 함) #isnull() : 결측이면 True, 아니면 False값 반환 pd.isnull(data) data.isnull() #notnull() : 결측이면 False, 아니면 True값 반환 pd.notnull(data) data.notnull() 변수(컬럼)별 결측값 개수 확인 이때 변수(컬럼)별 결측값 개..

자기계발/Python 2022.06.14

[빅데이터분석기사] 02 이상치 처리(log변환, 제곱근변환)

이상치 파악 이상치를 판단하는 명확한 기준은 없기 때문에 분석자의 주관적인 판단에 따라서 제거한다. 이상치를 시각적으로 판단하는 방법에는 상자수염도표가 있다. 상자수염도표 data.boxplot(column='salary', return_type='both') #column의 변수를 다르게 하여 변수별로 파악하기 ● boxplot의 return_type은 axes, dict, both 세 가지가 있다. IQR 기준으로 이상치 제거 IQR보다 크거나 작은 값을 제거 Q1_salary = data['salary'].quantile(q=0.25) Q3_salary = data['salary'].quantile(q=0.75) IQR_salary = Q3_salary-Q1_salary IQR_salary IQR을..

자기계발/Python 2022.06.13

[Python] 기본16. 예외 고급

예외 객체 예외와 관련된 정보가 저장된 객체를 말한다. 다음과 같은 형태로 사용할 수 있다. try: 예외가 발생할 가능성이 있는 구문 except 예외의 종류 as 예외 객체를 활용할 변수 이름: 예외가 발생했을 때 실행할 구문 예외 구분하기 except 구문 뒤에 예외의 종류를 입력해서 예외를 구분할 수 있다. 예외가 발생했을 때 예외 정보를 수집하면 프로그램을 개선하는데 도움이 된다. Exception 객체를 사용하면 어떤 에러가 발생하는지 확인 가능하다. try: 예외가 발생할 가능성이 있는 구문 except 예외의 종류 A: 예외A가 발생했을 때 실행할 구문 except 예외의 종류 B: 예외B가 발생했을 때 실행할 구문 except 예외의 종류 C: 예외C가 발생했을 때 실행할 구문 excep..

자기계발/Python 2022.03.16

[Python] 기본15. 구문 오류와 예외

오류의 종류 1) 프로그램 실행 전에 발생하는 오류 → 구문 오류(syntax error) 문자열 따옴표를 제대로 닫지 않아 프로그램 시작이 아예 안되는 오류 2) 프로그램 실행 중에 발생하는 오류 → 예외(exception) 또는 런타임 오류(runtime error) 프로그램이 일단 실행된 다음 실행 중 발생하는 오류 기본 예외 처리 예외를 처리하는 방법에는 두 가지 방법이 있다. * 조건문을 사용하는 방법 → 기본 예외 처리라고 부름 * try 구문을 사용하는 방법 기본 예외 처리(조건문 사용) #정수입력 number_input_a = int(input("정수 입력> ")) #원 둘레, 넓이 구하기 print("원의 반지름:", number_input_a) print("원의 둘레:", number_..

자기계발/Python 2022.03.10

[Python] 기본14. 파일 처리 open(),close(),with 키워드

파일처리 파이썬엔 파일 관련된 처리를 하는 표준 함수가 기본으로 제공된다. 기본으로 제공되어 처리할 수 있는 파일은 2종류(텍스트 파일, 바이너리 파일)인데 텍스트 파일에 관련된 내용을 정리할 예정이다. 파일 열고 닫기 * open( ) 함수 파일 객체 = open(문자열: 파일 경로, 문자열: 읽기 모드) 모드 설명 w write 모드(새로 쓰기 모드) a append 모드(이어서 쓰기 모드) r read 모드(읽기 모드) * close( )함수 파일 객체.close( ) file = open("basic.txt", "w") file.write("Hello, Python Programming!") file.close() 위 코드는 txt파일을 열고 간단한 글을 작성하는 예제이다. 이 코드를 실행하면 내..

자기계발/Python 2022.03.09

[Python] 기본13. 함수 고급(튜플과 람다)

파이썬엔 있는데 다른 언어에 없는 대표적인 기능 '튜플'과 '람다'에 대해 공부해보았다. 튜플은 리스트와 굉장히 비슷하지만 조금 다른 성질을 갖고 있다. 튜플 : 리스트와 매우 유사하지만 리스트와 다르게 결정된 요소를 바꿀 수 없다. (데이터, 데이터, 데이터, ...) tuple_test = (10, 20, 30) print(tuple_test[0]) #출력결과 : 10 #튜플 값 바꾸기 시도 -> 실패 tuple_test[0] = 100 #TypeError 오류 출력! tuple_test2 = "A", "B", "C", "D" print("type(tuple_test2): ", type(tuple_test2)) #출력결과 : type(tuple_test2): 리스트를 선언했을 땐 대괄호를 사용했지만 ..

자기계발/Python 2022.03.08

[Python] 기본12. 재귀함수와 메모화

재귀함수의 예를 말하라면 팩토리얼과 피보나치 수열이 빠지지 않는다. '재귀(recursion)'란 자기 자신을 호출하는 것이며, 함수를 선언할 때, 함수 안에 자기 자신을 호출하여 끊임없이 나를 불러내는 형태를 만들어낸다. 재귀함수 #재귀함수의 예 def factorial(n): if n == 0 : return 1 else: return n*factorial(n-1) #팩토리얼을 구현한 함수 내에 팩토리얼 함수를 사용했다. 위에서 팩토리얼을 계산하는 함수를 만들었다. 위 예시와 같이 factorial( )함수 안에서 다시 factorial( )함수를 호출하는 것을 볼 수 있다. 재귀함수를 사용하면 코드가 깔끔해져서 가독성이 좋다는 장점이 있다. 재귀함수의 문제점은 나를 계속 호출하면서 계산 해야 하는 ..

자기계발/Python 2022.03.07

[Python] 기본11. 함수(가변, 기본, 키워드 매개변수)

오늘 포스팅에선 Python 함수의 매개변수에 대해 공부할 것이다. 함수에 넣는 인자를 매개변수라고 부르는데 가변 매개변수, 기본 매개변수, 키워드 매개변수 등 종류가 다양하다. 가변 매개변수 원래 함수를 선언할 땐 매개변수와 함수를 호출할 때의 매개변수가 같아야 한다. 하지만 여태 사용했던 print( )를 보면 매개변수를 원하는만큼 입력할 수 있었다. 이와 같이 매개변수를 원하는 만큼 입력 받을 수 있는 함수를 가변 매개변수라고 부른다. def 함수 이름(매개변수, 매개변수, ... , *가변 매개변수): □□□□ 문장 가변 매개변수를 사용하는데 2가지 제약사항이 있다. 1. 가변 매개변수 뒤에는 일반 매개변수가 오지 못한다. : 어디까지가 가변 매개변수인지 알기 힘들기 때문에 2. 가변 매개변수는 ..

자기계발/Python 2022.03.06
반응형