'데이터캠퍼스' 태그의 글 목록 (3 Page)

데이터캠퍼스 26

이전에 데이터 정규화 간단히 진행했던거랑 내용 거의 비슷하다. 복습하는 느낌으로 기록해본다. 1) 데이터 불러오기 및 확인 import pandas as pd data=pd.read_csv('Fvote.csv', encoding='utf-8') data.head() 역시나 이전에 만들어놨던 선거행동 Fvote.csv 데이터 불러온다. head()로 기술통계 살펴보면 평균, 편차 수준이 다르기 때문에 데이터 정규화가 필요하다. data.hist(figsize=(20,10)) 히스토그램을 봐도 변수들 분포가 연속성이 떨어지는 것을 볼 수 있다. 2) 특성(x)과 레이블(y) 나누기 #특성(x)과 레이블(y) 나누기 X=data.loc[:, 'gender_female':'score_intention'] y=d..

자기계발/Python 2022.06.19

[빅데이터분석기사] 07 범주변수의 변환(원핫인코딩)

단순히 식별자 역할만 하는 범주형 변수로 데이터 분석을 하면, 숫자의 크기에 의미가 있는 것으로 잘못 해석될 수 있다. 따라서 각 케이스에 해당될 때 '1', 아니면 '0'을 입력해주는 원핫인코딩을 해줘야 한다. 가장 주의해야 할 점은 '데이터셋을 훈련-테스트로 나누기 전' 원핫인코딩을 수행해야 한다는 것이다. 1) 데이터 범주-연속-레이블로 나누기 #vote.csv 데이터셋 불러오기 import pandas as pd data=pd.read_csv('vote.csv', encoding = 'utf-8') data.head() 범주형 변수가 있는 vote.csv 데이터셋을 불러왔다. #범주형 변수와 다른 변수들을 분리시키기 X1 = data[['gender', 'region']] XY = data[['e..

자기계발/Python 2022.06.17

[빅데이터분석기사] 06 회귀문제

from sklearn.model_selection import train_test_split #모델셀렉션 / 트레인 테스트 스플릿 X_train, X_test, y_train, y_test = train_test_split(X1, y, random_state_42) 1) 분석 데이터 검토 주택가격 파일(house_price.csv)을 불러와 데이터를 확인하는 과정 import pandas as pd data = pd.read_csv('house_price.csv', encoding='utf-8') data.head() print(data.shape) data.describe() data.hist(bins=50, figsize=(20,15)) shape으로 행(케이스 수)와 열(컬럼 수) 구조를 확인, ..

자기계발/Python 2022.06.16

[빅데이터분석기사] 05 분류문제

데이터캠퍼스 교재 내용 토대로 타이핑하면서 실습한 내용 정리했습니다. 분류문제에서 2건의 에러 확인했습니다. 1) 분석 데이터 검토 유방암 데이터를 불러와서 세 가지 방법으로 확인한다. head() .value_counts( print(data.shape) import pandas as pd data=pd.read_csv('breast-cancer-wisconsin.csv', encoding='utf-8') #전부 영어라 encoding은 안해도 무방 #head()로 데이터셋 상위 수치 확인 data.head() #레이블 변수(유방암) 비율 확인을 위해 빈도 확인 data['Class'].value_counts(sort=False) #행과 열 구조 확인을 위해 shape 해보기 print(data.sha..

자기계발/Python 2022.06.16

[빅데이터분석기사] 03 결측치 처리(제거, 대체)

결측치 확인 import pandas as pd data=pd.read_csv('Ex_Missing.csv') data 결측치가 있는 csv 파일을 읽어서 데이터를 확인해보면 결측치가 'NaN'으로 표기되는 걸 확인할 수 있다. 결측치 확인 결측치를 세부적으로 파악하는 방법으로는 pandas의 isnull() 혹은notnull()를 이용할 수 있다. (실제 분석에서는 많이 사용하는 방법은 아니라고 함) #isnull() : 결측이면 True, 아니면 False값 반환 pd.isnull(data) data.isnull() #notnull() : 결측이면 False, 아니면 True값 반환 pd.notnull(data) data.notnull() 변수(컬럼)별 결측값 개수 확인 이때 변수(컬럼)별 결측값 개..

자기계발/Python 2022.06.14

[빅데이터분석기사] 01 단변량 데이터, 이변량 데이터 탐색

단변량 데이터 탐색 판다스로 데이터 기본 정보 확인 import pandas as pd data=pd.read_csv('Ex_CEOSalary.csv', encoding='utf-8') data.info() data.head() csv 파일 읽기 : pd.read_csv('파일명') 데이터 기본 정보(케이스수, 컬럼 수, 자료 개수 형태 등) : data.info() 데이터 상위 5개 구조 : data.head() 1.1 범주형 자료의 탐색 #변수의 범주별 빈도수 data['industry'].value_counts() #replace 함수로 라벨링 data['industry'] = data['industry'].replace([1,2,3,4], ['Service', 'IT', 'Finance', 'Ot..

자기계발/Python 2022.06.12

1 2 3

마개이너를 꿈꾸는 새싹 퍼포먼스마케터의 이야기

마개이너가 되고 싶은 퍼포먼스 마케터입니다. 주로 제가 공부한 IT, 경제, 재테크 지식을 업로드합니다. 공부하고 정보 공유할 분들, 언제나 환영입니다.

혼공분석, 직장인자기계발, 빅분기실기, 사회초년생, 파이썬독학, 가계부, 파이썬, 데이터분석도서, 한빛미디어, 혼공, 데이터캠퍼스, 혼공학습단, PYTHON, 혼자공부하는데이터분석, 다이소꿀템, Python독학, 빅데이터분석기사, 혼자공부하는파이썬, 유니클로바람막이, 남자신발기본템,

Today :
Yesterday :

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

데이터캠퍼스 26

티스토리툴바