728x90
구글 스프레드시트로 분석해 봤던걸 파이썬으로 분석해 보게 됐다.
브라우저 에디터 코랩도 사용하게 됐고,
파이썬에 대해 조금 배우고 시작했다.
import pandas as pd
분석에 필요한 판다스라이브러리도 필요해 import 해서 사용했고,
import matplotlib.pyplot as plt
그래프를 위한 matplotlib도 사용했고,
titanic = pd.read_table('train.csv',sep=',')
titanic.head()
엑셀파일 가져오는 법 알게 됐고,
titanic = titanic.dropna()
데이터중 공백데이터 확인과, 제거하는 법 배웠고,
corr = titanic.corr(method='pearson')
corr
상관관계 구하는 법해봤고,
corr = corr.drop(['PassengerId'], axis ='rows')
제외하는 법 (아직 이해가 잘 안 되는 부분... 1이라서 그렇다는데.... 데이터 분석 처음이라 그런지 이해 못 하고 진행...)
drop로 삭제해봤고,
corr['Survived'].plot.bar()
. plot.bar로 바 그래프 그려보고,
plt.xticks(rotation=45)
plt.xticks(rotation=45) 이건 그래프 항목을 45도로 보이게 하기?인 거 같다.
전체 코드
import pandas as pd
import matplotlib.pyplot as plt
titanic = pd.read_table('train.csv',sep=',')
# 1.Null(공백) 데이터 파악하기
print(titanic.isnull().sum())
# 2. 공백 데이터 제거하기
titanic = titanic.dropna()
#상관계수 구하기
corr=titanic.corr(method='pearson')
#survived 1인 요소 제외하기
corr = corr[corr.Survived !=1]
#passengerId 열 삭제 하기
corr = corr.drop(['PassengerId'], axis ='rows')
#생존율 상관관계 바 그래프 생성하기
corr['Survived'].plot.bar()
#x축 레이블 45도 회전하기
plt.xticks(rotation=45)
PassengerId 0
Pclass 0
Sex 0
Age 177
SibSp 0
Parch 0
Fare 0
Survived 0
dtype: int64
(array([0, 1, 2, 3, 4, 5]),
[Text(0, 0, 'Pclass'),
Text(1, 0, 'Sex'),
Text(2, 0, 'Age'),
Text(3, 0, 'SibSp'),
Text(4, 0, 'Parch'),
Text(5, 0, 'Fare')])
여기까지 배우고는
저번 1주 차 구글스프레드 시트에서 했던 타이타닉, 당뇨병 데이터를 파이썬으로 해보았다.
타이타닉
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
titanic = pd.read_table('train.csv',sep=',')
titanic.head()
print(titanic.isnull().sum())
titanic = titanic.dropna()
titanic.describe()
#나이별로 히스토그램 구하기
titanic['Age'].hist(bins=40,figsize=(18,8),grid=True)
#나이별 구분 및 각 나이별 생존율 확인 하기
titanic['Age_cat'] = pd.cut(titanic['Age'],bins=[0,3,7,15,30,60,100],include_lowest=True,labels=['baby','children','teenage','young','adult','old'])
#연령대를 기준으로 평균 값을 구해 볼수 있어요!
titanic.groupby('Age_cat').mean()
#그래프 크기 설정
plt.figure(figsize=(14,5))
# 바 그래프 그리기 (x축 = Age_cat, y축 = Survived)
sns.barplot(x='Age_cat',y='Survived',data=titanic)
# 그래프 나타내기
plt.show()
PassengerId 0
Pclass 0
Sex 0
Age 177
SibSp 0
Parch 0
Fare 0
Survived 0
dtype: int64
당뇨병
import pandas as pd
import matplotlib.pyplot as plt
db = pd.read_table('diabetes.csv', sep=',')
db.head()
print(db.isnull().sum())
db = db.dropna()
db.describe()
corr = db.corr(method='pearson')
corr = corr[corr.Outcome !=1]
corr['Outcome'].plot.bar()
Pregnancies 0
Glucose 0
BloodPressure 0
SkinThickness 0
Insulin 0
BMI 0
DiabetesPedigreeFunction 0
Age 0
Outcome 0
dtype: int64
어렵다...
반복해서 진행한다고 하시니깐 믿고 진행해 보자~
'교육 후기 > 스파르타코딩클럽_개발일지' 카테고리의 다른 글
주식 데이터를 활용한 파이썬 데이터 분석_3주차 개발일지 (0) | 2023.09.20 |
---|---|
주식 데이터를 활용한 파이썬 데이터 분석_2주차 개발일지 (0) | 2023.09.10 |
마케터, 기획자를 위한 실전 데이터 분석_1주차 개발일지 (0) | 2023.09.03 |
주식 데이터를 활용한 파이썬 데이터 분석_1주차 개발일지 (0) | 2023.09.03 |
댓글