データ分析を始めるに当たってざっくりデータを理解する探索的データ分析のテンプレです
※データはKaggleのtitanicデータを利用しています
データテーブルの概要理解
データの中身を見る
TRAIN.head() #先頭一定行を表示
TRAIN.head(20) #先頭20行を表示
TRAIN.tail() #末尾一定行を表示
TRAIN.tail(20) #末尾20行を表示
TRAIN.sample(20) #ランダムに20行表示
データ量、型をみる
TRAIN = pd.read_csv('train.csv')
TRAIN.shape
#(891, 12)
「.shape」でデータフレームの行列(横・縦)の数を返してくれます。
この場合だと891行、12列となります。
TRAIN.info()
================================
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 PassengerId 891 non-null int64
1 Survived 891 non-null int64
2 Pclass 891 non-null int64
3 Name 891 non-null object
4 Sex 891 non-null object
5 Age 714 non-null float64
6 SibSp 891 non-null int64
7 Parch 891 non-null int64
8 Ticket 891 non-null object
9 Fare 891 non-null float64
10 Cabin 204 non-null object
11 Embarked 889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
「.info()」でデータフレームのカラム名とNullでないデータ数、データ型を表示
Nullが含まれていないかの確認
TRAIN.isnull().sum()
==========================
PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64
「.isnull()」でNullかどうかのTrue/Falseを作成し、「.sum()」でTrue(Null)の個数をカウントする。
Age,Cabin,Embarkedで欠損値が存在することがわかる