pandasの覚え書き

Pocket

pandasのまとめ

pandasを使ってデータをこねくり回す時に、とりあえずこれだけは覚えておけばなんとかなるってやつを忘れないようにメモしておきますmm

読み込み編

csvの読み込み

pd.read_csv(file_name)
パラム 意味
header ヘッダの有無(デフォルトはtrue)
names ヘッダに名前をつける
delimiter 区切り文字(tsvの場合は \t)
delim_whitespace 空白文字をデリミターにする場合に使う
skiprows 先頭から何行スキップするか
skipfooter 末尾から何行スキップするか

テキストファイル(tsv)の読み込み

pd.read_table(file_name)

抽出編

カラム指定で抽出

df[['column1', 'column2'] ]

条件指定で抽出

df.query(condition)

もしくは

df[df.column == 'hoge']

行列へのアクセス

df.ix[0, 1]
df.iloc[0, 1]
df.loc[0, 1]

* ixやilocは、カラム数だが、locはカラム名

スライス(row,col)

df.ix[0:1, 0:1]
df.iloc[0:1, 0:1]

rowが全ての場合

df.ix[:, 0:1]
df.iloc[:, 0:1]

colが全ての場合

df.ix[0:1, :]
df.iloc[0:1, :]

加工編

昇順でソート

df.sort('column')

降順でソート

df.sort('column', ascending=False)

結合(縦方向)

pd.concat([df1, df2], axis=0)

結合(列追加)

pd.concat([df1, df2], axis=1)

行列の反転

df.T

集計編

列方向の合計

df['column'].sum(axis=0)

行方向の合計

df['column'].sum(axis=0)

グルーピング

df.groupby('column')

その他便利なもの

次元数の確認

df.shape

カラムと型の確認

df.info()

基本統計量の確認

df.describe()

Pocket

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>