Python

Pandasの基本的な使い方を覚えよう! – よく使うコマンドたち

みなさん、こんにちは。どんぶラッコです。

みなさんはPandas、使ったことがありますか?

Pythonなどでデータを取り扱うときに多用されるライブラリですね。

ただ、データサイエンティストのように普段からPandasを使ってないときには「どのように使うんだっけ?」とついつい使い方を忘れてしまいがちですよね。

そこで、今回はよく使うPythonのコマンドまとめを作成してみました!

みなさんの学習にぜひお役立てください♪

Pandasの宣言・定義

Pandasをインポートする

import pandas as pd

CSVファイルを読み込む

Python, Jupyter Notebook で読み込む場合

df = pd.read_csv('test.csv')

Collaboratoryで読み込む場合

driveをマウントすることで、Google Driveの情報をインポートすることができます。

その場合、インポートする時には engine="python" を指定しましょう。C言語エンジンで動かす場合は日本語が読み込めずにエラーになってしまいます。

from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('test.csv', engine = "python")

また、PandasにはSeriesとDataframeという考え方があります。

Series の集合体がDataframeです。

探索的データ解析

全体感の理解

# データの先頭を表示
df.head()
# データの末尾を表示
df.tail()

データの先頭(末尾)のデータを表示。引数を指定しなければ5行表示されます。

集計

df.shape
# (行, 列)

個数の把握(欠損の有無)

# データの個数
df.count()

# 欠損値のサマリ
df.isnull().sum()

基準の発見

df.describe()

基準となる値(平均値、中央値、最大値、最小値、分散、標準偏差、ユニークなど)を調べる


ここまでできたら次は可視化ですね!matplotlibなどを使っていきましょう。

その記事はまた後日公開します♪