Pandasでデータラングリングでよく使うもの

github.com

import pandas as pd

df1 = pd.read_excel("URL", sheet_name=0, header=None)

# Excelないとき
df1.to_csv("data.tsv", sep="\t")

# 行カウント確認
df1.notnull().sum(axis=0)

# 列カウント確認
df1.notnull().sum(axis=1)

# テキスト埋め
df1.iloc[行, 列] = "テキスト"

# テキスト絞り込み
df2 = df1.loc[df1.notnull().sum(axis=1) > 2, df1.notnull().sum() > 2].copy()

# 下方向
df2.fillna(method="ffill", inplace=True)

# 右方向
df2.fillna(method="ffill", axis=1, inplace=True)

# 行削除
df2.drop("行名", inplace=True)

# 列削除
df2.drop("列名", axis=1, inplace=True)