フォルダ内の同じ形式のcsvファイルをすべて結合し、1つcsvにまとめて出力する。
データ分析の実務では分析対象のデータがCSVファイルで特定のフォルダ内に格納されている事が多い。手作業でEXCELファイルにまとめるには時間がかかってしまうのでPythonを使って簡単にデータを纏める方法をご紹介
コード
import pandas as pd
import glob
from tqdm import tqdm
dir = 'C:/hogehoge/hogehoge/' #結合対象のフォルダを指定してください
files = glob.glob(dir + '*.csv')
DATA = pd.DataFrame()
for file in tqdm(files):
DF = pd.read_csv(file)
DATA = pd.concat([DATA, DF], axis=0)
DATA = DATA.reset_index(drop=True)
DATA.to_csv('margeDATA.csv')
補足
files = glob.glob(dir + '*.csv')
glob.globで対象フォルダ内のファイルを検索。
「*」はワイルドカードのため、対象フォルダ内に含まれる「.csv」ファイルのファイルパスをリスト形式で返す。
for file in tqdm(files):
複数ファイルを処理する際にtqdmを利用すると進捗が表示されるため対象ファイル数が多い際に便利。
逆に大量のデータのCSVを分割する方法もありますのでご参考まで。