面倒な作業が秒速で終わる！PDFの文字を読み取ってExcelに変換する方法

2020.10.16PR

ビジネス

【短期集中連載】〈第4回〉PDFの文字を読み取ってExcelに変換するプログラム実例

『めんどうな作業が秒速で終わる！ Excel×Python自動化の超基本』（宝島社）の著者である伊沢剛さんに、事務作業を劇的に時短化するExcel×Pythonのすごさを解説していただく本連載。

最終回となる第４回は、PDFファイルにある文字を読み取り、Excelに変換するプログラムを紹介！ PDFファイルの内容を加工したいときにとても便利です。

第1回はこちら
第2回はこちら
第3回はこちら

PDFの文字もプログラムで読み取れる！

取引先などから送ってもらったPDFの内容を、自分のところで加工したい……「加工できるデータをください」と言いづらいときや急いでいるとき、どうすればいいものか困ってしまいますよね。

みなさん仕方なく、PDFを目視で手打ちしてWordやExcelに転記しているのではないでしょうか。

しかし、このようなやり方では非効率ですし、ミスが発生することは必至。ところがPythonを使えば、PDF内にある文字データを読み取ってExcelファイルに書き出すことが可能です。

今回は、次のような「旅行スケジュール.pdf」を読み取り対象にしてみましょう。当然、このままでは文字データを加工することはできません。

このPDFをフォルダに収納したデータで、以下のようなPythonプログラムを動かします。

PDFファイル内の表をExcelに取り込むプログラム

#2020/8/30 伊沢　剛
import pandas as pd
import camelot.io as camelot
#pdfファイルを読み込む
table = camelot.read_pdf(“旅行スケジュール.pdf”)
lists = [] #一時保存用リスト
for t in table:
lists.append(t.df)
df = pd.concat(lists) #データフレームを結合
# excelファイルへ出力
with pd.ExcelWriter(“outFile.xlsx”) as writer:
df.to_excel(writer, sheet_name=’sheet1′, index=False, header=False)