介護給付費単位数等サービスコード表 https://www.city.okegawa.lg.jp/material/files/group/23/code_mittuchaku.pdf
をPDFからCSVに変換しようと試していたらpdfminerでテキスト抽出できない
pdfminerのときからテキストが抽出できないのでcamelotもだめ
TrueRoad さんにお聞きしたところ
フォントが埋め込まれてないみたいですね
— TrueRoad (@trueroad_jp) 2021年4月1日
代替表示できるフォントが無い環境だと表示できないと思います
テキスト抽出もいろいろ条件揃わないと厳しいと思います
フォントがないとpdfminerがテキスト抽出してくれないみたいなのでとりあえずフォントを埋め込みしてみる
Acrobatから印刷でフォント追加は見つかるのですが
Acrobatは持ってないので別の方法で
https://t.co/oQ975BV4uI
— IMABARI ZINE (@imabarizine) 2021年4月1日
代替フォントがないとテキスト抽出もできないようなのでフォント埋め込んでみる
埋め込みサブセットになってないのでフォントがないのを確認
PDFを一度開いて印刷「Gaaiho PDF」ですべてのフォントを埋め込む
でフォント埋め込むとテキスト抽出できました pic.twitter.com/fy1fzcs7sc
JUSTPDF4から印刷でJUST PDFでフォント埋め込みを選んでいてもフォント追加してくれない
Gaaiho PDFだとすべてのフォントを埋め込むでフォント追加可能でした
フォント埋め込み後にテキスト抽出するとpdfminerでもテキスト抽出可能になりました