村上醍醐です。
特に仕事をしていて、PDFや画像ファイルから文字起こししたいなと思うことがしばしばあります。
そんなとき、会社の複合機のOCR機能を使ってもいいのですが、手間もかかるし精度もちょっとイマイチだったりします。手打ちなんてミスの元、もってのほかです。
そんなときにオススメなのが「Google ドキュメント」。簡単かつすぐに文字起こし出来てしまいます。
今日はそのやり方を紹介します。
やり方
Google ドキュメントを使います。今回はPCの手順です。
なお、Google ドライブでも大丈夫です。今回はGoogle ドライブの画面で解説します。
- Google ドキュメント(ドライブ)上に文字起こししたい元のPDF、画像ファイル等をアップロード(ドラッグアンドドロップでもできます)
- 文字起こししたいファイル上で右クリック
- アプリを開く
- Google ドキュメント
- 数秒待つ
これだけです。
簡単ですよね?
変換結果
気になるのはその精度。
今回は青空文庫から「走れメロス」の冒頭部分をキャプチャしてJPGファイルにしました。これを文字起こししてみた結果が下記です。
画像の下に、OCR機能で解析された文書が表示されます。
ふりがな部分までしっかりと、認識されているのがわかります。
文章を読んでみても、ほぼ100%の精度です。これは素晴らしいですね。
このあと縦書きの文書も試してみましたが、こちらもほぼ100%の精度でした。
苦手なもの
ただし、なんでも変換できるのではなく、文字が滲んでいたり、手書きの文字の解析は難しいようです。
また、元のフォントによっては、中国語フォントに変換される漢字も散見されました。
このあたりは、8割を機械に任せて、後の2割を人の手で補填してあげる考えでいけばよいでしょう。
まとめ
Google ドキュメントなら、たったの5ステップ、1分足らずで、PDFや画像ファイルから文字起こしができます。
周囲に聞いてみると、知らない人がかなり多かったので紹介してみました。
こういったテクニックでみなさんのお役に少しでも立てれば幸いです。