AI-OCRを使用した業務をRPAで安定稼働させるために必要なこと

ペーパーレス化が進み、多くの企業がAI-OCRを導入し、RPAと組み合わせることで多くの業務が自動化されました。しかし、AI-OCRの読取精度が低いことでRPAの稼働が不安定と感じているご担当者様は少なくありません。

今回はその原因と改善策をご紹介します。

AI-OCRを使用した業務のRPAがうまく動かない原因は？

冒頭でも書いてあるように、多くの企業がAI-OCRとRPAを両方導入し、組み合わせて利用することで自動化の可能性を広げています。

しかし、通常のRPAより、AI-OCRと組み合わせたRPAは比較的にエラーが発生しやすいといった話をよく聞きます。

主な原因として以下の2つが挙げられます。

今回の記事では、上記2つの原因の改善策を事例と共に紹介したいと思います。

AI-OCRの読取精度を本質的に上げるにはメーカー側での対応になりますが、利用する側でのドキュメント調整や読取の設定を工夫することによって、読取精度を高くすることは可能です。

私が支援したクライアントでは以下のような方法で読取精度を上げるための工夫をしました。

ノイズを除去する
- AI-OCRは小さなドットでも文字として認識してしまいます。鮮明な画像データを生成できるスキャナを利用することをお勧めします。
画像データをモノクロにする
- 文字のコントラストがわかりやすくなるので文字つぶれなどの防止になります。
テキスト抽出に適したスキャナーソフトウェアを利用する
- 紙媒体を画像データにする際にAI-OCRがテキストを抽出しやすい補正をすることで読み取り精度がUPします。
- 補正の例)　文字のコントラスト調整、用紙サイズ、傾き、用紙の向き（縦・横）

利用されるAI-OCRのツールにもよりますが、私が担当したプロジェクトでは上記3点の対応を行うことで、一部のドキュメントの読取精度がほぼ100%まで近づくことができました。

AIの学習機能で読取精度は向上していますが、読取精度を100％にすることは現実的ではありません。そのため、AI-OCRを使用した業務を自動化する際にはロボットに読取精度をカバーする読替ロジックが必要になります。

具体的に過去弊社で対応した事例をご紹介いたします。

業務の自動化手順
1. フォルダ内のPDFを1件ずつAI-OCRで読み取る
2. 読取結果を確認
3. 読取がエラーの場合、メールを送信し、次のPDFの読取処理を実施
4. 読取が正常終了した場合、PDFを処理済みフォルダへ移動
5. CSVデータを出力し、対象のPDFがなくなるまで①から処理を行う
6. 出力したCSVデータのあらかじめわかっている誤読や文字化けを修正

上記工程の⑥に当たる処理がデータの読替ロジックとなっています。

読替ロジック内で実施している処理は、以下のデータ内に想定されている誤読があった場合、正規表現に修正するといった処理となります。