ペーパーレス化が進み、多くの企業がAI-OCRを導入し、RPAと組み合わせることで多くの業務が自動化されました。しかし、AI-OCRの読取精度が低いことでRPAの稼働が不安定と感じているご担当者様は少なくありません。
今回はその原因と改善策をご紹介します。
目次
AI-OCRを使用した業務のRPAがうまく動かない原因は?
冒頭でも書いてあるように、多くの企業がAI-OCRとRPAを両方導入し、組み合わせて利用することで自動化の可能性を広げています。
しかし、通常のRPAより、AI-OCRと組み合わせたRPAは比較的にエラーが発生しやすいといった話をよく聞きます。
主な原因として以下の2つが挙げられます。
- AI-OCRの読取精度が低いため、RPAで処理する際にデータ不備のエラーが起きる
- 読取精度について、読替ロジックで対応する/人間の目視で対応するという線引きができていない
今回の記事では、上記2つの原因の改善策を事例と共に紹介したいと思います。
読取精度を向上させるポイント
AI-OCRの読取精度を本質的に上げるにはメーカー側での対応になりますが、利用する側でのドキュメント調整や読取の設定を工夫することによって、読取精度を高くすることは可能です。
私が支援したクライアントでは以下のような方法で読取精度を上げるための工夫をしました。
- ノイズを除去する
- AI-OCRは小さなドットでも文字として認識してしまいます。鮮明な画像データを生成できるスキャナを利用することをお勧めします。
- 画像データをモノクロにする
- 文字のコントラストがわかりやすくなるので文字つぶれなどの防止になります。
- テキスト抽出に適したスキャナーソフトウェアを利用する
- 紙媒体を画像データにする際にAI-OCRがテキストを抽出しやすい補正をすることで読み取り精度がUPします。
- 補正の例) 文字のコントラスト調整、用紙サイズ、傾き、用紙の向き(縦・横)
利用されるAI-OCRのツールにもよりますが、私が担当したプロジェクトでは上記3点の対応を行うことで、一部のドキュメントの読取精度がほぼ100%まで近づくことができました。
読取精度をカバーする読替ロジックとは
AIの学習機能で読取精度は向上していますが、読取精度を100%にすることは現実的ではありません。そのため、AI-OCRを使用した業務を自動化する際にはロボットに読取精度をカバーする読替ロジックが必要になります。
具体的に過去弊社で対応した事例をご紹介いたします。
事例:AI-OCRにて処理対象のPDFをCSVデータに変換する
- 業務の自動化手順
- フォルダ内のPDFを1件ずつAI-OCRで読み取る
- 読取結果を確認
- 読取がエラーの場合、メールを送信し、次のPDFの読取処理を実施
- 読取が正常終了した場合、PDFを処理済みフォルダへ移動
- CSVデータを出力し、対象のPDFがなくなるまで①から処理を行う
- 出力したCSVデータのあらかじめわかっている誤読や文字化けを修正
上記工程の⑥に当たる処理がデータの読替ロジックとなっています。
読替ロジック内で実施している処理は、以下のデータ内に想定されている誤読があった場合、正規表現に修正するといった処理となります。
データ内容 | 考えられる誤読の例 | 正規表現 |
数値 | 「o(小文字のオー)」「O(大文字のオー)」 | 0(数字) |
数値 | 「i (小文字のアイ)」「I(大文字のアイ)」「l(小文字のエル)」など | 1(数字) |
数値 | 「ち(ひらがな)」 | 5(数字) |
テキスト・数値 | 「.(全角ドット)」「・(黒丸)」「、(読点)」などの記号 | 削除 |
当然、全ての誤読のパターンについて読替が可能なわけではありませんが、目視確認プロセスで修正しなければならない作業量を減らすプロセスをRPAに組み込むことでチェック作業および修正作業に係る工数を削減することができました。
繰り返しになりますが、どんなAI-OCRでも読取精度を100%にすることは現実的ではありません。その中でどのように後続プロセスの負担を軽減できるのかということが業務プロセスを自動化する上では重要なポイントになってきます。
どうしたら効率的に業務プロセスを自動化できるのかお悩みの方はお気軽に弊社までご相談ください。
ペネトレイター株式会社 阿多