[ワード用] WordでOCRできる無料アドインの使い方 – 「Office-to-OCR for Word」

OCR

2020.01.06 2019.12.30

スポンサーリンク

Contents

1 どんなアドインか？
2 用途
3 どんな感じで文字認識するか？
4 ダウンロード
5 インストール
6 検出に向けたヒント・注意事項
- 6.1 ヒント
- 6.2 注意事項
7 準備 – OCR学習済みデータのダウンロード
8 使い方 – Wordに貼り付けた画像をOCRする
9 使い方 – クリップボードの画像をOCRする
10 使い方 – 外部の画像を開いてOCRする
11 使用結果 – 英語・中国語（簡体字と繁体字）・韓国語・ロシア語
12 まとめ

スポンサーリンク

どんなアドインか？

無料でフリーのWord用のアドインです。
Wordに貼り付けた画像でOCRが可能です。
外部の画像でもOCR可能です。
クリップボードにコピーした画像でもOCR可能です。(Windows標準のSnipping Toolとかで切り取ったPDFもOCR可能です。)
確認した言語では、英語、日本語、中国語（繁体字・簡体字）、韓国語、ロシア語でOCR可能。
OCR可能な言語としては、上記も含めて129言語程度でOCR可能です。
このアドイン(Office to OCR)はApache 2.0ライセンスで配布されている製作物が含まれています。

用途

特に想定はしていませんでしたが、以下のような用途があるかと思います。

入力作業の効率化
言語学習の効率化
論文執筆・英語論文引用の際の文字入力効率化
文字起こし作業の効率化
保存データの検索効率化

どんな感じで文字認識するか？

Wordに貼り付けた画像をクリック・選択して、OCRを行います。OCRの結果や、経過時間等を”OCR Prompt”と名付けたテキストボックスに表示します。認識した文字等は自由にコピペ可能です。

画像はここからダウンロードしてワードに貼り付けさせて頂きました。

　

ダウンロード

“Office to OCR Addin for Word v 1.0.0.0” をダウンロード Office-to-OCR_Addin_Word_v_1_0_0_0_.zip – 2430 回のダウンロード – 5 MB

インストール

インストールは以下のページを参照ください。

　

インストールが完了すると以下のようなタブがWord上に表示されます。

OCRタブで表示されるタブ (English UI)

　

OCRタブで表示されるタブ (English UI->ON/OFFしてください。)

　

検出に向けたヒント・注意事項

ヒント

画像倍率（拡大率）をデフォルトでx2.0に設定しています。これは、画像認識率を大きくするためです。たまに大きすぎて認識が悪くなる場合がありますが、x1.0設定などにしてください。

注意事項

少し長い文章になると、OCRの処理に時間がかかり、本体側（Word）が反応がなくなる場合があります。（非同期処理を用いたので、大丈夫かとおもっていましたが、思惑が外れたようです。解析・改良に時間はかかるかとおもいます。）

適宜しようしながら、適当な範囲でご使用ください。

準備 – OCR学習済みデータのダウンロード

ダウンロード直後は言語選択のLang.のデータがありませんので、ダウンロードを行う必要があります。このように言語を選択できません。(OCRグループ― Lang.の部分)

　

Trained Data (学習済み)をダウンロードします。 Trained Data のブロックのLang.で『英語』等をダウンロードしてください。テストのために、中国語繁体字、中国語簡体字、英語、日本語、韓国語、ロシア語をダウンロードします。

英語の言語名にしたいときは、English UIを試してみてください。

　

Lang.を選択して、”DownLoad”のボタンを押してください。

　

以下のようなメッセージが表示されると、ダウンロードが完了です。

　

学習済みデータのダウンロードが完了すると、以下の様にOCRのグループ側の”Lang.”(言語)が選択可能です。

　

色々とダウンロードしてみました。

ちなみに学習済みデータはここから自動でダウンロードしています。

　

使い方 – Wordに貼り付けた画像をOCRする

“Show OCR Prompt”(OCR パネル表示)のチェックを入れてください。

　

2. 貼り付けられた画像を選択してください（Wordの画像選択機能）。そして、OCRしたい言語を選択し、”Selected Image”ボタンを押すとOCRを開始します。

　

3. “OCR Prompt”パネルに結果が表示されます。そこから必要なテキストをコピーして、適当な部分に選択してください。

　

ちなみに、画像が選択されていない場合は、「Please Select one image object」のようなメッセージがPromptに表示されます。

　

使い方 – クリップボードの画像をOCRする

この機能は、PDFが画像化されており、文字を選択できないような場合に有効です。例えば、このリンクのPDFでは文字を選択できますが、できないものとして説明を行います。

Windows10のSnipping Toolで画面の一部を切り取り、これをコピします。（クリップボードに）

　

Lang.も忘れず選択し、メニューの「From Clipboard」「クリップボードから」をクリックしてください。

　

検出結果は以下のようになりました。実際にOCRしてみてください。

使い方 – 外部の画像を開いてOCRする

いい画像例がみつからなかったので、オバマ大統領の最後の演説のページを画像化しました。ここから画像化。

Lang.を英語で選択し、「From File」「ファイルを開く」をクリックしてください。画像選択画面が開きますので、保存した画像を開いてください。

　

ちょっと長い文でよくばりすぎたようで、時間がかかりました。非同期という内部処理のため、本体(Word)側に影響はないかと思っていたのですが、長い時間処理するような場合は、少しWord側が停止するようです。

下の方にエラーと出ていますが、特に影響はありません。（OCR欄のResultへの書き込みサイズが大きいためにエラーが発生したようです。そのうちこのメッセージを出ないように直しておきます。）

　

使用結果 – 英語・中国語（簡体字と繁体字）・韓国語・ロシア語

英語

このリンクより引用・ダウンロード。

日本語

このリンクより引用・ダウンロード。

ここより引用。

中国語（簡体字・繁体字）

大き過ぎると逆に誤検知するようです。（デフォルトの画像拡大率設定がx2.0になっているため。）　ここより引用。

画像拡大率を x1.0に変更すると正しく検知できています。

簡体字は少し同じ設定でも難しいようです。

韓国語

ここより引用。

ロシア語

ここより引用。『ロシア語　画像』で検索。

まとめ

日本語・英語・中国語（繁体字・簡体字）・韓国語・ロシア語も含めてOCR可能でした。精度はある程度よく検出できていました。いろいろな画像で試してみてください。

タイトルとURLをコピーしました