Contents
どんなアドインか?
- 無料でフリーのWord用のアドインです。
- Wordに貼り付けた画像でOCRが可能です。
- 外部の画像でもOCR可能です。
- クリップボードにコピーした画像でもOCR可能です。(Windows標準のSnipping Toolとかで切り取ったPDFもOCR可能です。)
- 確認した言語では、英語、日本語、中国語(繁体字・簡体字)、韓国語、ロシア語でOCR可能。
- OCR可能な言語としては、上記も含めて129言語程度でOCR可能です。
- このアドイン(Office to OCR)はApache 2.0ライセンスで配布されている製作物が含まれています。
用途
特に想定はしていませんでしたが、 以下のような用途があるかと思います。
- 入力作業の効率化
- 言語学習の効率化
- 論文執筆・英語論文引用の際の文字入力効率化
- 文字起こし作業の効率化
- 保存データの検索効率化
どんな感じで文字認識するか?
Wordに貼り付けた画像をクリック・選択して、OCRを行います。OCRの結果や、経過時間等を”OCR Prompt”と名付けたテキストボックスに表示します。認識した文字等は自由にコピペ可能です。
![](https://office-fun.com/wp-content/uploads/2019/12/041_使い方と結果_02_日本語-1-1024x496.png)
ダウンロード
インストール
インストールは以下のページを参照ください。
インストールが完了すると以下のようなタブがWord上に表示されます。
![](https://office-fun.com/wp-content/uploads/2019/12/011_Word起動-メニュー-1024x160.png)
![](https://office-fun.com/wp-content/uploads/2019/12/011_Word起動-メニュー_日本語も用意-1024x153.png)
検出に向けたヒント・注意事項
ヒント
画像倍率(拡大率)をデフォルトでx2.0に設定しています。これは、画像認識率を大きくするためです。たまに大きすぎて認識が悪くなる場合がありますが、x1.0設定などにしてください。
注意事項
少し長い文章になると、OCRの処理に時間がかかり、本体側(Word)が反応がなくなる場合があります。(非同期処理を用いたので、大丈夫かとおもっていましたが、思惑が外れたようです。解析・改良に時間はかかるかとおもいます。)
適宜しようしながら、適当な範囲でご使用ください。
準備 – OCR学習済みデータのダウンロード
ダウンロード直後は言語選択のLang.のデータがありませんので、ダウンロードを行う必要があります。このように言語を選択できません。(OCRグループ― Lang.の部分)
![](https://office-fun.com/wp-content/uploads/2019/12/012_インストール直後は言語毎の学習データがない.png)
Trained Data (学習済み)をダウンロードします。 Trained Data のブロックのLang.で『英語』等をダウンロードしてください。テストのために、中国語 繁体字、中国語 簡体字、英語、 日本語、韓国語、ロシア語をダウンロードします。
英語の言語名にしたいときは、English UIを試してみてください。
![](https://office-fun.com/wp-content/uploads/2019/12/013_使用したい言語を選ぶ-897x1024.png)
Lang.を選択して、”DownLoad”のボタンを押してください。
![](https://office-fun.com/wp-content/uploads/2019/12/014_使用したい言語を選ぶ-選んだ状態.png)
以下のようなメッセージが表示されると、ダウンロードが完了です。
![](https://office-fun.com/wp-content/uploads/2019/12/015_ダウンロード完了.png)
学習済みデータのダウンロードが完了すると、以下の様にOCRのグループ側の”Lang.”(言語)が選択可能です。
![](https://office-fun.com/wp-content/uploads/2019/12/016_ダウンロード完了.png)
色々とダウンロードしてみました。
![](https://office-fun.com/wp-content/uploads/2019/12/017_ダウンロード完了_ひとまず.png)
ちなみに学習済みデータはここから自動でダウンロードしています。
使い方 – Wordに貼り付けた画像をOCRする
- “Show OCR Prompt”(OCR パネル表示)のチェックを入れてください。
![](https://office-fun.com/wp-content/uploads/2019/12/021_使い方1_OcrPrompt_1-1024x733.png)
2. 貼り付けられた画像を選択してください(Wordの画像選択機能)。そして、OCRしたい言語を選択し、”Selected Image”ボタンを押すとOCRを開始します。
![](https://office-fun.com/wp-content/uploads/2019/12/021_使い方1_OcrPromptを開く-_2-1024x501.png)
3. “OCR Prompt”パネルに結果が表示されます。そこから必要なテキストをコピーして、適当な部分に選択してください。
![](https://office-fun.com/wp-content/uploads/2019/12/023_使い方と結果-1024x333.png)
ちなみに、画像が選択されていない場合は、「Please Select one image object」のようなメッセージがPromptに表示されます。
![](https://office-fun.com/wp-content/uploads/2020/01/024_使い方と結果_何も選んでいない場合-1024x537.png)
![](https://office-fun.com/wp-content/uploads/2020/01/024_使い方と結果_何も選んでいない場合-1.png)
使い方 – クリップボードの画像をOCRする
この機能は、PDFが画像化されており、文字を選択できないような場合に有効です。例えば、このリンクのPDFでは文字を選択できますが、できないものとして説明を行います。
![](https://office-fun.com/wp-content/uploads/2019/12/100_PDFクリップボード_日本語-1024x695.png)
Windows10のSnipping Toolで画面の一部を切り取り、これをコピします。(クリップボードに)
![](https://office-fun.com/wp-content/uploads/2020/01/101_PDFクリップボード_日本語-1024x430.png)
Lang.も忘れず選択し、メニューの「From Clipboard」「クリップボードから」をクリックしてください。
![](https://office-fun.com/wp-content/uploads/2020/01/102_メニュー.png)
検出結果は以下のようになりました。実際にOCRしてみてください。
![](https://office-fun.com/wp-content/uploads/2020/01/103_検出結果-1024x153.png)
![](https://office-fun.com/wp-content/uploads/2020/01/102_検出-1024x721.png)
使い方 – 外部の画像を開いてOCRする
いい画像例がみつからなかったので、オバマ大統領の最後の演説のページを画像化しました。ここから画像化。
![](https://office-fun.com/wp-content/uploads/2020/01/151_obama.png)
Lang.を英語で選択し、「From File」「ファイルを開く」をクリックしてください。画像選択画面が開きますので、保存した画像を開いてください。
![](https://office-fun.com/wp-content/uploads/2020/01/152_メニュー.png)
ちょっと長い文でよくばりすぎたようで、時間がかかりました。非同期という内部処理のため、本体(Word)側に影響はないかと思っていたのですが、長い時間処理するような場合は、少しWord側が停止するようです。
下の方にエラーと出ていますが、特に影響はありません。(OCR欄のResultへの書き込みサイズが大きいためにエラーが発生したようです。そのうちこのメッセージを出ないように直しておきます。)
![](https://office-fun.com/wp-content/uploads/2020/01/154_検出結果_ファイルから-1024x276.png)
使用結果 – 英語・中国語(簡体字と繁体字)・韓国語・ロシア語
英語
このリンクより引用・ダウンロード。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_01_英語-1024x333.png)
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_03_英語-1024x516.png)
日本語
このリンクより引用・ダウンロード。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_02_日本語-1024x496.png)
ここより引用。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_04_日本語-1024x546.png)
中国語(簡体字・繁体字)
大き過ぎると逆に誤検知するようです。(デフォルトの画像拡大率設定がx2.0になっているため。) ここより引用。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_06_台湾・繁体字・誤検知-1024x558.png)
画像拡大率を x1.0に変更すると正しく検知できています。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_07_台湾・繁体字・正解-1024x567.png)
簡体字は少し同じ設定でも難しいようです。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_08_中国・簡体字・正解-1024x540.png)
韓国語
ここより引用。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_05_韓国語-1024x561.png)
ロシア語
ここより引用。『ロシア語 画像』で検索。
![](https://office-fun.com/wp-content/uploads/2020/01/041_使い方と結果_11_ロシア語語-1024x785.png)
まとめ
日本語・英語・中国語(繁体字・簡体字)・韓国語・ロシア語も含めてOCR可能でした。精度はある程度よく検出できていました。いろいろな画像で試してみてください。