日本語OCRサービスに必要なn個の項目
- 画像をグレースケールor白黒化して行単位に切り出し
- 文字を最小単位に文章として意味をなさない程度に切り分ける
- 官公庁のPDF等、公開情報なら行単位の切り出し+適当な分量の分割でおk
- 最低限文字1つずつは認識出来ないと苦しいか?
- 英語対応のライブラリ等応用出来るか?
- 最低2人以上の人間に読ませてテキストデータにする
- 2人で一致すれば多分合ってる
- 一致しない場合は更に読ませて多数決
- 「読めない」等、テキストデータ以外の回答もあるべき?
- その場で正誤判定(他人との回答異同)を出す
- ↑なら提示される画像は人間毎に違う順番になるべき
- 作業を任意に中断するためにランダムであるべき