日本語OCRサービスに必要なn個の項目

  • 画像をグレースケールor白黒化して行単位に切り出し
  • 文字を最小単位に文章として意味をなさない程度に切り分ける
    • 官公庁のPDF等、公開情報なら行単位の切り出し+適当な分量の分割でおk
    • 最低限文字1つずつは認識出来ないと苦しいか?
    • 英語対応のライブラリ等応用出来るか?
  • 最低2人以上の人間に読ませてテキストデータにする
    • 2人で一致すれば多分合ってる
    • 一致しない場合は更に読ませて多数決
    • 「読めない」等、テキストデータ以外の回答もあるべき?
  • その場で正誤判定(他人との回答異同)を出す
  • ↑なら提示される画像は人間毎に違う順番になるべき
  • 作業を任意に中断するためにランダムであるべき