都道府県、市町村区の名前をDBへ
郵便番号データダウンロード - 日本郵便辺りだともっと細かい町字レベルの名称まで得られるはずだが、流石にそこまで細かいと
- 妖怪地図作りに使うには固有名詞などとの重複が増える
- そもそも町字まで限定された既述のある項目はそう多いとは思えない
という訳で市町村区までの名称があれば地名抽出には十分かと思われる。
CSV落す
統計局ホームページ/統計に用いる標準地域コードより「全国(CSV:103KB)」を落としてSQLiteへ取り込み。自分の場合は前にシェープファイルを扱ったspatialite-gui.exeを使って取り込み。Pupsqlite等にもCSV取り込みを補助する機能はあるので割愛。
MySQLでの取り込み
MySQLに取り込むのが理想だが、MySQL Workbenchには取り込みを補助する機能がないようなので横着してしまった。*1誰かそういう機能があるツール教えてください。
面倒がらずに取り込んだらやっぱりMySQLにまとめた方が便利だった。WikipediaダンプをSQLiteに取り込めればそっちにまとめるのもありだとは思いますが。
自分で作業した際ハマった点は以下2点。
- バックスラッシュは二重にする
- 取り込み元のCSVをUTF8にする際BOMを付けない
LOAD DATA INFILE "F:\\download\\20100825-020308_www.stat.go.jp.csv" INTO TABLE yokai_wiki.aacode FIELDS TERMINATED BY ',';
中身を見る
SELECT "tiiki-code" AS "tiiki-code", "ken-name" AS "ken-name", "sityouson-name1" AS "sityouson-name1", "sityouson-name3" AS "sityouson-name3" FROM "aacode"