都道府県、市町村区の名前をDBへ

郵便番号データダウンロード - 日本郵便辺りだともっと細かい町字レベルの名称まで得られるはずだが、流石にそこまで細かいと

  1. 妖怪地図作りに使うには固有名詞などとの重複が増える
  2. そもそも町字まで限定された既述のある項目はそう多いとは思えない

という訳で市町村区までの名称があれば地名抽出には十分かと思われる。

CSV落す

統計局ホームページ/統計に用いる標準地域コードより「全国(CSV:103KB)」を落としてSQLiteへ取り込み。自分の場合は前にシェープファイルを扱ったspatialite-gui.exeを使って取り込み。Pupsqlite等にもCSV取り込みを補助する機能はあるので割愛。

MySQLでの取り込み

MySQLに取り込むのが理想だが、MySQL Workbenchには取り込みを補助する機能がないようなので横着してしまった。*1誰かそういう機能があるツール教えてください。

MYSQL CSVファイル入出力

面倒がらずに取り込んだらやっぱりMySQLにまとめた方が便利だった。WikipediaダンプをSQLiteに取り込めればそっちにまとめるのもありだとは思いますが。

自分で作業した際ハマった点は以下2点。

  1. バックスラッシュは二重にする
  2. 取り込み元のCSVをUTF8にする際BOMを付けない
LOAD DATA INFILE "F:\\download\\20100825-020308_www.stat.go.jp.csv" INTO TABLE yokai_wiki.aacode
FIELDS TERMINATED BY ',';

中身を見る

SELECT "tiiki-code" AS "tiiki-code", "ken-name" AS "ken-name",
    "sityouson-name1" AS "sityouson-name1", "sityouson-name3" AS "sityouson-name3"
FROM "aacode"

*1:SQLを自分で書いて取り込む事はできたはず。あまりきちんと調べていない