項目名から本文に含む地名
それなりに形になってきた妖怪地図の地図データ作成の続き。Rubyで本文データ中の地名を抽出してCSV化、MySQLのテーブルに収めたのを項目名と突き合わせる。
SQL文
select page_title, `ken-name`, `tiiki-code`, `sityouson-name1`, `sityouson-name3`, old_id from yokai_wiki.aacode, yokai_wiki.location_names, yokai_wiki.revision, yokai_wiki.page where aac = `tiiki-code` and old_id = rev_text_id and rev_id = page_latest
結果の一部
抽出対象にするページ選定が大雑把なので手塚治虫とか「妖怪そのもの」ではない項目も相当数混じってますが、ひとまず地名の抽出はきちんとできている模様。
page_title ken-name tiiki-code sityouson-name1 sityouson-name3 old_id 手塚治虫 東京都 13000 31161681 手塚治虫 東京都 13101 千代田区 31161681 手塚治虫 東京都 13104 新宿区 31161681 手塚治虫 東京都 13116 豊島区 31161681 …(中略)… ツチノコ 北海道 1000 30367417 ツチノコ 山形県 6000 30367417 ツチノコ 山形県 6360 最上郡 30367417 ツチノコ 山形県 6365 最上郡 大蔵村 30367417 ツチノコ 茨城県 8000 30367417 ツチノコ 茨城県 8203 土浦市 30367417 ツチノコ 千葉県 12000 30367417 …(略)