項目名から本文に含む地名

それなりに形になってきた妖怪地図の地図データ作成の続き。Rubyで本文データ中の地名を抽出してCSV化、MySQLのテーブルに収めたのを項目名と突き合わせる。

SQL

select page_title, `ken-name`, `tiiki-code`, `sityouson-name1`, `sityouson-name3`, old_id 
from yokai_wiki.aacode, yokai_wiki.location_names, yokai_wiki.revision, yokai_wiki.page
where aac = `tiiki-code` and old_id = rev_text_id and rev_id = page_latest

結果の一部

抽出対象にするページ選定が大雑把なので手塚治虫とか「妖怪そのもの」ではない項目も相当数混じってますが、ひとまず地名の抽出はきちんとできている模様。

page_title	ken-name	tiiki-code	sityouson-name1	sityouson-name3	old_id	
手塚治虫	東京都	13000			31161681	
手塚治虫	東京都	13101		千代田区	31161681	
手塚治虫	東京都	13104		新宿区	31161681	
手塚治虫	東京都	13116		豊島区	31161681	
…(中略)…
ツチノコ	北海道	1000			30367417	
ツチノコ	山形県	6000			30367417	
ツチノコ	山形県	6360	最上郡		30367417	
ツチノコ	山形県	6365	最上郡	大蔵村	30367417	
ツチノコ	茨城県	8000			30367417	
ツチノコ	茨城県	8203		土浦市	30367417	
ツチノコ	千葉県	12000			30367417	
…(略)