「日本の妖怪一覧」からリンクされたページIDを抽出

より正確な方法があったので追記。

pagelinksはWikipedia内部でのリンク情報を収めるテーブル。wikipediaから配布されているデータは1.6GBもある。下記のSQL文は日本の妖怪一覧からリンクされたページを表示するもの。カテゴリへのリンクは除いてある。

SELECT * FROM `wikidb`.`pagelinks` 
where pl_from = 127612/*「日本の妖怪一覧」*/
and pl_namespace = 0;

手動

mediawikiのデータ上では

テーブル名 中身
wikidb.page ページのID、ページタイトル
wikidb.text ページのID、本文(blob型)

という構造になっているので、ひとまず日本の妖怪一覧 - Wikipediaから抽出したページタイトルでwikidb.pageからページのIDを抽出して別テーブルを作ってみる。

create table yokai_wiki.page as 
select * from wikidb.page where page_title = "アイヌカイセイ"
OR page_title = "アイヌソッキ"
OR page_title = "アイフラーマジムン"OR page_title = "笑い女子"
OR page_title = "笑い地蔵"
OR page_title = "笑般若";