「日本の妖怪一覧」からリンクされたページIDを抽出
より正確な方法があったので追記。
pagelinksはWikipedia内部でのリンク情報を収めるテーブル。wikipediaから配布されているデータは1.6GBもある。下記のSQL文は日本の妖怪一覧からリンクされたページを表示するもの。カテゴリへのリンクは除いてある。
SELECT * FROM `wikidb`.`pagelinks` where pl_from = 127612/*「日本の妖怪一覧」*/ and pl_namespace = 0;
手動
mediawikiのデータ上では
テーブル名 | 中身 |
---|---|
wikidb.page | ページのID、ページタイトル |
wikidb.text | ページのID、本文(blob型) |
という構造になっているので、ひとまず日本の妖怪一覧 - Wikipediaから抽出したページタイトルでwikidb.pageからページのIDを抽出して別テーブルを作ってみる。
create table yokai_wiki.page as select * from wikidb.page where page_title = "アイヌカイセイ" OR page_title = "アイヌソッキ" OR page_title = "アイフラーマジムン" … OR page_title = "笑い女子" OR page_title = "笑い地蔵" OR page_title = "笑般若";