プログラム wikipedia2xml.sf.net

  • wikipedia2XML 無料

    元のウィキペディアのデータベースバックアップダンプから XML コーパス (言語目的のテキストの大規模なコレクション) を作成して処理するための Python スクリプトのコレクション。MediaWiki マークアップ言語の正規表現ベースのパーサーが含まれています。