教師情報を必要としないWebページ群の主要コンテンツ自動抽出

  • Twitter
  • Facebook
  • Yahoo!ブックマーク
  • Google ブックマーク
  • Delicious
  • livedoor クリップ
  • はてなブックマーク

document data

著者 吉田光男
発表日 2009-6-17
種別 会議発表論文 (Conference Paper)
初出 第23回人工知能学会全国大会(JSAI2009)
共著者 山本幹雄
著作 コピーライト
メタデータ XML

要約(サマリー)

In recent years, the proportion of primary content in a Web page has been decreasing as content management systems (CMS's) continue to spread, because CMS's automatically and excessively add unnecessary parts such as advertisements, menus and copyright notices into the Web page.
We proposed a simple and training data-less method extracting the primary content from a collection of Web pages.
We regard a Web page as a set of blocks (minimum unit of primary or non-primary content), and assume that blocks of the primary content are unique and there are copies of those of non-primary content.
In this paper, we show the method is applicable to the primary content extraction from Japanese blog sites.

---
本稿の著作権は社団法人人工知能学会に帰属します。人工知能学会の許可を得て転載しています。

---
このアルゴリズムを実装した「コンテンツ抽出 Perl モジュール ExtractUniqueBlock」を以下で公開しています。
http://www.mibel.cs.tsukuba.ac.jp/~m.yoshida/ExtractUniqueBlock/

参考文献目録

paper

コメント

ログイン もしくは 利用登録

トラックバック

トラックバックURL : トラックバックをする場合はここをクリック

埋め込み用ソース

ページトップへ