教師情報を必要としないニュースページ群からのコンテンツ自動抽出

  • Twitter
  • Facebook
  • Yahoo!ブックマーク
  • Google ブックマーク
  • Delicious
  • livedoor クリップ
  • はてなブックマーク

document data

著者 吉田光男
発表日 2009-6-26
種別 学術雑誌論文 (Journal Article)
初出 日本データベース学会論文誌, vol.8, no.1, pp.29-34, 2009.
共著者 山本幹雄
著作 コピーライト
メタデータ XML

要約(サマリー)

近年のCMSの普及によりWebページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。
本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWebページ群からコンテンツを抽出する手法を提案する。本手法は、Webページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。

---
吉田光男, 山本幹雄. 教師情報を必要としないニュースページ群からのコンテンツ自動抽出. 日本データベース学会論文誌, Vol.8, No.1, pp.29-34, 2009.
---
本稿の著作権は日本データベース学会に帰属します。日本データベース学会論文誌の投稿規定に基づき転載しています。
---
このアルゴリズムを実装した「コンテンツ抽出 Perl モジュール ExtractUniqueBlock」を以下で公開しています。
http://www.mibel.cs.tsukuba.ac.jp/~ceekz/ExtractUniqueBlock/

参考文献目録

著書 :
blogの自動収集と監視
著者 :
南野朋之, 鈴木泰裕, 藤木稔明, 奥村学
出版 :
人工知能学会論文誌. vol.19, no.6.
発行日 :
2004
著書 :
The global structure of an HTML document
著者 :
Dave Raggett, Arnaud Le Hors and Ian Jacobs
出版 :
HTML 4.01 Specification
発行日 :
1999
著書 :
Automatic Identification of Informative Sections of Web Pages
著者 :
Sandip Debnath, Prasenjit Mitra, Nirmal Pal and C. Lee Giles
出版 :
IEEE Transactions on Knowledge and Data Engineering. vol.17, no.9.
発行日 :
2005
著書 :
Discovering Informative Content Blocks from Web Documents
著者 :
Shian-Hua Lin and Jan-Ming Ho
出版 :
Proceedings of ACM SIGKDD 2002
発行日 :
2002
著書 :
Primary Content Extraction with Mountain Model
著者 :
Lidong Bing, Yexin Wang, Yan Zhang and Hui Wang
出版 :
Proceedings of IEEE CIT 2008
発行日 :
2008
著書 :
We knew the web was big...
著者 :
Jesse Alpert and Nissan Hajaj
出版 :
Official Google Blog
発行日 :
2008
著書 :
Spidering hacks―ウェブ情報ラクラク取得テクニック101選
著者 :
Kevin Hemenway
出版 :
オライリー・ジャパン
発行日 :
2004-05
著書 :
HTMLラッパ自動構築手法の提案
著者 :
澤菜津美, 森嶋厚行, 杉本重雄, 北川博之
出版 :
日本データベース学会論文誌. vol.7, no.1.
発行日 :
2008

paper

コメント

ログイン もしくは 利用登録

トラックバック

トラックバックURL : トラックバックをする場合はここをクリック

埋め込み用ソース

ページトップへ