document data

著者 吉田光男
発表日 2009-3-8
種別 会議発表論文 (Conference Paper)
初出 第1回データ工学と情報マネジメントに関するフォーラム(DEIM2009)
共著者 山本幹雄
著作 コピーライト
メタデータ XML

要約(サマリー)

近年のCMSの普及により、Webページにメニューや著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。Webページのコンテンツを抽出することができれば、Web検索システム、携帯電話向けのWebページ変換システム、コンテンツフィルタリングシステムなどの精度向上、また、Webページを利用する研究を促すことが期待できる。
本論文では、事前に教師データを準備する必要のないシンプルなアルゴリズムでWebページ群からコンテンツを抽出する手法を提案する。提案手法は、Webページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるというシンプルなアイデアが基になっている。また、本研究のアルゴリズムを実装したソフトウェアを用いて、Web上に存在するニュースページからコンテンツを抽出した実験結果について報告する。

---
このアルゴリズムを実装した「コンテンツ抽出 Perl モジュール ExtractUniqueBlock」を以下で公開しています。
http://www.mibel.cs.tsukuba.ac.jp/~m.yoshida/ExtractUniqueBlock/

参考文献目録

paper

コメント

ログイン もしくは 利用登録

トラックバック

トラックバックURL : トラックバックをする場合はここをクリック

埋め込み用ソース

ページトップへ