
| 著者 | 吉田光男 |
|---|---|
| 発表日 | 2009-6-26 |
| 種別 | 学術雑誌論文 (Journal Article) |
| 初出 | 日本データベース学会論文誌, vol.8, no.1, pp.29-34, 2009. |
| 共著者 |
山本幹雄 |
| 著作 | コピーライト |
| メタデータ | XML |
近年のCMSの普及によりWebページにメニューや広告、著作権表示などが過剰に付加され、ページに占めるコンテンツ(主要部分)は縮小している。
本論文では、事前に教師情報を準備する必要のない単純なアルゴリズムでWebページ群からコンテンツを抽出する手法を提案する。本手法は、Webページをブロック(コンテンツ及び不要部分の最小単位)の集合であると考え、ある特定のページにのみ出現するブロックはコンテンツであるという単純なアイデアが基になっている。また、本手法のアルゴリズムを実装したソフトウェアを用いて実験を行い、Web上に存在する日英のニュースページに対して高いコンテンツ抽出性能があることを示す。
---
吉田光男, 山本幹雄. 教師情報を必要としないニュースページ群からのコンテンツ自動抽出. 日本データベース学会論文誌, Vol.8, No.1, pp.29-34, 2009.
---
本稿の著作権は日本データベース学会に帰属します。日本データベース学会論文誌の投稿規定に基づき転載しています。
---
このアルゴリズムを実装した「コンテンツ抽出 Perl モジュール ExtractUniqueBlock」を以下で公開しています。
http://www.mibel.cs.tsukuba.ac.jp/~ceekz/ExtractUniqueBlock/


トラックバックURL : トラックバックをする場合はここをクリック
licensed under a