honda b
- 6. Webサイトの特徴ベクトルの構築
• htmlのソースを解析することによって、正確に抽出できる以下の特徴を抽出
• それぞれの特徴をカテゴリごとに正規化
page: Webページ数
depth: Webサイトの深さ
inlink: ページ内リンク数
outlink: ページ外リンク数
image: 画像数
audio: 音楽・動画ファイル数
pdf: pdfファイル数
cgi: cgiファイル数
css: スタイルシート数
tag: タグ数
char: 文字数
tel: 電話番号数
mail: メールアドレス数
size: ページサイズ(bites)
特徴ベクトル F=(page,depth,inlink,outlink,image,audio,pdf,cgi,css,tag,char,tel,mail,size)
Webサイト
ページ内リンク
ページ外リンク
他のWebサイトのWebページ
Web
ページ
深さ
リンク構造
データファイル
ソース情報
カテゴリごとに特徴の比較
- 8. 実験
• 地域・カテゴリーごとに、Webサイトの特徴に違いが現れるか検証
目的
設定
• 対象地域:各都道府県 LKi ={北海道、青森、秋田・・・}
• カテゴリー : 観光施設 C1={鑑賞・体験型施設}、C2={活動型施設}、C3={保
養型施設}
• カテゴリーの検索語: CK1 ={博物館,美術館}、CK2 ={キャンプ場,カントリーク
ラブ}、CK3 ={ホテル,旅館}
観光施設の多い地域(北海道)と少ない地域(佐賀県)で
それぞれの特徴の分析・キーワード抽出を行う
北海道
博物館・美術館数:全国2位
キャンプ場・ゴルフ場数:全国1位
ホテル・旅館数:全国2位
佐賀県
博物館・美術館数:全国44位
キャンプ場・ゴルフ場数:全国44位
ホテル・旅館数:全国47位
- 9. 実験結果(鑑賞・体験型施設)
• 北海道では深さが深くページ数が多い → 発信されている情報量が多い
• 佐賀県では電話番号が少ない → 公式サイトがほとんどなかったからだと推測でき、
実際に佐賀県ではほとんど博物館・美術館の公式サイトは現れなかった
リンク構造(北海道)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(北海道)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソースファイル(北海道)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
リンク構造(佐賀県)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソースファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
北海道:83サイト
佐賀県:65サイト
- 10. 実験結果(活動型施設)
• 北海道でソース情報の各値が大きい → 発信されている情報量が多い
• 北海道のpdf数が多い → 少数の市や町のサイト内で多量の議事録がpdfファイルと
して存在
リンク構造(北海道)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(北海道)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソース情報(北海道)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
リンク構造(佐賀県)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソース情報(佐賀県)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
北海道:72サイト
佐賀県:46サイト
- 12. 実験結果(抽出したキーワード)
鑑賞・体験型 活動型 保養型
1 近隣 支店 下呂
2 海外 キー 予約
3 ツアー 年月 那須
4 国内 情報 伊香保
5 航空 多度 伊東
6 トラベル (株) 熱海
7 京都 広島 温泉
8 バス 革命 下田
9 磐梯 テレ 伊豆長岡
10 格安 共和 浜松
鑑賞・体験型 活動型 保養型
1 美術館 時分 特急
2 文化財 月日 北斗
3 団体 読売新聞 スーパー
4 辞書 情報 東室蘭
5 芸術 ニュース 千歳空港
6 企業 時事通信 苫小牧
7 資料 地域 延べ数
8 人文 トップ すずらん
9 文化 動画 入込み
10 子供 北海道 月別
北海道 佐賀県
• 北海道の保養型施設では、アクセス情報からキーワードが抽出されてしまったと考
えられる → アクセス情報がほぼ全ての公式サイトの一部のページに存在してしまっ
ているために、tf-idf法によりキーワードとして判断されてしまった