SlideShare une entreprise Scribd logo
1  sur  13
Télécharger pour lire hors ligne
地域でカテゴライズされたWebサイト群
の特徴分析とキーワード抽出に関する
研究
平成16年度 卒業論文発表
複雑系工学講座 調和系工学研究室
4年 本田 崇智
背景
• 施設や団体は、存在する地域やカテゴリーによって数に違いがある
地域: 都道府県、市町村・・・
カテゴリー: 宿泊施設、スポーツ施設・・・
• 施設や団体ごとに、Webサイトが存在
地域やカテゴリーによる施設・団体の数の違いが、Webサイトの特徴となん
らかの関連があると考えられる
Webサイト
ページ内リンク
ページ外リンク
他のWebサイトのWebページ
Web
ページ
画像ファイル
タグ
文字
ページサイズ(bites)
Webサイトには多くの特徴が存在
目的
あるカテゴリーにおける地域ごとのWebサイトの特徴を
分析し、その違いを検証
< 本研究の流れ >
地域・カテゴリーごとにWebサイトを収集
Webサイトから特徴の抽出
地域・カテゴリーごとにWebサイトの特徴を比較
Webサイトの収集の流れ
WWW
L3
L1
L1
L1
L2
L2
L2
L3
L3
C1
C2
C3
L
L:地域に存在する施設・団体のWebサイト集合
Li:地域iに存在する施設・団体のWebサイト集合
Cj:カテゴリーjに属する施設・団体のWebサイト集合
1. 対象とする地域のWebサイト集合{L1,L2,…,Ln }の決定
2. 対象とするカテゴリーのWebサイト集合{C1,C2,…Cn}の決定
3. サイト集合Ciを収集するためのキーワード集合CKiの決定
4. サイト集合Ljを収集するためのキーワード集合LKjの決定
5. Googleを利用してCKiの要素とLKjの要素のand検索
Webサイトから抽出する特徴
• Webページを頂点、リンクを弧としたWebサイトのグラフ構造
• 使用しているファイルの種類・数
• 文字やタグの使用頻度
しかし、特徴ベクトルにはテキストの内容に関わる特徴は用いられていない
Webサイトの特徴ベクトルを構築
Webサイト中のテキストから、キーワードの抽出
Webサイトごとにその情報の豊富さや充実度などの質の違いを
調べるために、以下の特徴を抽出
Webサイトの特徴ベクトルの構築
• htmlのソースを解析することによって、正確に抽出できる以下の特徴を抽出
• それぞれの特徴をカテゴリごとに正規化
page: Webページ数
depth: Webサイトの深さ
inlink: ページ内リンク数
outlink: ページ外リンク数
image: 画像数
audio: 音楽・動画ファイル数
pdf: pdfファイル数
cgi: cgiファイル数
css: スタイルシート数
tag: タグ数
char: 文字数
tel: 電話番号数
mail: メールアドレス数
size: ページサイズ(bites)
特徴ベクトル F=(page,depth,inlink,outlink,image,audio,pdf,cgi,css,tag,char,tel,mail,size)
Webサイト
ページ内リンク
ページ外リンク
他のWebサイトのWebページ
Web
ページ
深さ
リンク構造
データファイル
ソース情報
カテゴリごとに特徴の比較
Webサイトのキーワード抽出法
Tf-idf法[Salton,1990]の利用
Webサイト内の単語Wの重要度 I(W)
I(w)= max( freq(p,w)× : 1<p<N ))0.1
)(
(log 
wpage
N
N:サイト内の総ページ数
freq(p,w):ページp中の単語wの出現頻度
page(w):サイト内の単語wが出現するページ数
多くのWebページに出現する単語 → 重要ではない
少ないWebページで出現回数の多い単語 → 重要
• キーワードは、Webサイト中の使用頻度が高いと思われる
• 日常的に多く使われる語は省きたい
実験
• 地域・カテゴリーごとに、Webサイトの特徴に違いが現れるか検証
目的
設定
• 対象地域:各都道府県 LKi ={北海道、青森、秋田・・・}
• カテゴリー : 観光施設 C1={鑑賞・体験型施設}、C2={活動型施設}、C3={保
養型施設}
• カテゴリーの検索語: CK1 ={博物館,美術館}、CK2 ={キャンプ場,カントリーク
ラブ}、CK3 ={ホテル,旅館}
観光施設の多い地域(北海道)と少ない地域(佐賀県)で
それぞれの特徴の分析・キーワード抽出を行う
北海道
博物館・美術館数:全国2位
キャンプ場・ゴルフ場数:全国1位
ホテル・旅館数:全国2位
佐賀県
博物館・美術館数:全国44位
キャンプ場・ゴルフ場数:全国44位
ホテル・旅館数:全国47位
実験結果(鑑賞・体験型施設)
• 北海道では深さが深くページ数が多い → 発信されている情報量が多い
• 佐賀県では電話番号が少ない → 公式サイトがほとんどなかったからだと推測でき、
実際に佐賀県ではほとんど博物館・美術館の公式サイトは現れなかった
リンク構造(北海道)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(北海道)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソースファイル(北海道)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
リンク構造(佐賀県)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソースファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
北海道:83サイト
佐賀県:65サイト
実験結果(活動型施設)
• 北海道でソース情報の各値が大きい → 発信されている情報量が多い
• 北海道のpdf数が多い → 少数の市や町のサイト内で多量の議事録がpdfファイルと
して存在
リンク構造(北海道)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(北海道)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソース情報(北海道)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
リンク構造(佐賀県)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソース情報(佐賀県)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
北海道:72サイト
佐賀県:46サイト
実験結果(保養型施設)
• 佐賀県ではpdfファイルが多いのは、施設の公式サイトが少ない分関係のないサイト
の中でpdfが多く含まれているサイト(総理府やYahoo!Japan・・・)の影響であった
• 保養型施設では電話番号の数が逆転している → 北海道では保養型施設のリンク
集が多く存在し、これらの多くに電話番号が記載されていなかった
リンク構造(北海道)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(北海道)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソース情報(北海道)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
リンク構造(佐賀県)
0 0.2 0.4 0.6 0.8 1
ページ数
深さ
ページ内リンク数
ページ外リンク数
データファイル(佐賀県)
0 0.2 0.4 0.6 0.8 1
画像数
pdf数
cgi数
css数
オーディオ数
ソース情報(佐賀県)
0 0.2 0.4 0.6 0.8 1
電話番号数
メールアドレス数
文字数
ページサイズ
タグ数
北海道:163サイト
佐賀県:93サイト
実験結果(抽出したキーワード)
鑑賞・体験型 活動型 保養型
1 近隣 支店 下呂
2 海外 キー 予約
3 ツアー 年月 那須
4 国内 情報 伊香保
5 航空 多度 伊東
6 トラベル (株) 熱海
7 京都 広島 温泉
8 バス 革命 下田
9 磐梯 テレ 伊豆長岡
10 格安 共和 浜松
鑑賞・体験型 活動型 保養型
1 美術館 時分 特急
2 文化財 月日 北斗
3 団体 読売新聞 スーパー
4 辞書 情報 東室蘭
5 芸術 ニュース 千歳空港
6 企業 時事通信 苫小牧
7 資料 地域 延べ数
8 人文 トップ すずらん
9 文化 動画 入込み
10 子供 北海道 月別
北海道 佐賀県
• 北海道の保養型施設では、アクセス情報からキーワードが抽出されてしまったと考
えられる → アクセス情報がほぼ全ての公式サイトの一部のページに存在してしまっ
ているために、tf-idf法によりキーワードとして判断されてしまった
結論
• カテゴリー/地域によってWeb上の特徴が現れることが確
認された
• 全都道府県においても、観光施設の多い都道府県では
情報量が多いという傾向がみられた
• カテゴリによって特色を示すキーワードが抽出できなかっ
たのは、キーワードの抽出法に原因があると考えられる
今後の課題
• キーワードの抽出方法の改善
• 収集するWebサイト数の増加

Contenu connexe

En vedette (20)

hashimoto m
hashimoto mhashimoto m
hashimoto m
 
iwasaki b
iwasaki biwasaki b
iwasaki b
 
matsui m
matsui mmatsui m
matsui m
 
imagawa b
imagawa bimagawa b
imagawa b
 
mori b
mori bmori b
mori b
 
matsumoto m
matsumoto mmatsumoto m
matsumoto m
 
maruyama b
maruyama bmaruyama b
maruyama b
 
nishimura m
nishimura mnishimura m
nishimura m
 
nishioka m
nishioka mnishioka m
nishioka m
 
takagi m
takagi mtakagi m
takagi m
 
yamagata m
yamagata myamagata m
yamagata m
 
kita b
kita bkita b
kita b
 
kataoka m
kataoka mkataoka m
kataoka m
 
nishioka b
nishioka bnishioka b
nishioka b
 
minagawa b
minagawa bminagawa b
minagawa b
 
iimura b
iimura biimura b
iimura b
 
onodera m
onodera monodera m
onodera m
 
yamagata b
yamagata byamagata b
yamagata b
 
ebata b
ebata bebata b
ebata b
 
fuchunyu m
fuchunyu mfuchunyu m
fuchunyu m
 

Plus de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

Plus de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

honda b