SlideShare une entreprise Scribd logo
1  sur  15
Algoritm de crawling pe baza analizei de similaritate a documentelor web si a textului de link Coordonator stiintific Conf. dr. ing. Stefan Stancescu Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Student Popa Ionut Dan
Cuprinsul lucrarii: ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
1. Ce este un web crawler ,[object Object],[object Object],[object Object]
2. Aplicatii ale unui web crawler ,[object Object],[object Object],[object Object],[object Object]
3. Tipuri de web crawlere ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Data Numarul de pagini indexate de Google Junie  2000  1  miliard Decembire  2000  1.3  miliarde August  2002  2.5  miliarde Decembrie  2002  4  miliarde Februarie  2004  4.28  miliarde Decembrie  2004  8  miliarde August 2005  8.2  miliarde
4. Algoritmi de crawling (1) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Rezultat Rezultat
4. Algoritmi de crawling (2) ,[object Object],[object Object],[object Object],[object Object]
5. Arhitectura si algoritmul crawlerului proiectat (1) ,[object Object],[object Object],[object Object],[object Object],[object Object]
5. Arhitectura si algoritmul crawlerului proiectat (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BF_Link(domeniu, seed_ur){ foreach link(starting_urls){ enqueue(frontier, link, 1); } while(visited < MAX_PAGES){ link := dequeue_top_link(frontier); doc := fetch(link); doc_score := sim(topic, doc); link_sim_score := sim((link_text + link_anchor), topic); link_score := 1/3(doc_score) + 1/3(link_sim_score) + 1/3(domain_score); enqueue(frontier,extract_links(doc),link_score); if(#frontier > MAX_BUFFER){ dequeue_bottom_links(frontier); } } }
5. Arhitectura si algoritmul crawlerului proiectat (3)
5. Arhitectura si algoritmul crawlerului proiectat (4)
[object Object],[object Object],[object Object],[object Object],5. Arhitectura si algoritmul crawlerului proiectat (4) sim(p 1  , d) = 10 /   (4+9+25)(0+0+4) = 0.81 sim(p 2  , d) =  2 /   (9+49+1)(0+0+4) = 0.13 t 3 t 1 t 2 d 1  = 2t 1 + 3t 2  + 5t 3 d 2  = 3t 1  + 7t 2  +  t 3 q = 0t 1  + 0t 2  + 2t 3 7 3 2 5
6. Evaluarea crawlerului si prezentarea rezultatelor obtinute ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
6. Evaluarea crawlerului si prezentarea rezultatelor obtinute
Va multumesc!

Contenu connexe

Similaire à Algoritm de crawling

Proiect Programare Web
Proiect Programare WebProiect Programare Web
Proiect Programare Web
miriiiam
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
teodora001
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
teodora001
 

Similaire à Algoritm de crawling (20)

CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
 
Intrebari ia1-1
Intrebari ia1-1Intrebari ia1-1
Intrebari ia1-1
 
Stroia_Laurentiu
Stroia_LaurentiuStroia_Laurentiu
Stroia_Laurentiu
 
Dezvoltarea Aplicatiilor Web
Dezvoltarea Aplicatiilor WebDezvoltarea Aplicatiilor Web
Dezvoltarea Aplicatiilor Web
 
03 web server_architecture_ro
03 web server_architecture_ro03 web server_architecture_ro
03 web server_architecture_ro
 
Modelarea datelor via XML. Design patterns in contextul specificarii document...
Modelarea datelor via XML. Design patterns in contextul specificarii document...Modelarea datelor via XML. Design patterns in contextul specificarii document...
Modelarea datelor via XML. Design patterns in contextul specificarii document...
 
Capitolul 3
Capitolul 3Capitolul 3
Capitolul 3
 
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
 
Arhitectura browser-ului Web
Arhitectura browser-ului WebArhitectura browser-ului Web
Arhitectura browser-ului Web
 
Proiect Programare Web
Proiect Programare WebProiect Programare Web
Proiect Programare Web
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
 
diSparql
diSparqldiSparql
diSparql
 
Pipelined Logo Recognition System
Pipelined Logo Recognition SystemPipelined Logo Recognition System
Pipelined Logo Recognition System
 
Proiect programare web
Proiect programare webProiect programare web
Proiect programare web
 
HTML5 în XXX de minute
HTML5 în XXX de minuteHTML5 în XXX de minute
HTML5 în XXX de minute
 
CLIW 2014—2015 (6/12): Căutarea resurselor Web
CLIW 2014—2015 (6/12): Căutarea resurselor WebCLIW 2014—2015 (6/12): Căutarea resurselor Web
CLIW 2014—2015 (6/12): Căutarea resurselor Web
 
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
 
CLIW 2015-2016 (2/13) Arhitectura navigatorului Web
CLIW 2015-2016 (2/13) Arhitectura navigatorului WebCLIW 2015-2016 (2/13) Arhitectura navigatorului Web
CLIW 2015-2016 (2/13) Arhitectura navigatorului Web
 

Algoritm de crawling

  • 1. Algoritm de crawling pe baza analizei de similaritate a documentelor web si a textului de link Coordonator stiintific Conf. dr. ing. Stefan Stancescu Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Student Popa Ionut Dan
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10. 5. Arhitectura si algoritmul crawlerului proiectat (3)
  • 11. 5. Arhitectura si algoritmul crawlerului proiectat (4)
  • 12.
  • 13.
  • 14. 6. Evaluarea crawlerului si prezentarea rezultatelor obtinute