SlideShare a Scribd company logo
1 of 15
Algoritm de crawling pe baza analizei de similaritate a documentelor web si a textului de link Coordonator stiintific Conf. dr. ing. Stefan Stancescu Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Student Popa Ionut Dan
Cuprinsul lucrarii: ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
1. Ce este un web crawler ,[object Object],[object Object],[object Object]
2. Aplicatii ale unui web crawler ,[object Object],[object Object],[object Object],[object Object]
3. Tipuri de web crawlere ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Data Numarul de pagini indexate de Google Junie  2000  1  miliard Decembire  2000  1.3  miliarde August  2002  2.5  miliarde Decembrie  2002  4  miliarde Februarie  2004  4.28  miliarde Decembrie  2004  8  miliarde August 2005  8.2  miliarde
4. Algoritmi de crawling (1) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Rezultat Rezultat
4. Algoritmi de crawling (2) ,[object Object],[object Object],[object Object],[object Object]
5. Arhitectura si algoritmul crawlerului proiectat (1) ,[object Object],[object Object],[object Object],[object Object],[object Object]
5. Arhitectura si algoritmul crawlerului proiectat (2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],BF_Link(domeniu, seed_ur){ foreach link(starting_urls){ enqueue(frontier, link, 1); } while(visited < MAX_PAGES){ link := dequeue_top_link(frontier); doc := fetch(link); doc_score := sim(topic, doc); link_sim_score := sim((link_text + link_anchor), topic); link_score := 1/3(doc_score) + 1/3(link_sim_score) + 1/3(domain_score); enqueue(frontier,extract_links(doc),link_score); if(#frontier > MAX_BUFFER){ dequeue_bottom_links(frontier); } } }
5. Arhitectura si algoritmul crawlerului proiectat (3)
5. Arhitectura si algoritmul crawlerului proiectat (4)
[object Object],[object Object],[object Object],[object Object],5. Arhitectura si algoritmul crawlerului proiectat (4) sim(p 1  , d) = 10 /   (4+9+25)(0+0+4) = 0.81 sim(p 2  , d) =  2 /   (9+49+1)(0+0+4) = 0.13 t 3 t 1 t 2 d 1  = 2t 1 + 3t 2  + 5t 3 d 2  = 3t 1  + 7t 2  +  t 3 q = 0t 1  + 0t 2  + 2t 3 7 3 2 5
6. Evaluarea crawlerului si prezentarea rezultatelor obtinute ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
6. Evaluarea crawlerului si prezentarea rezultatelor obtinute
Va multumesc!

More Related Content

Similar to Algoritm de crawling

CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...Sabin Buraga
 
Dezvoltarea Aplicatiilor Web
Dezvoltarea Aplicatiilor WebDezvoltarea Aplicatiilor Web
Dezvoltarea Aplicatiilor Webdanielnastase
 
03 web server_architecture_ro
03 web server_architecture_ro03 web server_architecture_ro
03 web server_architecture_romcroitor
 
Modelarea datelor via XML. Design patterns in contextul specificarii document...
Modelarea datelor via XML. Design patterns in contextul specificarii document...Modelarea datelor via XML. Design patterns in contextul specificarii document...
Modelarea datelor via XML. Design patterns in contextul specificarii document...Sabin Buraga
 
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...Sabin Buraga
 
Arhitectura browser-ului Web
Arhitectura browser-ului WebArhitectura browser-ului Web
Arhitectura browser-ului WebSabin Buraga
 
Proiect Programare Web
Proiect Programare WebProiect Programare Web
Proiect Programare Webmiriiiam
 
Fii linked data
Fii linked dataFii linked data
Fii linked datateodora001
 
Fii linked data
Fii linked dataFii linked data
Fii linked datateodora001
 
Pipelined Logo Recognition System
Pipelined Logo Recognition SystemPipelined Logo Recognition System
Pipelined Logo Recognition SystemFlavius Anton
 
Proiect programare web
Proiect programare webProiect programare web
Proiect programare webOana Assd
 
HTML5 în XXX de minute
HTML5 în XXX de minuteHTML5 în XXX de minute
HTML5 în XXX de minuteSabin Buraga
 
CLIW 2014—2015 (6/12): Căutarea resurselor Web
CLIW 2014—2015 (6/12): Căutarea resurselor WebCLIW 2014—2015 (6/12): Căutarea resurselor Web
CLIW 2014—2015 (6/12): Căutarea resurselor WebSabin Buraga
 
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...Sabin Buraga
 
CLIW 2015-2016 (2/13) Arhitectura navigatorului Web
CLIW 2015-2016 (2/13) Arhitectura navigatorului WebCLIW 2015-2016 (2/13) Arhitectura navigatorului Web
CLIW 2015-2016 (2/13) Arhitectura navigatorului WebSabin Buraga
 

Similar to Algoritm de crawling (20)

CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
CLIW 2017-2018 (3/12) (Re)găsirea resurselor Web. De la motoare de căutare şi...
 
Intrebari ia1-1
Intrebari ia1-1Intrebari ia1-1
Intrebari ia1-1
 
Stroia_Laurentiu
Stroia_LaurentiuStroia_Laurentiu
Stroia_Laurentiu
 
Dezvoltarea Aplicatiilor Web
Dezvoltarea Aplicatiilor WebDezvoltarea Aplicatiilor Web
Dezvoltarea Aplicatiilor Web
 
03 web server_architecture_ro
03 web server_architecture_ro03 web server_architecture_ro
03 web server_architecture_ro
 
Modelarea datelor via XML. Design patterns in contextul specificarii document...
Modelarea datelor via XML. Design patterns in contextul specificarii document...Modelarea datelor via XML. Design patterns in contextul specificarii document...
Modelarea datelor via XML. Design patterns in contextul specificarii document...
 
Capitolul 3
Capitolul 3Capitolul 3
Capitolul 3
 
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
STAW 12/12: (Re)găsirea resurselor Web. De la motoare de căutare şi SEO la da...
 
Arhitectura browser-ului Web
Arhitectura browser-ului WebArhitectura browser-ului Web
Arhitectura browser-ului Web
 
Proiect Programare Web
Proiect Programare WebProiect Programare Web
Proiect Programare Web
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
 
Fii linked data
Fii linked dataFii linked data
Fii linked data
 
diSparql
diSparqldiSparql
diSparql
 
Pipelined Logo Recognition System
Pipelined Logo Recognition SystemPipelined Logo Recognition System
Pipelined Logo Recognition System
 
Proiect programare web
Proiect programare webProiect programare web
Proiect programare web
 
HTML5 în XXX de minute
HTML5 în XXX de minuteHTML5 în XXX de minute
HTML5 în XXX de minute
 
CLIW 2014—2015 (6/12): Căutarea resurselor Web
CLIW 2014—2015 (6/12): Căutarea resurselor WebCLIW 2014—2015 (6/12): Căutarea resurselor Web
CLIW 2014—2015 (6/12): Căutarea resurselor Web
 
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
Dezvoltarea aplicaţiilor Web la nivel de client (cursul #6): Căutarea resurse...
 
CLIW 2015-2016 (2/13) Arhitectura navigatorului Web
CLIW 2015-2016 (2/13) Arhitectura navigatorului WebCLIW 2015-2016 (2/13) Arhitectura navigatorului Web
CLIW 2015-2016 (2/13) Arhitectura navigatorului Web
 

Algoritm de crawling

  • 1. Algoritm de crawling pe baza analizei de similaritate a documentelor web si a textului de link Coordonator stiintific Conf. dr. ing. Stefan Stancescu Universitatea Politehnica Bucureşti Facultatea Electronică, Telecomunicaţii şi Tehnologia Informaţiei Student Popa Ionut Dan
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10. 5. Arhitectura si algoritmul crawlerului proiectat (3)
  • 11. 5. Arhitectura si algoritmul crawlerului proiectat (4)
  • 12.
  • 13.
  • 14. 6. Evaluarea crawlerului si prezentarea rezultatelor obtinute