More Related Content Similar to La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM (20) More from Michele De Capitani (13) La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM1. La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA. Tutto ciò che non avresti mai voluto sentirti dire sulla SEO, oggi è sempre più realtà. A cura di Michele De Capitani Prima Posizione Srl - Via dell’Industria, 60 – 35129 Padova – PD – www.prima-posizione.it 1 2. SEOMantica “La SEO è come la Fisica, solo quando la governi comprendi che ti servirà ad ottenere solamente una nuova prospettiva dell’universo quantistico.” Michele De Capitani - 2010 © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 2 3. SEOMantica Evoluzione della formule del ranking nella SEO: 1996-2000 = CONTENUTI 2000-2003 = CONTENUTI + LINK POPULARITY (LP) 2003-2006 = (CONTENUTI + LP) / PENALTY (PNY) 2006-2008 = (CONTENUTI + LP + TRUST (TR)) / PNY 2008-2010 = [(CONTENUTI + LP + TR) x SPEED)] / PNY © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 3 6. Ripetizioni e frequenze della keyword all’interno del tag body (keyword density/frequency) © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 4 12. Anchor text dei backlinks© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 5 20. Utilizzo moderato di tutti i fattori© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 6 27. Lotta allo SPAM: in particolare a Keyword Stuffing, Doorways e cloaking + filtraggio serrato sui duplicati. 28. Utilizzo moderato di tutti i fattori© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 7 35. Lotta allo SPAM: in particolare a Keyword Stuffing, Doorways e cloaking + filtraggio serrato sui duplicati. 36. Utilizzo moderato di tutti i fattori© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 8 37. SEOMantica Tutte queste conoscenze e ogni esperienza acquisita fanno il bagaglio professionale di ciascun SEO… © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 9 38. SEOMantica Ma… © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page _ 10 39. SEOMantica …essendo esseri umani (sembra strano a dirsi ma lo siamo ) … © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 11 40. SEOMantica tutte queste CREDENZE decuplicano le nostre PAURE! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 12 41. SEOMantica Quali sono le nostre Paure? Breve, ma significativa classifica.. © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 13 42. SEOMantica CERTEZZA “… ma sei proprio sicuro?!” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 14 43. SEOMantica Le MAPPE “… azz.. Sempre queste fra le pillole!!” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 15 44. SEOMantica SCRIVERE TESTI A MANO “… sti benedetti contenuti unici, originali e interessanti!!” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 16 45. SEOMantica LA FINE DELLA SEO “… Google mi odia e mi vuole mandare in pensione...” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 17 46. SEOMantica STO SBAGLIANDO TUTTO “… Le mie tecniche sono obsolete ...” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 18 47. SEOMantica Potremmo andare avanti all’infinito, basta pensare un po’ ai nostri clienti.. © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 19 48. SEOMantica E’ risaputo, le Paure sono degli ostacoli al raggiungimento di nuovi traguardi © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 20 49. SEOMantica Ora, qui in questo preciso momento, sei di fronte ad una scelta… © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 21 50. SEOMantica © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 22 51. SEOMantica E’ la tua ultima occasione, se rinunci non ne avrai altre: Pillola Azzurra – “Fine della storia, domani ti troverai alla tua scrivania e continuerai a fare SEO così come l’hai sempre fatta.” Pillola Rossa – “Resti nel paese delle meraviglie e vedrai quant’è profonda la tana del Bianconiglio…” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 23 52. SEOMantica Ricorda, ti sto offrendo solo la verità! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 24 53. SEOMantica Metti da parte le credenze e apri le porte a nuove prospettive © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 25 54. SEOMantica © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 26 57. SEOMantica Information Retrieval (IR) L’analisi del contenuto in ambito di ricerca delle informazioni © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 29 58. SEOMantica La “SEOMantica” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 30 59. SEOMantica Cos’è la SEOMantica? Si tratta dell’utilizzo dell’analisi semantica (IR) ai fini della SEO e quindi del Ranking sui motori © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 31 61. TF/IDF (Term Frequency / Inverse Document Frequency)= Frequenza del termine / Frequenza del documento inversa 65. HTMM (Hidden Topic Markov Models) = Modelli di Markov sugli argomenti nascosti © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 32 66. SEOMantica Ricorda, ti sto offrendo solo la verità… © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 33 69. SEOMantica TF/IDF (Term Frequency / Inverse Document Frequency) L’evoluzione TF/IDF Formula: Frequenza del termine * Frequenza inversa documento Frequenza del termine = Nr. ripetizioni/Tot. Parole Documento Frequenza inversa = log(tot. doc. / tot. doc. che contengono la key) x © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 36 73. Documenti con “Marketing” = 535 MilCalcolo IDF = log(10.000.000.000/535.000.000) = 1,27 TF/IDF = TF * IDF = 0,009 * 1,27 = 0,01143 © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 37 74. SEOMantica TF/IDF (Term Frequency / Inverse Document Frequency) TF/IDF Calculator Ver. 1.0 Il mio tool per velocizzare il calcolo del TF/IDF LINK Scaricalo gratis qui: http://lab.prima-posizione.it/seo-tools/tf-idf.zip © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 38 79. Le variabili non sono osservabili, quindi sono LATENTI© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 39 82. E’ un miglioramento della LSA apportando un calcolo probabilistico ai risultati. Infatti è basata su una decomposizione miscelata da un modello di classe latente, questo permette appunto un approccio più probabilistico e quindi più saldo statisticamente 83. E’ stata introdotta nel 1999 da Jan Puzicha e Thomas Hofmann© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 41 84. SEOMantica PLSA (Probabilistic Latent Semantic Analysis) Schematizzazione del concetto (tratto da Amit Gruber, 08 Agosto 2007 – GoogleTechTalks) Selezionare 1 documento “d” con probabilità -> P(d) Scegliere una classe latente “Z” con probabilità -> θd(Z) = P(Z|d) Generare una parola “W” con probabilità -> Φz(W) = P(W|Z) D θ Nd Z K Φ W © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 42 85. SEOMantica PLSA (Probabilistic Latent Semantic Analysis) D -> numero dei documenti Nd-> numero delle parole nel documento (d) K-> numero di argomenti latenti θd -> distribuzione di argomenti nel documento “d” Z -> argomento latente (topic) W -> parola osservata Φk -> distribuzione delle parole generate dall’argomento latente “Z” D θ Nd Z K Φ W PROBLEMA: elevata generazione di collegamenti/correlazioni © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 43 86. SEOMantica PLSA (Probabilistic Latent Semantic Analysis) D -> numero dei documenti Nd-> numero delle parole nel documento (d) K-> numero di argomenti latenti θd -> distribuzione di argomenti nel documento “d” Z -> argomento latente (topic) W -> parola osservata Φk -> distribuzione delle parole generate dall’argomento latente “Z” D θ Nd Z K Φ W Variabili Osservabili Variabili Latenti PROBLEMA: elevata generazione di RUMORE CASUALE (Overfitting) © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 44 88. Scegliere una parola WN ~ multinomiale (Φz)© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 45 89. SEOMantica LDA (Latent Dirichlet Analysis) α -> Dirichlet preliminare su θd β -> Dirichlet preliminare su Φk D-> numero dei documenti Nd-> numero delle parole nel documento (d) K-> numero di argomenti latenti θd-> distribuzione di argomenti nel documento “d” Z-> argomento latente (topic) W-> parola osservata Φk-> distribuzione delle parole generate dall’argomento latente “Z” α β Aggiunge alla formula della PLSA, le variabili latenti Dirichlet. © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 46 90. SEOMantica LDA (Latent Dirichlet Analysis) In questo modo, il modello coerente riesce a superare l’overfitting (generazione di rumore) Genera tutti i collegamenti fra gli argomenti latenti e le parole osservate, basandosi sulla probabilità di correlazione e la distribuzione delle parole generate da quell’argomento. Lettura semplificata by Stefano Griggio: “La probabilità che la parola W appartenga all’argomento Z all’interno di un documento è proporzionale a quanto l’argomento è già stato trattato nel documento e al numero di volte che la parola è stata usata per quell’argomento.” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 47 91. SEOMantica LDA (Latent Dirichlet Analysis) Esempio correlazione semantica individuati tramite LDA Parole chiavi e astronomia e geologia La navetta spaziale ha viaggiato a lungo nello spazio prima di arrivare sulla luna. Una volta arrivata, le sonde esamineranno il suolo per cercare di stabilire se si trova del ghiaccio nelle profondità dei crateri lunari. Il significato semantico delle parole chiave, anche se non indicate esplicitamente, vengono evidenziate dal topic di ogni singola frase. © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 48 98. Scegliere un argomento ZN ~ Multinomiale (θd)© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 50 99. SEOMantica HTMM (Hidden Topic Markov Model) W1 -> Le parole “i’th” ψ1 -> E’ l’argomento “i’th” redatto dalla lotteria ε -> Pr(ψk – 1) α-> Dirichlet preliminare su θd β-> Dirichlet preliminare su Φk D-> numero dei documenti Nd-> numero delle parole nel documento (d) K-> numero di argomenti latenti θd-> distribuzione di argomenti nel documento “d” Z -> argomento latente (topic) della frasi “i’th” W-> parola osservata Φk-> distribuzione delle parole generate all’argomento latente “Z” © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 51 100. SEOMantica HTMM (Hidden Topic Markov Model) Segmentazione del documento in frasi e da queste viene generato il relativo argomento (topic)! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 52 102. SEOMantica K=100 N=10 Più bassa è la perplessità, migliore è il modello nella previsione delle parole invisibili. © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 54 103. SEOMantica Migliori parole per argomento HTMM LDA © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 55 105. Disambiguazione del senso della parolaViene richiesto un grosso salvataggio dell’intero documento che deve essere inserito come input nell’algoritmo, grande capacità di calcolo richiesta E’ applicabile esclusivamente su dati strutturati, in cui le frasi sono ben definite © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 56 106. SEOMantica Mappa mentale © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 57 107. SEOMantica Passiamo alla pratica! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 58 109. http://tinyurl.com/335l8jg: 2004 pubblicato nel 2010, sulla correlazione semantica fra i termini di un documento© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 59 114. http://tinyurl.com/35u47qx: Utilizzo del modello HTMM per la segmentazione in argomenti di testo e voce© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 60 119. IFTM (Independet Factor Topic Models)Cerca su Google! Ci sono video e relazioni davvero interessanti, dove si confrontano tutti questi modelli matematici. Come vedi c’è gran fermento! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 62 120. SEOMantica Ora però rendiamo le cose semplici e capiamone di più! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 63 123. Fonti non rilevabili (per ovvi motivi di “alterazione dei risultati”)© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 64 126. Nr. 2 pagine vergini SEO per ogni dominio (pagine nuove) 127. Nr. 2 pagine vergini SEOMantica per ogni dominio (pagine nuove) 128. Nr. 6 index page per velocizzare l’indicizzazione e distribuire ≈ PR 130. Utilizzo di 3 keywords principali composte da 2 termini altamente competitivi uniti fra loro con un numero. Es.: web96semantico 131. Utilizzo di 3 keywords di controllo: inesistenti© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 65 132. SEOMantica Il mio esperimento sulla SEOMantica Struttura HTML pagine SEO: Keyword primaria Keyword di controllo Keywords TRUST © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 66 133. SEOMantica Il mio esperimento sulla SEOMantica Struttura HTML pagine SEOMantica: Keyword primaria Keyword di controllo Keywords TRUST © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 67 137. Vocabolario dei sinonimi - LINK© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 68 139. Le coppie di pagine SEO sono pressoché identiche (studiate appositamente per evitare i filtri antiduplicazione, ma nella sostanza sono UGUALI) 140. Le coppie di pagine SEOMantica sono differenti versione SEOMantica base = utilizzo di quasi tutti i sinonimi/correlazioni ma non organizzati in frasi significanti versione SEOMantica avanzata = utilizzo corretto delle correlazioni semantiche (minor quantità ma maggior qualità) © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 69 141. SEOMantica I risultati © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 70 144. SEOMantica Il mio esperimento sulla SEOMantica I risultati © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 72 145. SEOMantica Il mio esperimento sulla SEOMantica I risultati statistici > Equilibrio > FORTE Squilibrio > 61% vince A-1Base VS A-2Avanz (dato statistico) © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 73 146. SEOMantica Il mio esperimento sulla SEOMantica I risultati osservabili e evidenti > Ottime performance delle pagine A (SEOMantica) su keywords TRUST > Buoni risultati delle pagine A-2Avanz (SEOMantica) © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 74 147. SEOMantica Il mio esperimento sulla SEOMantica Considerazioni sui risultati ottenuti dal TEST Il Trust ha ancora la sua bella rilevanza, a parte qualche caso sporadico e temporaneo i siti TRUST hanno sempre avuto posizionamenti migliori dei siti VERGINI. Anche su keywords nuove e mai trattate. L’ottimizzazione classica del contenuto (PagineSEO) ha ancora una buona rilevanza sul ranking, specialmente quando le keywords sono NUOVE, lo dimostra il fatto che nella maggior parte delle SERP con le keywords primarie e keywords di controllo le PagineSEO hanno superato le PagineSEOMantica © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 75 148. SEOMantica Il mio esperimento sulla SEOMantica Considerazioni sui risultati ottenuti dal TEST 3. Le PagineSEOMantica risultano più performanti nel momento in cui andiamo a verificare il ranking anche per keywords trust, questa è un’OTTIMA INDICAZIONE riguardo alla comprensione semantica dei topic e della relativa attribuzione di valore ai fini del RANKING. 4. Gli algoritmi di GOOGLE sulla semantica ESISTONO e competono con gli altri fattori nella determinazione del ranking, ma non sono ancora affinati. Lo dimostra il forte scompenso nel prediligere con un 61% di preferenza le PagineSEOMantica A-1Base, dove siamo in presenza di topic ricchi di correlazioni semantiche ma non significanti. © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 76 149. SEOMantica Il mio esperimento sulla SEOMantica Considerazioni sui risultati ottenuti dal TEST Il Trust del dominio, aiuta a bilanciare l’algoritmo semantico, lo dimostrano i dati rilevati in equilibrio fra loro sui domini TRUST, cosa che non si è verificata sui siti VERGINI. Questo test è ancora in corso e quindi ci saranno sicuramente aggiornamenti e forse anche qualche colpo di scena… Ora un’ultima domanda… © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 77 150. … se potessi, davvero torneresti indietro? SEOMantica © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 78 151. SEOMantica Special thanks to: Amit Gruber Francesco Tinti Franco Lucchetti Giorgio Tarverniti Giuliano De Danieli Marco Quadrella Silvia Lando Stefano Griggio (* Rigorosamente in ordine alfabetico ) © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 79 152. Contatti Skype: dechigno Messenger: dechigno@hotmail.it Google: dechigno@gmail.com Twitter: http://twitter.com/dechigno Facebook: Michele De Capitani Diventa mio amico su: Slideshare: http://www.slideshare.net/dechigno/ Youtube:http://www.youtube.com/user/dechigno Sito:http://www.prima-posizione.it/ Blog: http://blog.prima-posizione.it/ © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 80 153. …tante Grazie! Internet è un sistema Binario o sei 1 o sei 0 ! © Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 81