SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Analýza klíčových slov v R
Marek Prokop, PROKOP software s.r.o.
Proč?
Proč ne Excel a Open Refine
● Ruční práce v Excelu je pomalá.
● Čím víc dotazů klasifikujete, tím víc chyb při tom děláte.
● Výsledná klíčovka se špatně aktualizuje a doplňuje o nové dotazy.
● Práci odvedenou na jedné klíčovce nemůžete využít na jinou klíčovku.
● Špatná návaznost na další zpracování dat, reporting apod.
● Open Refine je výborný nástroj na něco úplně jiného.
Proč R
● Na více dotazech (10 000+) velká úspora práce a času.
● Klíčovka se snadno aktualizuje.
● Klasifikace podobných dotazů (třeba ze Search Console nebo PPC) je téměř
bez práce.
● Obecnější části klasifikace (cenová upřesnění, barvy, místa apod.) jdou
opakovaně aplikovat na zcela různé datasety.
● Snadná návaznost na další zpracování a reporting, např. content gap
analysis, zadání pro copywritery atd.
Výchozí teze
Klasifikace na základě pravidel
1. Všechny dotazy jde klasifikovat tím, že se na ně aplikuje sada pravidel.
2. Pravidla určují, které dotazy se vyřadí a které se označí jakým štítkem.
3. Libovolná množina dotazů jde vybrat regulárním výrazem (match) nebo
kombinací max. dvou regulárních výrazů (match - except).
Nebylo by lepší NLP a strojové učení?
Ne.
Workflow
Import a konsolidace vstupních dat
Import dat z nejrůznějších zdrojů:
● Marketing Miner
● Search Console
● Google Ads
Dotazy z různých zdrojů se automaticky deduplikují resp. agregují.
Normalizace dotazů
Automaticky se sjednotí dotazy, které se liší jen:
● interpunkcí (tečky, pomlčky apod.),
● diakritikou,
● pořadím slov.
Průzkum dotazů
● N-gramy
● Dotazy v dotazech (poddotazy, subqueries)
● Kolokace
Z průzkumu vypozoruji typické vzorce, které formuluji jako regulární výrazy.
Ověření vzorců
Každý regulární výraz si můžu otestovat a tím dostanu:
1. Přehled dotazů, které regulárnímu výrazu odpovídají.
2. Jakému textu v dotazu regulární výraz odpovídá.
3. Co je před tímto textem a co za ním.
4. N-gramy z okolního textu.
To vše bohatě stačí k tomu, abych ověřil správnost vzorce a případně ho doladil.
Sestavení klasifikačních pravidel
Pravidla definuji v jednoduchých souborech typu
YAML, případně je mohu do souborů přidávat
funkcemi.
- type: label
name: brand
rules:
- match:
- hohner
- seydel
- suzuki
values:
- value: lee oskar
rules:
- match: os[kc]ar
Vlastní klasifikace
kwr <- kwr |>
kwr_classify("recipes/brand.yml") |>
kwr_classify("recipes/model.yml")
Přehled klasifikovaných dotazů
kwr |> kwr_classified_queries()
Živá ukázka
Odkazy
Ukázku najdete na: https://github.com/MarekProkop/seo-restart-2022
Balíček najdete na: https://github.com/MarekProkop/keywordr
Pro nováčky v R doporučuju: https://www.prokopsw.cz/bookdown/excel-r/

Contenu connexe

Tendances

Tendances (20)

SEO Restart 2022: Eliška Bielková - Proč by se měl SEO specialista zajímat o ...
SEO Restart 2022: Eliška Bielková - Proč by se měl SEO specialista zajímat o ...SEO Restart 2022: Eliška Bielková - Proč by se měl SEO specialista zajímat o ...
SEO Restart 2022: Eliška Bielková - Proč by se měl SEO specialista zajímat o ...
 
SEO Restart 2023: Radek Kupr - Jak využít GA4 pro SEO
SEO Restart 2023: Radek Kupr - Jak využít GA4 pro SEOSEO Restart 2023: Radek Kupr - Jak využít GA4 pro SEO
SEO Restart 2023: Radek Kupr - Jak využít GA4 pro SEO
 
SEO Restart 2023: Richard Klačko - Srovnáno - mají nástroje správná data o hl...
SEO Restart 2023: Richard Klačko - Srovnáno - mají nástroje správná data o hl...SEO Restart 2023: Richard Klačko - Srovnáno - mají nástroje správná data o hl...
SEO Restart 2023: Richard Klačko - Srovnáno - mají nástroje správná data o hl...
 
SEO Restart 2023: Pavel Ungr - Transformace tvorby a optimalizace obsahu pomo...
SEO Restart 2023: Pavel Ungr - Transformace tvorby a optimalizace obsahu pomo...SEO Restart 2023: Pavel Ungr - Transformace tvorby a optimalizace obsahu pomo...
SEO Restart 2023: Pavel Ungr - Transformace tvorby a optimalizace obsahu pomo...
 
SEO Restart 2023: Milan Zeman - SEO 3× jinak: 3 případové studie s reálným do...
SEO Restart 2023: Milan Zeman - SEO 3× jinak: 3 případové studie s reálným do...SEO Restart 2023: Milan Zeman - SEO 3× jinak: 3 případové studie s reálným do...
SEO Restart 2023: Milan Zeman - SEO 3× jinak: 3 případové studie s reálným do...
 
SEO Restart 2023: Zdeněk Nešpor - Titánské weby
SEO Restart 2023: Zdeněk Nešpor - Titánské webySEO Restart 2023: Zdeněk Nešpor - Titánské weby
SEO Restart 2023: Zdeněk Nešpor - Titánské weby
 
SEO Restart 2023: Václav Brynda - Linkbuilding a jak se změnily strategie na ...
SEO Restart 2023: Václav Brynda - Linkbuilding a jak se změnily strategie na ...SEO Restart 2023: Václav Brynda - Linkbuilding a jak se změnily strategie na ...
SEO Restart 2023: Václav Brynda - Linkbuilding a jak se změnily strategie na ...
 
SEO Restart 2023: Martina Zrzavá Libřická - Výzvy a překážky ve světě SEO lidí
SEO Restart 2023: Martina Zrzavá Libřická - Výzvy a překážky ve světě SEO lidíSEO Restart 2023: Martina Zrzavá Libřická - Výzvy a překážky ve světě SEO lidí
SEO Restart 2023: Martina Zrzavá Libřická - Výzvy a překážky ve světě SEO lidí
 
PPC Restart 2022: Milan Cidilo - Ako vyškálovať TikTok ads z 0 na 500tis. Kč ...
PPC Restart 2022: Milan Cidilo - Ako vyškálovať TikTok ads z 0 na 500tis. Kč ...PPC Restart 2022: Milan Cidilo - Ako vyškálovať TikTok ads z 0 na 500tis. Kč ...
PPC Restart 2022: Milan Cidilo - Ako vyškálovať TikTok ads z 0 na 500tis. Kč ...
 
SEO Restart 2023: Zdeněk Dvořák aka Linki - Slabiny Ahrefs. Jaké jsou? A co s...
SEO Restart 2023: Zdeněk Dvořák aka Linki - Slabiny Ahrefs. Jaké jsou? A co s...SEO Restart 2023: Zdeněk Dvořák aka Linki - Slabiny Ahrefs. Jaké jsou? A co s...
SEO Restart 2023: Zdeněk Dvořák aka Linki - Slabiny Ahrefs. Jaké jsou? A co s...
 
PPC Restart 2023: Aneta Hemerová - Facebook Ads: Jak z rozpočtů vytěžit maxim...
PPC Restart 2023: Aneta Hemerová - Facebook Ads: Jak z rozpočtů vytěžit maxim...PPC Restart 2023: Aneta Hemerová - Facebook Ads: Jak z rozpočtů vytěžit maxim...
PPC Restart 2023: Aneta Hemerová - Facebook Ads: Jak z rozpočtů vytěžit maxim...
 
SEO Restart 2023: Lukáš Kostka - AI a R studio – optimalizace meta tagů na ,,...
SEO Restart 2023: Lukáš Kostka - AI a R studio – optimalizace meta tagů na ,,...SEO Restart 2023: Lukáš Kostka - AI a R studio – optimalizace meta tagů na ,,...
SEO Restart 2023: Lukáš Kostka - AI a R studio – optimalizace meta tagů na ,,...
 
SEO Restart 2023: Filip Podstavec, Marek Prokop, Pavel Ungr, Martin Pichlík -...
SEO Restart 2023: Filip Podstavec, Marek Prokop, Pavel Ungr, Martin Pichlík -...SEO Restart 2023: Filip Podstavec, Marek Prokop, Pavel Ungr, Martin Pichlík -...
SEO Restart 2023: Filip Podstavec, Marek Prokop, Pavel Ungr, Martin Pichlík -...
 
SEO Restart 2023: Jan Tichý - Keynote: Quo vadis SEO?
SEO Restart 2023: Jan Tichý - Keynote: Quo vadis SEO?SEO Restart 2023: Jan Tichý - Keynote: Quo vadis SEO?
SEO Restart 2023: Jan Tichý - Keynote: Quo vadis SEO?
 
SEO Restart 2023: Vojtěch Fiala - Praktické využití AI v SEO pro začátečníky ...
SEO Restart 2023: Vojtěch Fiala - Praktické využití AI v SEO pro začátečníky ...SEO Restart 2023: Vojtěch Fiala - Praktické využití AI v SEO pro začátečníky ...
SEO Restart 2023: Vojtěch Fiala - Praktické využití AI v SEO pro začátečníky ...
 
PPC Restart 2023: Lukáš Hvizdoš - Ako vyškálovať PMAX tak, aby sme dosiahli d...
PPC Restart 2023: Lukáš Hvizdoš - Ako vyškálovať PMAX tak, aby sme dosiahli d...PPC Restart 2023: Lukáš Hvizdoš - Ako vyškálovať PMAX tak, aby sme dosiahli d...
PPC Restart 2023: Lukáš Hvizdoš - Ako vyškálovať PMAX tak, aby sme dosiahli d...
 
Project Restart 2022: Jan Řezáč - Cíle (nejen) digitálních projektů
Project Restart 2022: Jan Řezáč - Cíle (nejen) digitálních projektůProject Restart 2022: Jan Řezáč - Cíle (nejen) digitálních projektů
Project Restart 2022: Jan Řezáč - Cíle (nejen) digitálních projektů
 
Data Restart 2022: David Janoušek - Jak na výkonnostní kampaně v období cooki...
Data Restart 2022: David Janoušek - Jak na výkonnostní kampaně v období cooki...Data Restart 2022: David Janoušek - Jak na výkonnostní kampaně v období cooki...
Data Restart 2022: David Janoušek - Jak na výkonnostní kampaně v období cooki...
 
Social Restart 2022: Štěpán Trnka - Nedělejte social blbě
Social Restart 2022: Štěpán Trnka - Nedělejte social blběSocial Restart 2022: Štěpán Trnka - Nedělejte social blbě
Social Restart 2022: Štěpán Trnka - Nedělejte social blbě
 
PPC Restart 2022: Julie Kneblová & Petr Bureš - Jak maximalizovat výkon RSA r...
PPC Restart 2022: Julie Kneblová & Petr Bureš - Jak maximalizovat výkon RSA r...PPC Restart 2022: Julie Kneblová & Petr Bureš - Jak maximalizovat výkon RSA r...
PPC Restart 2022: Julie Kneblová & Petr Bureš - Jak maximalizovat výkon RSA r...
 

Similaire à SEO Restart 2022: Marek Prokop - Analýza klíčových slov v R

Seologer 2017 - Karel Hladiš - Jak využít data pro zlepšení obsahu webu
Seologer 2017 -  Karel Hladiš - Jak využít data pro zlepšení obsahu webuSeologer 2017 -  Karel Hladiš - Jak využít data pro zlepšení obsahu webu
Seologer 2017 - Karel Hladiš - Jak využít data pro zlepšení obsahu webu
Collabim
 

Similaire à SEO Restart 2022: Marek Prokop - Analýza klíčových slov v R (20)

AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
 
Analýza klíčových slov - Plzeňský Barcamp 2015
Analýza klíčových slov - Plzeňský Barcamp 2015Analýza klíčových slov - Plzeňský Barcamp 2015
Analýza klíčových slov - Plzeňský Barcamp 2015
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytika
 
Case study - Optimalizace snippetů za účelem zvýšení CTR (Čtvrtkon)
Case study - Optimalizace snippetů za účelem zvýšení CTR (Čtvrtkon)Case study - Optimalizace snippetů za účelem zvýšení CTR (Čtvrtkon)
Case study - Optimalizace snippetů za účelem zvýšení CTR (Čtvrtkon)
 
Optimalizace cílení, skóre kvality a novinky v Adwords API v201601
Optimalizace cílení, skóre kvality a novinky v Adwords API v201601Optimalizace cílení, skóre kvality a novinky v Adwords API v201601
Optimalizace cílení, skóre kvality a novinky v Adwords API v201601
 
Seologer 2017 - Karel Hladiš - Jak využít data pro zlepšení obsahu webu
Seologer 2017 -  Karel Hladiš - Jak využít data pro zlepšení obsahu webuSeologer 2017 -  Karel Hladiš - Jak využít data pro zlepšení obsahu webu
Seologer 2017 - Karel Hladiš - Jak využít data pro zlepšení obsahu webu
 
Jak vyhodnocovat SEO v rámci atribucí
Jak vyhodnocovat SEO v rámci atribucíJak vyhodnocovat SEO v rámci atribucí
Jak vyhodnocovat SEO v rámci atribucí
 
Seologer novinky v nástroji
Seologer novinky v nástrojiSeologer novinky v nástroji
Seologer novinky v nástroji
 
Automatizace search term optimalizace
Automatizace search term optimalizaceAutomatizace search term optimalizace
Automatizace search term optimalizace
 
PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018
 
Analýza klíčových slov na maximum – interpretace
Analýza klíčových slov na maximum – interpretaceAnalýza klíčových slov na maximum – interpretace
Analýza klíčových slov na maximum – interpretace
 
Jak se dostat do Featured Snippets (Marie Štouračová)
Jak se dostat do Featured Snippets (Marie Štouračová)Jak se dostat do Featured Snippets (Marie Štouračová)
Jak se dostat do Featured Snippets (Marie Štouračová)
 
Jak nastavit procesy v digitální analytice tak, aby vám generovala výnosy
Jak nastavit procesy v digitální analytice tak, aby vám generovala výnosyJak nastavit procesy v digitální analytice tak, aby vám generovala výnosy
Jak nastavit procesy v digitální analytice tak, aby vám generovala výnosy
 
INPTP Rekapitulace
INPTP Rekapitulace INPTP Rekapitulace
INPTP Rekapitulace
 
Jak správně vybrat klíčová slova
Jak správně vybrat klíčová slovaJak správně vybrat klíčová slova
Jak správně vybrat klíčová slova
 
Měření návštěvnosti - Praktické využití Optimalizátoři.cz
Měření návštěvnosti - Praktické využití Optimalizátoři.czMěření návštěvnosti - Praktické využití Optimalizátoři.cz
Měření návštěvnosti - Praktické využití Optimalizátoři.cz
 
Data Restart 2022: Hana Bartoňková a Vojtěch Říha - Kolik mi vydělá jeden člá...
Data Restart 2022: Hana Bartoňková a Vojtěch Říha - Kolik mi vydělá jeden člá...Data Restart 2022: Hana Bartoňková a Vojtěch Říha - Kolik mi vydělá jeden člá...
Data Restart 2022: Hana Bartoňková a Vojtěch Říha - Kolik mi vydělá jeden člá...
 
Jak úspěšně zavést do firmy webovou analytiku
Jak úspěšně zavést do firmy webovou analytikuJak úspěšně zavést do firmy webovou analytiku
Jak úspěšně zavést do firmy webovou analytiku
 
Měření návštěvnosti Optimalizátoři.cz
Měření návštěvnosti Optimalizátoři.czMěření návštěvnosti Optimalizátoři.cz
Měření návštěvnosti Optimalizátoři.cz
 
10. Affiliate konference / XML katalogová magie
10. Affiliate konference / XML katalogová magie10. Affiliate konference / XML katalogová magie
10. Affiliate konference / XML katalogová magie
 

Plus de Taste

Plus de Taste (20)

E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
E-mail Date #2: Jan Krčmář - Retence a RFM: jak pomocí e-mailingu navýšit hod...
 
Project Restart 2024: Jiří Langr - Mytologie projektů
Project Restart 2024: Jiří Langr - Mytologie projektůProject Restart 2024: Jiří Langr - Mytologie projektů
Project Restart 2024: Jiří Langr - Mytologie projektů
 
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
Project Restart 2024: Jan Řezáč - Nahradí AI projektové manažery?
 
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
Project Restart 2024: Hana Březinová - Psychologické tipy pro práci s lidmi n...
 
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
Project Restart 2024: Martin Vasquez - Inteligence je schopnost reagovat na z...
 
Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projektyProject Restart 2024: Pavel Minář - Procesy pro lepší projekty
Project Restart 2024: Pavel Minář - Procesy pro lepší projekty
 
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. stoletíProject Restart 2024: Karel Smutný - Specializace patří do 19. století
Project Restart 2024: Karel Smutný - Specializace patří do 19. století
 
Project Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizaceProject Restart 2024: Lenka Auerová - Budování holistické organizace
Project Restart 2024: Lenka Auerová - Budování holistické organizace
 
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
E-mail Date #2: Jakub Kalvoda a Barbora Pavlíčková - Jak si udržet skvělé výs...
 
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retenceE-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
E-mail Date #2: Kazimír Krysta - CDP jako stavební kámen retence
 
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
E-mail Date #2: Markéta Kryštůfková - Multikanálová retence: využijte data o ...
 
SEO Restart 2024: Martin Kopta a Jakub Goldmann - Jak se dnes navrhují weby a...
SEO Restart 2024: Martin Kopta a Jakub Goldmann - Jak se dnes navrhují weby a...SEO Restart 2024: Martin Kopta a Jakub Goldmann - Jak se dnes navrhují weby a...
SEO Restart 2024: Martin Kopta a Jakub Goldmann - Jak se dnes navrhují weby a...
 
SEO Restart 2024: Tomáš Zahálka - Tajné SEO tipy pro Shoptet
SEO Restart 2024: Tomáš Zahálka - Tajné SEO tipy pro ShoptetSEO Restart 2024: Tomáš Zahálka - Tajné SEO tipy pro Shoptet
SEO Restart 2024: Tomáš Zahálka - Tajné SEO tipy pro Shoptet
 
SEO Restart 2024: Roman Teuschel - Mezinárodní SEO v kontextu expanze
SEO Restart 2024: Roman Teuschel - Mezinárodní SEO v kontextu expanzeSEO Restart 2024: Roman Teuschel - Mezinárodní SEO v kontextu expanze
SEO Restart 2024: Roman Teuschel - Mezinárodní SEO v kontextu expanze
 
SEO Restart 2024: Sarah Presch - Kognitivní předsudky - jak psychologické teo...
SEO Restart 2024: Sarah Presch - Kognitivní předsudky - jak psychologické teo...SEO Restart 2024: Sarah Presch - Kognitivní předsudky - jak psychologické teo...
SEO Restart 2024: Sarah Presch - Kognitivní předsudky - jak psychologické teo...
 
SEO Restart 2024: Martina Zrzavá Libřická - SEO & DEV: Jak na vývojáře od poc...
SEO Restart 2024: Martina Zrzavá Libřická - SEO & DEV: Jak na vývojáře od poc...SEO Restart 2024: Martina Zrzavá Libřická - SEO & DEV: Jak na vývojáře od poc...
SEO Restart 2024: Martina Zrzavá Libřická - SEO & DEV: Jak na vývojáře od poc...
 
SEO Restart 2024: Vojtěch Fiala - Linkbuilding vs. (digitální) PR: Od odkazů ...
SEO Restart 2024: Vojtěch Fiala - Linkbuilding vs. (digitální) PR: Od odkazů ...SEO Restart 2024: Vojtěch Fiala - Linkbuilding vs. (digitální) PR: Od odkazů ...
SEO Restart 2024: Vojtěch Fiala - Linkbuilding vs. (digitální) PR: Od odkazů ...
 
SEO Restart 2024: Martin Michálek - Nová metrika rychlosti INP a praktické ti...
SEO Restart 2024: Martin Michálek - Nová metrika rychlosti INP a praktické ti...SEO Restart 2024: Martin Michálek - Nová metrika rychlosti INP a praktické ti...
SEO Restart 2024: Martin Michálek - Nová metrika rychlosti INP a praktické ti...
 
SEO Restart 2024: Richard Klačko - Klíčovka s AI pohonem
SEO Restart 2024: Richard Klačko - Klíčovka s AI pohonemSEO Restart 2024: Richard Klačko - Klíčovka s AI pohonem
SEO Restart 2024: Richard Klačko - Klíčovka s AI pohonem
 
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
SEO Restart 2024: Martin Žatkovič - Můžeme jakožto SEO konzultanti uspět v Go...
 

SEO Restart 2022: Marek Prokop - Analýza klíčových slov v R

  • 1. Analýza klíčových slov v R Marek Prokop, PROKOP software s.r.o.
  • 3. Proč ne Excel a Open Refine ● Ruční práce v Excelu je pomalá. ● Čím víc dotazů klasifikujete, tím víc chyb při tom děláte. ● Výsledná klíčovka se špatně aktualizuje a doplňuje o nové dotazy. ● Práci odvedenou na jedné klíčovce nemůžete využít na jinou klíčovku. ● Špatná návaznost na další zpracování dat, reporting apod. ● Open Refine je výborný nástroj na něco úplně jiného.
  • 4. Proč R ● Na více dotazech (10 000+) velká úspora práce a času. ● Klíčovka se snadno aktualizuje. ● Klasifikace podobných dotazů (třeba ze Search Console nebo PPC) je téměř bez práce. ● Obecnější části klasifikace (cenová upřesnění, barvy, místa apod.) jdou opakovaně aplikovat na zcela různé datasety. ● Snadná návaznost na další zpracování a reporting, např. content gap analysis, zadání pro copywritery atd.
  • 6. Klasifikace na základě pravidel 1. Všechny dotazy jde klasifikovat tím, že se na ně aplikuje sada pravidel. 2. Pravidla určují, které dotazy se vyřadí a které se označí jakým štítkem. 3. Libovolná množina dotazů jde vybrat regulárním výrazem (match) nebo kombinací max. dvou regulárních výrazů (match - except).
  • 7. Nebylo by lepší NLP a strojové učení? Ne.
  • 9. Import a konsolidace vstupních dat Import dat z nejrůznějších zdrojů: ● Marketing Miner ● Search Console ● Google Ads Dotazy z různých zdrojů se automaticky deduplikují resp. agregují.
  • 10. Normalizace dotazů Automaticky se sjednotí dotazy, které se liší jen: ● interpunkcí (tečky, pomlčky apod.), ● diakritikou, ● pořadím slov.
  • 11. Průzkum dotazů ● N-gramy ● Dotazy v dotazech (poddotazy, subqueries) ● Kolokace Z průzkumu vypozoruji typické vzorce, které formuluji jako regulární výrazy.
  • 12. Ověření vzorců Každý regulární výraz si můžu otestovat a tím dostanu: 1. Přehled dotazů, které regulárnímu výrazu odpovídají. 2. Jakému textu v dotazu regulární výraz odpovídá. 3. Co je před tímto textem a co za ním. 4. N-gramy z okolního textu. To vše bohatě stačí k tomu, abych ověřil správnost vzorce a případně ho doladil.
  • 13. Sestavení klasifikačních pravidel Pravidla definuji v jednoduchých souborech typu YAML, případně je mohu do souborů přidávat funkcemi. - type: label name: brand rules: - match: - hohner - seydel - suzuki values: - value: lee oskar rules: - match: os[kc]ar
  • 14. Vlastní klasifikace kwr <- kwr |> kwr_classify("recipes/brand.yml") |> kwr_classify("recipes/model.yml")
  • 15. Přehled klasifikovaných dotazů kwr |> kwr_classified_queries()
  • 17. Odkazy Ukázku najdete na: https://github.com/MarekProkop/seo-restart-2022 Balíček najdete na: https://github.com/MarekProkop/keywordr Pro nováčky v R doporučuju: https://www.prokopsw.cz/bookdown/excel-r/