Référencement Local (SEO Local) - Queduweb 2016Victor Lerat
Comment référencer son site au niveau local ? Réponse dans ce document présenté à l'occasion de l'événement Queduweb 2016. Découvrez les techniques pour améliorer votre SEO Local : technique, contenu, popularité... Et surtout, sortez des sentiers battus !
This document provides an overview of the global energy industry and Royal Dutch Shell's position within it. It analyzes industry trends, Shell's operations and competitors, scenarios for future energy demand, and Shell's strategies. The document compares a "Scramble" scenario of uncoordinated development to Shell's preferred "Blueprints" scenario of coordinated investment and policy to transition to a lower carbon future.
Référencement Local (SEO Local) - Queduweb 2016Victor Lerat
Comment référencer son site au niveau local ? Réponse dans ce document présenté à l'occasion de l'événement Queduweb 2016. Découvrez les techniques pour améliorer votre SEO Local : technique, contenu, popularité... Et surtout, sortez des sentiers battus !
This document provides an overview of the global energy industry and Royal Dutch Shell's position within it. It analyzes industry trends, Shell's operations and competitors, scenarios for future energy demand, and Shell's strategies. The document compares a "Scramble" scenario of uncoordinated development to Shell's preferred "Blueprints" scenario of coordinated investment and policy to transition to a lower carbon future.
Técnicas de comunicación creativa en el aula materialesCarlos Hoyos
Este documento describe la importancia de las habilidades comunicativas de los profesores y propone el uso de técnicas creativas de comunicación en el aula. Explica técnicas como la escucha activa, el arte de formular preguntas y la gestión de los silencios. Concluye que el desarrollo de competencias comunicativas en los futuros profesores y el uso de estas técnicas pueden motivar a los estudiantes y favorecer el aprendizaje.
Mann-India Technologies is an IT consulting firm established in 2000 specializing in SAP implementations. They have expertise in SAP Extended Warehouse Management (EWM) solutions, having successfully implemented EWM projects for clients in various industries. Mann-India offers pre-configured SAP solutions and templates to help clients implement EWM systems more quickly. Their EWM offering includes packaged business processes and configurations based on best practices to accelerate project timelines and reduce costs.
Searchlove London 2016 - The Changing Landscape of Mobile Search - Bridget Ra...Bridget Randolph
Mobile is becoming an increasingly important traffic channel, and given recent developments like app indexation and AMP (Accelerated Mobile Pages), as well as the addition of new types of devices like wearables and smart tech, understanding how it fits into the bigger search marketing picture is more crucial than ever. This session will take a look at the history of mobile search, how mobile search behaviour has impacted on desktop search, the growing significance of app content and developments such as AMP and app streaming within the search marketing landscape, and some thoughts on where the future of search is heading.
This document provides an overview of the next evolution of internal auditing towards continuous risk and control assurance. It describes a vision for the future where the internal audit function is able to provide almost continuous assurance through monitoring of key risks and controls. The internal audit team would focus on rapid response audits of risk hot spots and process improvement consulting. This vision is illustrated through a story where an internal audit executive receives an alert from the continuous risk monitoring system about an inventory issue at one of the company's locations. The executive is able to review risk assessments and control monitoring dashboards to understand the issue and coordinate an initial response.
Discomfort is the mother of all conversion killers.
The chief conversion officer: the copywriter.
Appealing to a desire that already exists.
You need to get your customer to agree this is the time and place to take action.
You need to get your customer into a comfort zone.
When readers don’t feel good, they’re gone.
Lack of trust Mystery Common Causes of Discomfort
The key to overcoming confusion is clarity.
Write a clear headline.
We have a disconnect Twitter ad Landing page
A clear connection Twitter ad Landing page
The key to overcoming distraction is focus.
Keep it simple. An effective web page has one job to do.
Landing page: Get the form filled
Build your case
Write what needs to be written. Don’t count characters, but make every character count.
Overcome apathy by making sure nothing begins to feel optional, less urgent. irrelevant.
Application: A selling proposition articulates how your offer applies to the reader’s needs.
Benefits: Answers the question: what’s in it for me? How to __________________ .
An example of how to (blank)
Context: Qualify and disqualify.
Difference: What can you deliver unlike anyone else?
Emotions: Tap into pleasures and pains with power words.
Context: marketers Difference: focused budgeting Emotions: love
You can’t bore people into buying. If attention is the web’s golden goose, boredom is its rotten egg.
Make it fun. • Lighten up • Tell a story • Push emotional buttons • Ask questions • Introduce characters • Speak to memories, values, dreams • Use your sense of humor • And remember who you are talking about… The reader
Your copy stops working when it feels like work.
Mystery Common Causes of Discomfort
Desire - Friction = Conversion rate Give readers what they are looking for: ease.
Introduce ease. • Shortcuts • Fast tracks • Templates • Cheat sheets • Checklists • Assure readers you’re leading them down the fast and easy path
Reduce risk. • “What if” always lingers in the reader's mind • Introduce safety nets • Address fears with reasons to be fearless
Write conversationally. • Casual • Caring • Direct • Simple • Break rules
We talk too much like marketers because we’re not listening to our customers.
Develop pathological empathy for your customer. ~ Ann Handley Empathize
Use first and second person voice.
Actual landing page: marketing jargon
My fix: voice of the customer
The source of the headline idea comes from a customer testimonial.
Actual landing page: marketing jargon
My fix: voice of the customer
The source of the headline idea comes from a customer testimonial.
Offer proof.
Give your reader ultra-clear directions.
One choice wins.
Use compelling verbs. Start… Try… Reserve… Buy… Get
If you’re not creating a landing page, you’re creating a leading page.
I spoke to Mays Business School students about the inside scoop of working at an advertising agency, with a specific focus on public relations and social media. I walked the students through the plan and execution of our PR strategy at the 2016 Shell Houston Open.
Keyword Research in a Mobile World #PubconAustinAleyda Solís
How your mobile audience is searching? How can you target their behavior to grow your mobile search results, traffic and conversions? Check out this presentation.
The document discusses the benefits of exercise for mental health. Regular physical activity can help reduce anxiety and depression and improve mood and cognitive functioning. Exercise causes chemical changes in the brain that may help protect against mental illness and improve symptoms.
Las Claves del SEO en 2015 en #PlatziConfAleyda Solís
El documento presenta las claves para tener éxito en SEO en 2015, enfocándose en tres aspectos principales: 1) realizar un estudio estratégico de la audiencia y competencia, 2) optimizar la base técnica de la web para dispositivos móviles y contenido con JavaScript, y 3) optimizar el contenido y marcado para la búsqueda semántica y el Knowledge Graph de Google.
Este documento ofrece consejos sobre optimización de contenido para motores de búsqueda (SEO). Recomienda identificar las necesidades de la audiencia mediante herramientas de investigación de palabras clave, tendencias y competidores. Además, sugiere optimizar el contenido para ser relevante a términos objetivo, estructurarlo de forma jerárquica y en diferentes formatos. Finalmente, da consejos sobre mejorar elementos como títulos, URLs y estructurar datos para aumentar la visibilidad en los resultados de búsqueda.
How SMBs can win in Competitive SEO Sectors at #SAScon #SAScon2015Aleyda Solís
The document is a presentation on competitive SEO strategies for small businesses competing against larger brands. It discusses how small businesses can leverage their advantages like flexibility and ability to localize, while automating optimization using open source tools. Specific tips include identifying low competition keywords and SERP features to target, optimizing for local and mobile search, and using structured data and citations to maximize visibility. The goal is for small businesses to strategically maximize opportunities to close the visibility gap with larger competitors.
Strategical SEO Audits that Drive Growth at #DigitalOlympusAleyda Solís
Actionable tips to identify the issues & opportunities that matter the most and capitalize on quick wins and higher potential queries to drive out SEO efforts
Enterprise SEO Strategies and the Art of Resource AlignmentKeith Goode
Given at Pubcon in Las Vegas, NV on 11 October 2016 in the In-House SEO Team Building session, this presentation covers the art of aligning your team building efforts with your SEO strategy.
Cross Functional SEO at #UKMarketingDay Aleyda Solís
The document discusses how SEO can be cross-functional and collaborative by providing examples of how SEO insights and analysis can help other areas of marketing like international expansion, mobile optimization, content strategy, and reputation management. It provides specific tools and strategies for using SEO to identify international growth opportunities, optimize for mobile queries and page speeds, create helpful content, and maximize exposure across search and social platforms. The overall message is that a cross-functional approach to SEO can help drive more visibility, traffic, and conversions when aligned with other marketing channels.
Competitions for Bloggers - Case Study. Marketing Festival 2015 #mktfestWojtek Mazur
This document discusses the benefits, challenges, and risks of competitions for bloggers. The benefits include access to new audiences, targeted traffic, blog coverage, guest content, incoming links, social exposure, and increased brand awareness. Challenges involve selecting nominees and motivating engagement. Risks include discrediting the competition's legitimacy, complaints, and fraud. The document also provides a case study of a fitness blog awards competition that resulted in increased traffic, links, and newsletter subscribers for the sponsor.
L'HÉBERGEMENT DANS LE CLOUD D'UNE PARTIE DES
PLATEFORMES WEB ARTE AVEC ACQUIA
Pascal Thuet
Chef de Projet Secteur Nouvelles
Technologie ARTE
Cyril Reinhard
Regional Director Acquia
Twitter : @cyrilCR
Nouvelle plateforme éditoriale et de débats d'ARTE
• Destinée à tous les sujets d'aujourd'hui qui feront le
monde de demain
o Environnement
o Sciences
o Société
o Economie
• 3 types majeurs de contenus :
o Vidéos
o Textes & analyses
o Infographies interactives
Réussir son projet Drupal. Plusieurs clefs du succès par Maxime TOPOLOV (@mtopolov) CTO de @adyax, Leader Européen sur Drupal.
Méthodes qui marchent
Equipe projet
Organisation
Estimation du projet
Choses à faire et à pas faire....
Técnicas de comunicación creativa en el aula materialesCarlos Hoyos
Este documento describe la importancia de las habilidades comunicativas de los profesores y propone el uso de técnicas creativas de comunicación en el aula. Explica técnicas como la escucha activa, el arte de formular preguntas y la gestión de los silencios. Concluye que el desarrollo de competencias comunicativas en los futuros profesores y el uso de estas técnicas pueden motivar a los estudiantes y favorecer el aprendizaje.
Mann-India Technologies is an IT consulting firm established in 2000 specializing in SAP implementations. They have expertise in SAP Extended Warehouse Management (EWM) solutions, having successfully implemented EWM projects for clients in various industries. Mann-India offers pre-configured SAP solutions and templates to help clients implement EWM systems more quickly. Their EWM offering includes packaged business processes and configurations based on best practices to accelerate project timelines and reduce costs.
Searchlove London 2016 - The Changing Landscape of Mobile Search - Bridget Ra...Bridget Randolph
Mobile is becoming an increasingly important traffic channel, and given recent developments like app indexation and AMP (Accelerated Mobile Pages), as well as the addition of new types of devices like wearables and smart tech, understanding how it fits into the bigger search marketing picture is more crucial than ever. This session will take a look at the history of mobile search, how mobile search behaviour has impacted on desktop search, the growing significance of app content and developments such as AMP and app streaming within the search marketing landscape, and some thoughts on where the future of search is heading.
This document provides an overview of the next evolution of internal auditing towards continuous risk and control assurance. It describes a vision for the future where the internal audit function is able to provide almost continuous assurance through monitoring of key risks and controls. The internal audit team would focus on rapid response audits of risk hot spots and process improvement consulting. This vision is illustrated through a story where an internal audit executive receives an alert from the continuous risk monitoring system about an inventory issue at one of the company's locations. The executive is able to review risk assessments and control monitoring dashboards to understand the issue and coordinate an initial response.
Discomfort is the mother of all conversion killers.
The chief conversion officer: the copywriter.
Appealing to a desire that already exists.
You need to get your customer to agree this is the time and place to take action.
You need to get your customer into a comfort zone.
When readers don’t feel good, they’re gone.
Lack of trust Mystery Common Causes of Discomfort
The key to overcoming confusion is clarity.
Write a clear headline.
We have a disconnect Twitter ad Landing page
A clear connection Twitter ad Landing page
The key to overcoming distraction is focus.
Keep it simple. An effective web page has one job to do.
Landing page: Get the form filled
Build your case
Write what needs to be written. Don’t count characters, but make every character count.
Overcome apathy by making sure nothing begins to feel optional, less urgent. irrelevant.
Application: A selling proposition articulates how your offer applies to the reader’s needs.
Benefits: Answers the question: what’s in it for me? How to __________________ .
An example of how to (blank)
Context: Qualify and disqualify.
Difference: What can you deliver unlike anyone else?
Emotions: Tap into pleasures and pains with power words.
Context: marketers Difference: focused budgeting Emotions: love
You can’t bore people into buying. If attention is the web’s golden goose, boredom is its rotten egg.
Make it fun. • Lighten up • Tell a story • Push emotional buttons • Ask questions • Introduce characters • Speak to memories, values, dreams • Use your sense of humor • And remember who you are talking about… The reader
Your copy stops working when it feels like work.
Mystery Common Causes of Discomfort
Desire - Friction = Conversion rate Give readers what they are looking for: ease.
Introduce ease. • Shortcuts • Fast tracks • Templates • Cheat sheets • Checklists • Assure readers you’re leading them down the fast and easy path
Reduce risk. • “What if” always lingers in the reader's mind • Introduce safety nets • Address fears with reasons to be fearless
Write conversationally. • Casual • Caring • Direct • Simple • Break rules
We talk too much like marketers because we’re not listening to our customers.
Develop pathological empathy for your customer. ~ Ann Handley Empathize
Use first and second person voice.
Actual landing page: marketing jargon
My fix: voice of the customer
The source of the headline idea comes from a customer testimonial.
Actual landing page: marketing jargon
My fix: voice of the customer
The source of the headline idea comes from a customer testimonial.
Offer proof.
Give your reader ultra-clear directions.
One choice wins.
Use compelling verbs. Start… Try… Reserve… Buy… Get
If you’re not creating a landing page, you’re creating a leading page.
I spoke to Mays Business School students about the inside scoop of working at an advertising agency, with a specific focus on public relations and social media. I walked the students through the plan and execution of our PR strategy at the 2016 Shell Houston Open.
Keyword Research in a Mobile World #PubconAustinAleyda Solís
How your mobile audience is searching? How can you target their behavior to grow your mobile search results, traffic and conversions? Check out this presentation.
The document discusses the benefits of exercise for mental health. Regular physical activity can help reduce anxiety and depression and improve mood and cognitive functioning. Exercise causes chemical changes in the brain that may help protect against mental illness and improve symptoms.
Las Claves del SEO en 2015 en #PlatziConfAleyda Solís
El documento presenta las claves para tener éxito en SEO en 2015, enfocándose en tres aspectos principales: 1) realizar un estudio estratégico de la audiencia y competencia, 2) optimizar la base técnica de la web para dispositivos móviles y contenido con JavaScript, y 3) optimizar el contenido y marcado para la búsqueda semántica y el Knowledge Graph de Google.
Este documento ofrece consejos sobre optimización de contenido para motores de búsqueda (SEO). Recomienda identificar las necesidades de la audiencia mediante herramientas de investigación de palabras clave, tendencias y competidores. Además, sugiere optimizar el contenido para ser relevante a términos objetivo, estructurarlo de forma jerárquica y en diferentes formatos. Finalmente, da consejos sobre mejorar elementos como títulos, URLs y estructurar datos para aumentar la visibilidad en los resultados de búsqueda.
How SMBs can win in Competitive SEO Sectors at #SAScon #SAScon2015Aleyda Solís
The document is a presentation on competitive SEO strategies for small businesses competing against larger brands. It discusses how small businesses can leverage their advantages like flexibility and ability to localize, while automating optimization using open source tools. Specific tips include identifying low competition keywords and SERP features to target, optimizing for local and mobile search, and using structured data and citations to maximize visibility. The goal is for small businesses to strategically maximize opportunities to close the visibility gap with larger competitors.
Strategical SEO Audits that Drive Growth at #DigitalOlympusAleyda Solís
Actionable tips to identify the issues & opportunities that matter the most and capitalize on quick wins and higher potential queries to drive out SEO efforts
Enterprise SEO Strategies and the Art of Resource AlignmentKeith Goode
Given at Pubcon in Las Vegas, NV on 11 October 2016 in the In-House SEO Team Building session, this presentation covers the art of aligning your team building efforts with your SEO strategy.
Cross Functional SEO at #UKMarketingDay Aleyda Solís
The document discusses how SEO can be cross-functional and collaborative by providing examples of how SEO insights and analysis can help other areas of marketing like international expansion, mobile optimization, content strategy, and reputation management. It provides specific tools and strategies for using SEO to identify international growth opportunities, optimize for mobile queries and page speeds, create helpful content, and maximize exposure across search and social platforms. The overall message is that a cross-functional approach to SEO can help drive more visibility, traffic, and conversions when aligned with other marketing channels.
Competitions for Bloggers - Case Study. Marketing Festival 2015 #mktfestWojtek Mazur
This document discusses the benefits, challenges, and risks of competitions for bloggers. The benefits include access to new audiences, targeted traffic, blog coverage, guest content, incoming links, social exposure, and increased brand awareness. Challenges involve selecting nominees and motivating engagement. Risks include discrediting the competition's legitimacy, complaints, and fraud. The document also provides a case study of a fitness blog awards competition that resulted in increased traffic, links, and newsletter subscribers for the sponsor.
L'HÉBERGEMENT DANS LE CLOUD D'UNE PARTIE DES
PLATEFORMES WEB ARTE AVEC ACQUIA
Pascal Thuet
Chef de Projet Secteur Nouvelles
Technologie ARTE
Cyril Reinhard
Regional Director Acquia
Twitter : @cyrilCR
Nouvelle plateforme éditoriale et de débats d'ARTE
• Destinée à tous les sujets d'aujourd'hui qui feront le
monde de demain
o Environnement
o Sciences
o Société
o Economie
• 3 types majeurs de contenus :
o Vidéos
o Textes & analyses
o Infographies interactives
Réussir son projet Drupal. Plusieurs clefs du succès par Maxime TOPOLOV (@mtopolov) CTO de @adyax, Leader Européen sur Drupal.
Méthodes qui marchent
Equipe projet
Organisation
Estimation du projet
Choses à faire et à pas faire....
Arte utilise Acquia Cloud pour héberger ses plateformes webAcquia
Pascal Thuet, Arte et Cyril Reinhard, Acquia présentent retour d'expérience sur la refonte de la plateforme ARTE Creative, sa migration d'un CMS maison vers Drupal 7 et de son hébergement dans le cloud d'Acquia.
Le déroulement du projet
L'architecture technique
La migration
Le choix de l'hébergement
Les outils d'Acquia
Retour et premier bilan après les deux premiers mois de fonctionnement
In this presentation, Marc Dutoo of Open Wide discusses document import in Alfresco document management solution, provides guidance to choose the best answer in each use case, and finally presents the Alfresco ETL Connector for Talend bulk import extension.
Démo Gatling au Performance User Group de Casablanca - 25 sept 2014Benoît de CHATEAUVIEUX
En 2008, la lenteur d'une application était ressentie au bout de 4 secondes, elle l'est au bout de 3 secondes en 2014.
La performance des applications web est devenue cruciale: la génération Y est beaucoup moins patiente (elle n'a pas connue le modèle 56k !) et switch très facilement.
Les impacts business de la performance des applications web sont donc forts: baisse de CA, perte de clients, etc.
Au cours de cette session du Performance User Group de Casablanca, j'ai présenté Gatling, un outils de test de charge Open-Source, simple, hautement scalable et intégrable dans une démarche de tests de performance en continue.
Javascript as a first programming language : votre IC prête pour la révolution !VISEO
NodeJs, GruntJs, Bower, Karma, ... des buzzwords dont nous entendons parler, que nous voyons passer dans les blogs/articles. Mais à quoi servent-ils ?
Comment industrialiser nos développements Javascript ? Mettre en place des tests unitaires dans une application Web ? Générer de la documentation ? Des métriques qualités ? La couverture de code ? Comme avec Maven ? Nous verrons concrètement comment articuler tous ces outils autour d'une application école, pour démystifier tout ça.
Introduction sur les domaines scientifiques impliqués dans la fouille de textes
- TAL et fouille de données : En quoi les données textuelles sont particulières (lexique, syntaxe mais aussi diversité langagière, des formats, des entités, des méta-données etc.) et quels sont les types de ressources utiles ou disponibles.
- Des modèles et des tâches (analyse grammaticale, désambiguisation, similarité textuelle, recherche et extraction d'information, classification...) et des collections standard pour évaluer des modèles et des outils
- Les approches automatisées sont associées à différentes manières de travailler les corpus (règles manuelles, apprentissage et bases d'exemples, degrés de supervision humaine, ...) : avantages / inconvénients, risques ...
Panorama méthodologique de l'offre logicielle académique ou commerciale
- Des outils pour l'utilisateur final, des APIs pour le développement, des plateformes d'annotation pour la création de bases d'apprentissage, des outils pour écrire des règles symboliques
- Des outils logiciels plus ou moins interactifs
Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ?
L'utilisation du terme « Sémantique » a souvent été porteur de confusions donnant à penser que le Web sémantique visait la compréhension du langage naturel par les machines. Même si les objectifs réels du Web sémantique semblent en réalité éloignées des techniques du traitement automatique de la langue, les technologies du Web sémantique n'en restent pas moins intéressantes pour les solutions d'accès et de recherche d'information. En effet, celles-ci sont déployée dans des contextes de plus en plus complexes mêlant données structurées et données non structurées et, dans ce cadre, les technologies du Web sémantique permettent de résoudre de nombreux problèmes de par le cadre d'interopérabilité et l'écosystème de standards et d'outils qu'elles offrent.
Impliqués depuis plusieurs années dans le domaine, nous montrerons comment les technologies du Web sémantique aide les équipes Antidot à mieux gérer, traiter et valoriser les données de leurs clients. Dans cette présentation, nous parcourrons une palette assez large de manipulations des objets sémantiques pratiquées couramment dans nos réalisations et basées sur les technologies du Web sémantique.
Nous illustrerons notre exposé par des réalisations concrètes et nous montrerons en quoi l’utilisation du Web sémantique nous a épargné des heures de développements spécifiques et nous a permis d’adresser des problématiques de plus en plus complexes.
Nous aborderons notamment l’extension sémantique, la navigation par facette, la mise en relation de silos d’informations hétérogènes, l’alignement des données sur des référentiels, l’utilisation du Web des données et d’autres techniques originales que nous avons développées pour la nouvelle version d’AFS.
Déroulé d'un atelier de formation à HAL :
* Présentation générale
- Définitions
- Interopérabilité des plateformes
- Pourquoi archiver ?
- Types de contenus
- Droit et copyright
- Quelle version déposer ?
- Potentiel du CIRED en matière de dépôts
- Licences Creative Commons
* Passage à la pratique
- Mon espace personnel
- Comment déposer
- Services complémentaires de Hal
Similaire à Détecter et nettoyer le contenu générique (20)
1. Détecter et nettoyer le contenu générique
pendant la phase de collecte de donnés (SCRAP)
2. Qui suis-je ?
Benoit Chevillot
Gerant de Divioseo à Dijon
06 07 44 57 57
info@divioseo.fr
Automatisation web
Développement web
Applications mobiles
Améliorations de la performance
Maintenance Ecommerce
3. Qu’est ce que le contenu générique ?
In information technology, a boilerplate is a unit of writing that can be
reused over and over without change. By extension, the idea is sometimes
applied to reusable programming as in "boilerplate code." The term derives
from steel manufacturing, where boilerplate is steel rolled into large plates
for use in steam boilers
En HTML : les footers, headers, éléments de navigations, …
4. Les entités
nommées
Consiste à rechercher des objets
textuels (c'est-à-dire un mot, ou un
groupe de mots) catégorisables dans
des classes telles que noms de
personnes, noms d'organisations ou
d'entreprises, noms de lieux, quantités,
distances, valeurs, dates, etc.
5. Les stops words
Les mots vides (ou stop words, en
anglais) sont des mots qui sont tellement
communs qu'il est inutile de les indexer
ou de les utiliser dans une recherche. En
français, des mots vides évidents
pourraient être « le », « la », « de », « du »,
« ce »…
Un mot qui apparaît avec une fréquence
semblable dans chacun des textes de
la collection n'est pas discriminant,
ne permet pas de distinguer les textes les
uns par rapport aux autres.
7. Pourquoi
nettoyer ?
- Garder seulement le contenu
pertinent
- Ne pas parasiter les résultats
- Gagner de la place en
stockage
- Gagner en temps de traitement
- Eviter les problèmes
10. Quand faire les nettoyages / calculs ?
Pendant : résultat temps réel, pas de cloisonnement entre les actions de
récupération et de traitement
Après : le post traitement permet de mener des actions d’extraction et
raffinage à posteriori, et donc de pouvoir utiliser des crawls existants comme
matière première
Que faire ? : les deux mon capitaine. Des opérations de nettoyage légère au
crawl (détection de langue, suppression du boilerplate) et opérations
intensives post crawl (calcul des cooccurences ou détection des entités
nommées pr exemple)
12. Expressions
régulières
Les expressions rationnelles sont
issues des théories mathématiques des
langages formels des années 1940.
Les expressions rationnelles sont
aujourd’hui utilisées par les
informaticiens dans l’édition et le
contrôle de texte ainsi que dans la
manipulation des langues formelles que
sont les langages de l’informatique.
from blog.it.edu
15. Dom parser
Parcourir le Document Object Model
pour exclure / garder seulement les
chemins intéressants
Xpath : //p[contains(@class, ‘mytext’)]
Css query : p.mytext
Quelques outils :
PHP Simple HTML DOM
Ruby Nokogiri
from wp2x.com
16. Chercher /
remplacer
Fonctionne partout : ctrl + F même
dans word !
Pour être sérieux en ligne de
commande :
Awk, sed
N’importe quel éditeur de code (vim,
notepad, sublimetext, coda, …)
17. Les frameworks et Apis
Plusieurs techniques en oeuvre : densité de liens, taille des séries
de mots, « footprint » de balises
19. JusText
Python / C++ / GO
https://github.com/miso-belica/jusText
Le meilleur en langues ‘exotiques’
20. Readability (arc 90)
Nombreux fork dans tous les languages pour la v1
https://github.com/masukomi/ar90-readability
Très peu performant
21. Name entity Recognizer (stanford)
Codé en java : http://nlp.stanford.edu/software/CRF-NER.shtml
Permet « d’entrainer » le système pour améliorer les détections
Détection de noms propre, sociétés, dates, pays, villes
22. Conseils
Utilisez plusieurs méthodes pour vos nettoyages et stockez les résultats (voir chainez les)
Pensez aux blacklists de mots clef (rappelez vous des voyants)
Supprimer les dates et série de chiffres (sauf si vous minez des numéros de téléphone bien sur)
Gardez les séries de mots (+ ponctuation) de plus de 6 mots.
Focalisez vous sur les balises de « type » texte, Hn, p, blockquote
Utilisez un ‘réparateur’ de code HTML comme tidy par exemple, vous améliorerez ainsi le taux d’extraction
Utilisez le bon charset lors de votre nettoyage, détectez le au préalable (extraction de meta charset) sinon vous
risquez la galère utf-8
Gardez si possible une version brut de la source de données pour faire un post traitement non anticipé