SlideShare ist ein Scribd-Unternehmen logo
1 von 34
Christian Meder | inovex GmbH Open Source SearchThe World of Apache Lucene
Agenda ,[object Object]
Überblick
Lucene
Solr
The world,[object Object]
Die Messlatte: Google ,[object Object]
Relevante Auszüge in Trefferliste,[object Object]
Hohe Verfügbarkeit
Autovervollständigung,[object Object]
„Meinten Sie“,[object Object],[object Object]
Schnelle Antwortzeiten
Hohe Verfügbarkeit
Autovervollständigung,[object Object],[object Object]
Feldbasierte Suche,[object Object],[object Object]
Keine globale Suche über heterogene Datenquellen: Dokumente, Datenbanken, etc.
Wenig Sortierung und Einschränkungsmöglichkeiten (Facetten),[object Object]
Sucharchitektur
Indizierungsarchitektur
Komponenten ,[object Object]
Nutch
grub
droids, ...
Extraktoren: tika
Kern: lucene
DB-Integrationen:
Compass
hibernate search, ...
Such-Server: solr,[object Object]
Lucene Basics ,[object Object]
Kern einer Sucharchitektur
Erfordert Grundverständnis und Einarbeitung
Skalierbar
Technisch ausgereift und mächtig

Weitere ähnliche Inhalte

Ähnlich wie Open Source Search: Die Welt von Apache Lucene - WJax 2009

Schnittstellen und Webservices
Schnittstellen und WebservicesSchnittstellen und Webservices
Schnittstellen und WebservicesJakob .
 
Datenformate und Standards
Datenformate und StandardsDatenformate und Standards
Datenformate und StandardsJakob .
 
Schnittstellen und Webservices
Schnittstellen und WebservicesSchnittstellen und Webservices
Schnittstellen und WebservicesJakob .
 
6 Beispiele für die nützliche Anwendung von Mikroformaten
6 Beispiele für die nützliche Anwendung von Mikroformaten6 Beispiele für die nützliche Anwendung von Mikroformaten
6 Beispiele für die nützliche Anwendung von MikroformatenMichael Jendryschik
 
Onpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsOnpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsget traction GmbH
 
Das Solr System - Suche nicht nur auf Planet TYPO3
Das Solr System - Suche nicht nur auf Planet TYPO3Das Solr System - Suche nicht nur auf Planet TYPO3
Das Solr System - Suche nicht nur auf Planet TYPO3Olivier Dobberkau
 
Web 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenWeb 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenAI4BD GmbH
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtMaik Schmidt
 
Data Science - (K)eine Teenagerliebe
Data Science - (K)eine TeenagerliebeData Science - (K)eine Teenagerliebe
Data Science - (K)eine TeenagerliebeThilo Stadelmann
 
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsOMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsget traction GmbH
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark Josef Adersberger
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeQAware GmbH
 
Personalisierung
PersonalisierungPersonalisierung
PersonalisierungUdo Ornik
 
RegioHelden - Google Places Optimierung
RegioHelden - Google Places OptimierungRegioHelden - Google Places Optimierung
RegioHelden - Google Places OptimierungFeliks Eyser
 
MongoDB: Entwurfsmuster für das NoSQL-Schema-Design
MongoDB: Entwurfsmuster für das NoSQL-Schema-DesignMongoDB: Entwurfsmuster für das NoSQL-Schema-Design
MongoDB: Entwurfsmuster für das NoSQL-Schema-DesignGregor Biswanger
 
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...flimm
 
Datenformate und Standards
Datenformate und StandardsDatenformate und Standards
Datenformate und StandardsJakob .
 
Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...
Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...
Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...Olaf Kopp
 
Strukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineStrukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineOliver Mösing
 
Facettensuche mit Lucene und Solr
Facettensuche mit Lucene und SolrFacettensuche mit Lucene und Solr
Facettensuche mit Lucene und SolrThomas Koch
 

Ähnlich wie Open Source Search: Die Welt von Apache Lucene - WJax 2009 (20)

Schnittstellen und Webservices
Schnittstellen und WebservicesSchnittstellen und Webservices
Schnittstellen und Webservices
 
Datenformate und Standards
Datenformate und StandardsDatenformate und Standards
Datenformate und Standards
 
Schnittstellen und Webservices
Schnittstellen und WebservicesSchnittstellen und Webservices
Schnittstellen und Webservices
 
6 Beispiele für die nützliche Anwendung von Mikroformaten
6 Beispiele für die nützliche Anwendung von Mikroformaten6 Beispiele für die nützliche Anwendung von Mikroformaten
6 Beispiele für die nützliche Anwendung von Mikroformaten
 
Onpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOsOnpage SEO im Griff: Alerting und Monitoring für SEOs
Onpage SEO im Griff: Alerting und Monitoring für SEOs
 
Das Solr System - Suche nicht nur auf Planet TYPO3
Das Solr System - Suche nicht nur auf Planet TYPO3Das Solr System - Suche nicht nur auf Planet TYPO3
Das Solr System - Suche nicht nur auf Planet TYPO3
 
Web 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werdenWeb 3.0 - Wie Webseiten intelligent werden
Web 3.0 - Wie Webseiten intelligent werden
 
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik SchmidtData Scraping with Excel - Campixx 2013 - Maik Schmidt
Data Scraping with Excel - Campixx 2013 - Maik Schmidt
 
Data Science - (K)eine Teenagerliebe
Data Science - (K)eine TeenagerliebeData Science - (K)eine Teenagerliebe
Data Science - (K)eine Teenagerliebe
 
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOsOMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
OMWest Barcamp 2018: Onpage SEO im Griff: Alerting und Monitoring für SEOs
 
Clickstream Analysis with Spark
Clickstream Analysis with Spark Clickstream Analysis with Spark
Clickstream Analysis with Spark
 
Clickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real TimeClickstream Analysis with Spark - Understanding Visitors in Real Time
Clickstream Analysis with Spark - Understanding Visitors in Real Time
 
Personalisierung
PersonalisierungPersonalisierung
Personalisierung
 
RegioHelden - Google Places Optimierung
RegioHelden - Google Places OptimierungRegioHelden - Google Places Optimierung
RegioHelden - Google Places Optimierung
 
MongoDB: Entwurfsmuster für das NoSQL-Schema-Design
MongoDB: Entwurfsmuster für das NoSQL-Schema-DesignMongoDB: Entwurfsmuster für das NoSQL-Schema-Design
MongoDB: Entwurfsmuster für das NoSQL-Schema-Design
 
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und ...
 
Datenformate und Standards
Datenformate und StandardsDatenformate und Standards
Datenformate und Standards
 
Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...
Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...
Entitäten basierte Suche Teil 1: Alles was Du zum Knowledge Graph, Indexierun...
 
Strukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineStrukturierte daten in der Suchmaschine
Strukturierte daten in der Suchmaschine
 
Facettensuche mit Lucene und Solr
Facettensuche mit Lucene und SolrFacettensuche mit Lucene und Solr
Facettensuche mit Lucene und Solr
 

Mehr von inovex GmbH

lldb – Debugger auf Abwegen
lldb – Debugger auf Abwegenlldb – Debugger auf Abwegen
lldb – Debugger auf Abwegeninovex GmbH
 
Are you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AIAre you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AIinovex GmbH
 
Why natural language is next step in the AI evolution
Why natural language is next step in the AI evolutionWhy natural language is next step in the AI evolution
Why natural language is next step in the AI evolutioninovex GmbH
 
Network Policies
Network PoliciesNetwork Policies
Network Policiesinovex GmbH
 
Interpretable Machine Learning
Interpretable Machine LearningInterpretable Machine Learning
Interpretable Machine Learninginovex GmbH
 
Jenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen UmgebungenJenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen Umgebungeninovex GmbH
 
AI auf Edge-Geraeten
AI auf Edge-GeraetenAI auf Edge-Geraeten
AI auf Edge-Geraeteninovex GmbH
 
Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetesinovex GmbH
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systemsinovex GmbH
 
Representation Learning von Zeitreihen
Representation Learning von ZeitreihenRepresentation Learning von Zeitreihen
Representation Learning von Zeitreiheninovex GmbH
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenteninovex GmbH
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?inovex GmbH
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Projectinovex GmbH
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretabilityinovex GmbH
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use caseinovex GmbH
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessinovex GmbH
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumiinovex GmbH
 

Mehr von inovex GmbH (20)

lldb – Debugger auf Abwegen
lldb – Debugger auf Abwegenlldb – Debugger auf Abwegen
lldb – Debugger auf Abwegen
 
Are you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AIAre you sure about that?! Uncertainty Quantification in AI
Are you sure about that?! Uncertainty Quantification in AI
 
Why natural language is next step in the AI evolution
Why natural language is next step in the AI evolutionWhy natural language is next step in the AI evolution
Why natural language is next step in the AI evolution
 
WWDC 2019 Recap
WWDC 2019 RecapWWDC 2019 Recap
WWDC 2019 Recap
 
Network Policies
Network PoliciesNetwork Policies
Network Policies
 
Interpretable Machine Learning
Interpretable Machine LearningInterpretable Machine Learning
Interpretable Machine Learning
 
Jenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen UmgebungenJenkins X – CI/CD in wolkigen Umgebungen
Jenkins X – CI/CD in wolkigen Umgebungen
 
AI auf Edge-Geraeten
AI auf Edge-GeraetenAI auf Edge-Geraeten
AI auf Edge-Geraeten
 
Prometheus on Kubernetes
Prometheus on KubernetesPrometheus on Kubernetes
Prometheus on Kubernetes
 
Deep Learning for Recommender Systems
Deep Learning for Recommender SystemsDeep Learning for Recommender Systems
Deep Learning for Recommender Systems
 
Azure IoT Edge
Azure IoT EdgeAzure IoT Edge
Azure IoT Edge
 
Representation Learning von Zeitreihen
Representation Learning von ZeitreihenRepresentation Learning von Zeitreihen
Representation Learning von Zeitreihen
 
Talk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale AssistentenTalk to me – Chatbots und digitale Assistenten
Talk to me – Chatbots und digitale Assistenten
 
Künstlich intelligent?
Künstlich intelligent?Künstlich intelligent?
Künstlich intelligent?
 
Dev + Ops = Go
Dev + Ops = GoDev + Ops = Go
Dev + Ops = Go
 
Das Android Open Source Project
Das Android Open Source ProjectDas Android Open Source Project
Das Android Open Source Project
 
Machine Learning Interpretability
Machine Learning InterpretabilityMachine Learning Interpretability
Machine Learning Interpretability
 
Performance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use casePerformance evaluation of GANs in a semisupervised OCR use case
Performance evaluation of GANs in a semisupervised OCR use case
 
People & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madnessPeople & Products – Lessons learned from the daily IT madness
People & Products – Lessons learned from the daily IT madness
 
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with PulumiInfrastructure as (real) Code – Manage your K8s resources with Pulumi
Infrastructure as (real) Code – Manage your K8s resources with Pulumi
 

Open Source Search: Die Welt von Apache Lucene - WJax 2009