SlideShare une entreprise Scribd logo
1  sur  39
Télécharger pour lire hors ligne
dkd
development
kommunikation
design
DasSolr-System

Suche nicht nur auf Planet TYPO3

Ingo Renner, TYPO3 Core Developer
Olivier Dobberkau, Geschäftsführer dkd
IngoRenner


 TYPO3 Core Developer
 Release Manager TYPO3 4.2
 TYPO3 Google Summer of Code Admin


                                           - Caution -
 Software Architect, Senior Developer   TYPO3-Evangelist
 dkd Internet Service GmbH
OlivierDobberkau


 aka TYPO3 Reverend Neverend
 Geschäftsführer
 dkd Internet Service GmbH
 Research and Development @ dkd
 Kandidat für das BCC                - Caution -
 der TYPO3 Association            TYPO3-Evangelist
ApacheSolr
Open Source Enterprise Search Server
ApacheSolr


 Apache Software Foundation

 Enterprise Search Server

 Basiert auf Lucene Index

 Viele starke Funktionen


 CNet, Net ix, ilocal.nl, Zappos.com
SolrKey-Features

  Synonyme
  Stopwords
  Gewichtung
  Facettierung
  Bezahlte Ergebnisse
  Fehlerkorrektur
  Geschwindigkeit
Wiefunktioniert‘s


 REST ähnliches Interface

   Indexieren per POST

   Suchen per GET

 Ergebnisse als XML, JSON, PHP

 Bibliotheken

   SolrPhpClient

   php5_solr PECL Package
SolrIndex


Solr Index
Document     Field   Field   Field   Field


Document     Field   Field   Field           Field


Document     Field   Field   Field   Field   Field


Document     Field                   Field


Document     Field   Field           Field   Field
Heimatplanet
TYPO3
HeimatplanetTYPO3
SucheB.S.

(Before Solr)
IndexedSearch


 Indexed Search seit TYPO3 Version 3.x an Board
 Frontend Indexierung beim Seitenaufruf
 Suche in Seiten und einigen Dateien möglich
 Berücksichtigt Sprachen und FE-Gruppen
IndexedSearch


 Index in der Datenbank
 Problematisches Verhalten bei großen Webseiten
 Langsam
 Keine Sortierung
 un exible Templates
 OK für kleinere Websites
SucheimZeichender
Sonne.

Apache Solr für TYPO3
Geschichte


 Prototyp im Sommer 2008

 Kick-off Februar 2009

 Erstes Ziel „Acts like Indexed Search“

 Early Access Program (EAP)

 T3CON September 2009 Version 1.0

 Aktuelle Version 1.3 (public Version)
Komponenten


 Indexierung

 Suche

 Flexible Ergebnisausgabe

 Analyse und Statistiken

 Administration
Herausforderungen


 Seiten Rendering in TYPO3

 Berücksichtigung von Zugriffsrechten

 Dateiindexierung

 Einfaches Setup für Nicht-Java Leute

 Integration und Zugriff auf Solr
Lösungen


 Record Monitor und Indexing Queue

 Eigenes Solr Query Parser Plugin

 Integration von Apache Tika

 Voll automatisiertes bash Install Script

 SolrPhpClient und JSON Response Writer
Features


 Facettierte Suche

 Umfangreiche Dateiindexierung

 Multi-language Support

 Fehlerkorrektur / Did you mean

 Suchwort Highlighting

 Autocomplete / Suggestions

 Berücksichtigung von Zugriffsrechten
GalileoGalilei

Dreht sich die Sonne um die Erde?
Mond

Der Mond umkreist die Erde.
Entfernung 385.000 Kilometer von der Erde.
Mondlandung 21 Juli 1969.
Enorme Wirkung auf Menschen und Werwölfe.
Mond




       Tabell
              en
TYPO3Tabellen


 TYPO3 besteht nicht nur aus Seiten
 News, FAQ, Events, ...
 Gut: Eigene Indexer Erweiterung für FE
 Besser: Index Queue
   Record Monitor
   Garbage Collection
   Keine Eigenentwicklung nötig
Mars

Der rote Planet.
Entfernung zur Sonne 228.000.000 Kilometer.
Path nder sendet erste Bilder am 4. Juli 1997.
Leckerer Schokoladen-Riegel.
Kriegsgott im antiken Italien.
Mars

        Daten
       banke -
            n




          Tabell
                 en
Datenbanken


 Anwendungsfall: Daten aus Datenbanken
 Datenbanken nicht für Suche optimiert
 Apache Solr prädestiniert für Suche
 Data Import Handler (DIH)
   JDBC
   Dateilisten
   URL zum Beispiel für RSS Feeds, XML
Datenbanken


 Inkrementeller Import möglich
 Transformer vorhanden
   Regex
   HTML
 Processoren
   XPATH
Saturn

Geil ist Geil.
Abstand von Erde 1.430.000.000 Kilometer.
96% der Atmosphäre aus Wasserstoff.
Saturn-Ringe ø 1.000.000 Kilometer.
1610 entdeckte Galilei die Ringe und deutete diese
als Henkel
Gott des Ackerbaus.
Saturn

      Daten
     banke -         CSV
          n




         Tabell
                en
CSVDaten


 Wenn alle Stricke reißen: CSV
 CSV Update Request Handler
 Einfache Kon guration über URL Parameter
 Indexierung per POST
 Entfernte oder Lokale CSV Dateien
 Keine Transformation oder Boosting möglich
 Gut für Prototyping!
Venus

Entfernung zur Sonne 108.000.000 Kilometer.
Hellstes Objekt am Himmel nach dem Mond.
Göttin der Liebe und des erotischen Verlangens.
437°C im Schatten.
Venus

     Daten
    banke -         CSV
         n

                          Webs
                               ites




        Tabell
               en
AndereWebsites


 Jeder hat da sein kleines dunkles Geheimnis
 Nicht alle Websites mit CMS Systemen gebaut
 Kein Zugriff auf Daten möglich
 Nutch Crawler
 Crawlt Website ab
 Indexiert in eigenen Index
 Export zu Apache Solr mittels Mapping Funktion
Jupiter

Höchste Gottheit der römischen Mythologie.
Entfernung 778.000.000 Kilometer zur Sonne.
Tag dauert nur 9 Stunden und 55 Minuten.
ø Temperatur -108 C.
Heimatplanet von Fred.
Jupiter

      Daten
     banke -          CSV
          n

                            Webs
                                 ites




          Tabell
                 en




                                        Dateie
                                              n
Dateien


 Word und andere Grausamkeiten
 Volltext und unstrukturierte Daten
 Meta Informationen in Bildern und Filmen
 Apache Tika - Daten Extraktions Toolkit
   Meta Daten
   Text
   Spracherkennung
Dateien


 Tika ist in Apache Solr als eigener Handler
 vorhanden
 Erkennt über 1200 Dateitypen
 Kann über 600 davon lesen
   Of ce Formate inkl. OOXML, ODF und PDF
   Audio, Bilder und Video
   E-Mails im mbox Format
dkd
      design
      kommunikation
      development




sagtdanke.

Contenu connexe

Similaire à Das Solr System - Suche nicht nur auf Planet TYPO3

Sitzung 10
Sitzung 10Sitzung 10
Sitzung 10scuy
 
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...Arno Bosse
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trendintranda GmbH
 
Suche und PyLucene
Suche und PyLuceneSuche und PyLucene
Suche und PyLuceneThomas Koch
 
Open Source Search: Die Welt von Apache Lucene - WJax 2009
Open Source Search: Die Welt von Apache Lucene - WJax 2009Open Source Search: Die Welt von Apache Lucene - WJax 2009
Open Source Search: Die Welt von Apache Lucene - WJax 2009inovex GmbH
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Ralf Stockmann
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
Sich selbst verstehen – der ELK-Stack in der Praxis
Sich selbst verstehen – der ELK-Stack in der PraxisSich selbst verstehen – der ELK-Stack in der Praxis
Sich selbst verstehen – der ELK-Stack in der PraxisAlexander Papaspyrou
 
Facettensuche mit Lucene und Solr
Facettensuche mit Lucene und SolrFacettensuche mit Lucene und Solr
Facettensuche mit Lucene und SolrThomas Koch
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungAndreas Schreiber
 
Drupal Community Stammtisch
Drupal Community StammtischDrupal Community Stammtisch
Drupal Community StammtischSocial DNA GmbH
 
eCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha RinneeCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha RinneWolfgang Reinhardt
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltextecneudecker
 

Similaire à Das Solr System - Suche nicht nur auf Planet TYPO3 (20)

Sitzung 10
Sitzung 10Sitzung 10
Sitzung 10
 
Interaktives Web
Interaktives WebInteraktives Web
Interaktives Web
 
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...
Jedem Archiv seine Leser: Wissenschaftliches Web Publishing für Jedermann mit...
 
CKAN by Friedrich Lindenberg
CKAN by Friedrich LindenbergCKAN by Friedrich Lindenberg
CKAN by Friedrich Lindenberg
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend
 
Suche und PyLucene
Suche und PyLuceneSuche und PyLucene
Suche und PyLucene
 
Open Source Search: Die Welt von Apache Lucene - WJax 2009
Open Source Search: Die Welt von Apache Lucene - WJax 2009Open Source Search: Die Welt von Apache Lucene - WJax 2009
Open Source Search: Die Welt von Apache Lucene - WJax 2009
 
Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)Fit für die digitale Bibliothek? (2007)
Fit für die digitale Bibliothek? (2007)
 
Amazon Redshift
Amazon RedshiftAmazon Redshift
Amazon Redshift
 
Bit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-webBit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-web
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Sich selbst verstehen – der ELK-Stack in der Praxis
Sich selbst verstehen – der ELK-Stack in der PraxisSich selbst verstehen – der ELK-Stack in der Praxis
Sich selbst verstehen – der ELK-Stack in der Praxis
 
Facettensuche mit Lucene und Solr
Facettensuche mit Lucene und SolrFacettensuche mit Lucene und Solr
Facettensuche mit Lucene und Solr
 
Python, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und RaumfahrtforschungPython, Plone und Zope in der Luft- und Raumfahrtforschung
Python, Plone und Zope in der Luft- und Raumfahrtforschung
 
Überblick Solr
Überblick SolrÜberblick Solr
Überblick Solr
 
Twitter‘n mit Python
Twitter‘n mit PythonTwitter‘n mit Python
Twitter‘n mit Python
 
Drupal Community Stammtisch
Drupal Community StammtischDrupal Community Stammtisch
Drupal Community Stammtisch
 
eCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha RinneeCopSoft Präsentation Sascha Rinne
eCopSoft Präsentation Sascha Rinne
 
ALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für VolltexteALTO, PAGE & Co. Formate für Volltexte
ALTO, PAGE & Co. Formate für Volltexte
 

Plus de Olivier Dobberkau

Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3Olivier Dobberkau
 
Apache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engineApache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engineOlivier Dobberkau
 
With a little help from my friends (english)
With a little help  from my friends (english)With a little help  from my friends (english)
With a little help from my friends (english)Olivier Dobberkau
 
With a little help from my friends
With a little help from my friendsWith a little help from my friends
With a little help from my friendsOlivier Dobberkau
 
Sonnenschein für ihre Website
Sonnenschein für ihre WebsiteSonnenschein für ihre Website
Sonnenschein für ihre WebsiteOlivier Dobberkau
 
TYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted SolrTYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted SolrOlivier Dobberkau
 
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Olivier Dobberkau
 
ForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and valueForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and valueOlivier Dobberkau
 
ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014Olivier Dobberkau
 
Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014Olivier Dobberkau
 
Outside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp MallorcaOutside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp MallorcaOlivier Dobberkau
 
Status & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMSStatus & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMSOlivier Dobberkau
 
The future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy FranceThe future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy FranceOlivier Dobberkau
 
Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?Olivier Dobberkau
 
Everything you always wanted to know about search in typo3
Everything you always wanted to know about search in typo3Everything you always wanted to know about search in typo3
Everything you always wanted to know about search in typo3Olivier Dobberkau
 
Alles was-sie-ueber-suche-wissen-wollten
Alles was-sie-ueber-suche-wissen-wolltenAlles was-sie-ueber-suche-wissen-wollten
Alles was-sie-ueber-suche-wissen-wolltenOlivier Dobberkau
 

Plus de Olivier Dobberkau (20)

Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
Meet TYPO3 Vienna - Solr die Suchmachine für TYPO3
 
Apache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engineApache Solr for TYPO3: More than a search engine
Apache Solr for TYPO3: More than a search engine
 
TYPO3 v8 LTS in the cloud
TYPO3 v8 LTS in the cloudTYPO3 v8 LTS in the cloud
TYPO3 v8 LTS in the cloud
 
With a little help from my friends (english)
With a little help  from my friends (english)With a little help  from my friends (english)
With a little help from my friends (english)
 
With a little help from my friends
With a little help from my friendsWith a little help from my friends
With a little help from my friends
 
Sonnenschein für ihre Website
Sonnenschein für ihre WebsiteSonnenschein für ihre Website
Sonnenschein für ihre Website
 
Apache Solr Revisited 2015
Apache Solr Revisited 2015Apache Solr Revisited 2015
Apache Solr Revisited 2015
 
TYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted SolrTYPO3 Camp Poznan - Solr Usecases with Hosted Solr
TYPO3 Camp Poznan - Solr Usecases with Hosted Solr
 
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
Your Content hides a treasure (and you might have not found it) - ForgetIT Pr...
 
TYPO3 and CMIS
TYPO3 and CMISTYPO3 and CMIS
TYPO3 and CMIS
 
ForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and valueForgetIT: Beyond the page: Giving content a meaning and value
ForgetIT: Beyond the page: Giving content a meaning and value
 
ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014ForgetIT Project TYPO3Camp Milano 2014
ForgetIT Project TYPO3Camp Milano 2014
 
Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014Explain TYPO3 Association March 2014
Explain TYPO3 Association March 2014
 
EXPLAIN #t3a
EXPLAIN #t3aEXPLAIN #t3a
EXPLAIN #t3a
 
Outside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp MallorcaOutside the Box - Panel on CMS at TYPO3 Camp Mallorca
Outside the Box - Panel on CMS at TYPO3 Camp Mallorca
 
Status & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMSStatus & Outlook on EXT:solr for TYPO3 CMS
Status & Outlook on EXT:solr for TYPO3 CMS
 
The future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy FranceThe future of CMS @T3UNI 2013 Annecy France
The future of CMS @T3UNI 2013 Annecy France
 
Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?Digital dark age - Are we doing enough to preserve our website heritage?
Digital dark age - Are we doing enough to preserve our website heritage?
 
Everything you always wanted to know about search in typo3
Everything you always wanted to know about search in typo3Everything you always wanted to know about search in typo3
Everything you always wanted to know about search in typo3
 
Alles was-sie-ueber-suche-wissen-wollten
Alles was-sie-ueber-suche-wissen-wolltenAlles was-sie-ueber-suche-wissen-wollten
Alles was-sie-ueber-suche-wissen-wollten
 

Das Solr System - Suche nicht nur auf Planet TYPO3

  • 2. DasSolr-System Suche nicht nur auf Planet TYPO3 Ingo Renner, TYPO3 Core Developer Olivier Dobberkau, Geschäftsführer dkd
  • 3. IngoRenner TYPO3 Core Developer Release Manager TYPO3 4.2 TYPO3 Google Summer of Code Admin - Caution - Software Architect, Senior Developer TYPO3-Evangelist dkd Internet Service GmbH
  • 4. OlivierDobberkau aka TYPO3 Reverend Neverend Geschäftsführer dkd Internet Service GmbH Research and Development @ dkd Kandidat für das BCC - Caution - der TYPO3 Association TYPO3-Evangelist
  • 6. ApacheSolr Apache Software Foundation Enterprise Search Server Basiert auf Lucene Index Viele starke Funktionen CNet, Net ix, ilocal.nl, Zappos.com
  • 7. SolrKey-Features Synonyme Stopwords Gewichtung Facettierung Bezahlte Ergebnisse Fehlerkorrektur Geschwindigkeit
  • 8. Wiefunktioniert‘s REST ähnliches Interface Indexieren per POST Suchen per GET Ergebnisse als XML, JSON, PHP Bibliotheken SolrPhpClient php5_solr PECL Package
  • 9. SolrIndex Solr Index Document Field Field Field Field Document Field Field Field Field Document Field Field Field Field Field Document Field Field Document Field Field Field Field
  • 13. IndexedSearch Indexed Search seit TYPO3 Version 3.x an Board Frontend Indexierung beim Seitenaufruf Suche in Seiten und einigen Dateien möglich Berücksichtigt Sprachen und FE-Gruppen
  • 14. IndexedSearch Index in der Datenbank Problematisches Verhalten bei großen Webseiten Langsam Keine Sortierung un exible Templates OK für kleinere Websites
  • 16. Geschichte Prototyp im Sommer 2008 Kick-off Februar 2009 Erstes Ziel „Acts like Indexed Search“ Early Access Program (EAP) T3CON September 2009 Version 1.0 Aktuelle Version 1.3 (public Version)
  • 17. Komponenten Indexierung Suche Flexible Ergebnisausgabe Analyse und Statistiken Administration
  • 18. Herausforderungen Seiten Rendering in TYPO3 Berücksichtigung von Zugriffsrechten Dateiindexierung Einfaches Setup für Nicht-Java Leute Integration und Zugriff auf Solr
  • 19. Lösungen Record Monitor und Indexing Queue Eigenes Solr Query Parser Plugin Integration von Apache Tika Voll automatisiertes bash Install Script SolrPhpClient und JSON Response Writer
  • 20. Features Facettierte Suche Umfangreiche Dateiindexierung Multi-language Support Fehlerkorrektur / Did you mean Suchwort Highlighting Autocomplete / Suggestions Berücksichtigung von Zugriffsrechten
  • 21. GalileoGalilei Dreht sich die Sonne um die Erde?
  • 22. Mond Der Mond umkreist die Erde. Entfernung 385.000 Kilometer von der Erde. Mondlandung 21 Juli 1969. Enorme Wirkung auf Menschen und Werwölfe.
  • 23. Mond Tabell en
  • 24. TYPO3Tabellen TYPO3 besteht nicht nur aus Seiten News, FAQ, Events, ... Gut: Eigene Indexer Erweiterung für FE Besser: Index Queue Record Monitor Garbage Collection Keine Eigenentwicklung nötig
  • 25. Mars Der rote Planet. Entfernung zur Sonne 228.000.000 Kilometer. Path nder sendet erste Bilder am 4. Juli 1997. Leckerer Schokoladen-Riegel. Kriegsgott im antiken Italien.
  • 26. Mars Daten banke - n Tabell en
  • 27. Datenbanken Anwendungsfall: Daten aus Datenbanken Datenbanken nicht für Suche optimiert Apache Solr prädestiniert für Suche Data Import Handler (DIH) JDBC Dateilisten URL zum Beispiel für RSS Feeds, XML
  • 28. Datenbanken Inkrementeller Import möglich Transformer vorhanden Regex HTML Processoren XPATH
  • 29. Saturn Geil ist Geil. Abstand von Erde 1.430.000.000 Kilometer. 96% der Atmosphäre aus Wasserstoff. Saturn-Ringe ø 1.000.000 Kilometer. 1610 entdeckte Galilei die Ringe und deutete diese als Henkel Gott des Ackerbaus.
  • 30. Saturn Daten banke - CSV n Tabell en
  • 31. CSVDaten Wenn alle Stricke reißen: CSV CSV Update Request Handler Einfache Kon guration über URL Parameter Indexierung per POST Entfernte oder Lokale CSV Dateien Keine Transformation oder Boosting möglich Gut für Prototyping!
  • 32. Venus Entfernung zur Sonne 108.000.000 Kilometer. Hellstes Objekt am Himmel nach dem Mond. Göttin der Liebe und des erotischen Verlangens. 437°C im Schatten.
  • 33. Venus Daten banke - CSV n Webs ites Tabell en
  • 34. AndereWebsites Jeder hat da sein kleines dunkles Geheimnis Nicht alle Websites mit CMS Systemen gebaut Kein Zugriff auf Daten möglich Nutch Crawler Crawlt Website ab Indexiert in eigenen Index Export zu Apache Solr mittels Mapping Funktion
  • 35. Jupiter Höchste Gottheit der römischen Mythologie. Entfernung 778.000.000 Kilometer zur Sonne. Tag dauert nur 9 Stunden und 55 Minuten. ø Temperatur -108 C. Heimatplanet von Fred.
  • 36. Jupiter Daten banke - CSV n Webs ites Tabell en Dateie n
  • 37. Dateien Word und andere Grausamkeiten Volltext und unstrukturierte Daten Meta Informationen in Bildern und Filmen Apache Tika - Daten Extraktions Toolkit Meta Daten Text Spracherkennung
  • 38. Dateien Tika ist in Apache Solr als eigener Handler vorhanden Erkennt über 1200 Dateitypen Kann über 600 davon lesen Of ce Formate inkl. OOXML, ODF und PDF Audio, Bilder und Video E-Mails im mbox Format
  • 39. dkd design kommunikation development sagtdanke.