SlideShare una empresa de Scribd logo
1 de 100
Descargar para leer sin conexión
INGENIERÍA DE ORGANIZACIÓN
INDUSTRIAL

 Inteligencia de negocios
 Tema 6
 Big Data: Los grandes volúmenes
 de datos y su impacto en la
 inteligencia de negocios
 Curso 2012/13 – 2º C
 Prof. Luis Joyanes Aguilar




                                   1
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas
  están buscando la mejor forma de aprovechar el exceso
  de información.
 La información abunda y las empresas están buscando la
  mejor forma de aprovecharla. Los expertos ya bautizaron
  este fenómeno como big data. La definición es amorfa,
  pero normalmente significa lo siguiente: las empresas
  tienen acceso a mucha más información que antes, que
  proviene de muchas más fuentes y la obtienen casi al
  momento en que se genera.



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –2–
   Abril 2013.Curso 2012/13
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 El concepto de big data a menudo se relaciona con las empresas que
  ya operan en el mundo de la información, como Google, Facebook y
  Amazon. Pero compañías en múltiples industrias están
  colocando los datos en el corazón de sus operaciones. Están
  recolectando cantidades enormes de información, a menudo
  combinando indicadores tradicionales como las ventas, con
  comentarios de redes sociales e información de ubicación que
  viene de los dispositivos móviles. Las empresas escudriñan esta
  información para mejorar sus productos, recortar gastos y mantener
  la fidelidad de sus clientes.
 Las firmas de logística, por ejemplo, instalan sensores en sus
  camiones para detectar formas de acelerar las entregas. Los
  fabricantes revisan miles de publicaciones en foros de Internet para
  determinar si a los clientes les gusta una nueva característica. Los
  gerentes de personal estudian cómo los candidatos a un empleo
  responden preguntas para ver si encajan bien con la compañía.
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                     Página –3–
   Abril 2013.Curso 2012/13
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 Aún quedan numerosos obstáculos en el camino. Algunos
  son técnicos, pero en la mayoría de las empresas las
  decisiones se siguen basando en la opinión de la persona
  con el salario más alto y podría ser difícil convencer a un
  ejecutivo de que los datos superan su intuición.
 Los recursos humanos, las operaciones, el desarrollo de
  productos o el márketing son las diferentes formas a
  través de las cuales las empresas usan el poder de la
  información para transformar sus negocios.




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -              Página –4–
   Abril 2013.Curso 2012/13
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 UPS
  UPS comenzó a instalar sensores en sus vehículos de
  reparto para conocer su velocidad y ubicación, si el
  cinturón de seguridad del conductor está abrochado... Al
  combinar su información de GPS y los datos de sensores
  sobre rendimiento en más de 46.000 vehículos, UPS
  recortó 136 millones de kilómetros de sus rutas.




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -            Página –5–
   Abril 2013.Curso 2012/13
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 InterContinental
  La cadena hotelera InterContinental ha recabado
  información sobre los 71 millones de miembros de su
  programa Priority Club, como niveles de ingresos y
  preferencias sobre las instalaciones. El grupo consolidó la
  información en un solo almacén de datos que reúne
  información de redes sociales y procesa búsquedas más
  rápido




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -              Página –6–
   Abril 2013.Curso 2012/13
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): ―data, data everywhere‖
www.economist.com/specialreports/displaystory.cfm?story_id=15557421




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                Página –7–
   Abril 2013.Curso 2012/13
LA AVALANCHA DE DATOS
 Según Eric Schmidt, presidente ejecutivo de Google, entre el
  origen de la tierra y el 2003 se crearon cinco exabytes de
  información. Hoy en día creamos la misma cifra cada dos
  días2. Las previsiones aseguran que en esta década
  crearemos alrededor de 35 zettabytes (40 ZB, informe de
  diciembre de 2012)
 Según la consultora IDC, cifran en 1,8 Zettabytes la
  información generada en 2011. Si tratáramos de almacenar
  esa información en iPads (del modelo de 32GB)
  necesitaríamos 57.500 millones; puestos unos al lado de
  otro formaríamos una línea que daría 3 veces la vuelta al
  mundo y, si tratáramos de apilarlos, la ―montaña‖ resultante
  sería 25 veces más alta que el monte Fuji.
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -            Página –8–
   Abril 2013.Curso 2012/13
EL UNIVERSO DIGITAL DE DATOS




 © Luis Joyanes Aguilar
 Universidad Pontificia de Salamanca -   Página –9–
 Abril 2013.Curso 2012/13
LA AVALANCHA DE DATOS
 Twitter: (redes sociales)
 90 millones de Tweets por día que representa 8
  Terabytes.
 Boeing: (industria)
 Vuelo transoceánico de un jumbo puede generar 640
  Terabytes.
 Wal-Mart: (comercio)
 1 millón de transacciones por hora que se estima que
  alimenta una base de datos de 2.5 petabytes.
 Google procesa al día 20 petabytes de información


  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -        Página –10–
  Abril 2013.Curso 2012/13
Big Data – McKinsey. Junio 2011
Big data: The next frontier for
 innovation, competition, and
 productivity.

http://www.mckinsey.com/Insights/MGI/
 Research/Technology_and_Innovation/Big
 _data_The_next_frontier_for_innovation




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –11–
  Abril 2013.Curso 2012/13
Big Data – McKinsey. Junio 2011
Big data: The next frontier for innovation,
 competition, and productivity.
The amount of data in our world has been
 exploding. Companies capture trillions of bytes of
 information about their customers, suppliers, and
 operations, and millions of networked sensors are
 being embedded in the physical world in devices
 such as mobile phones and automobiles,
 sensing, creating, and communicating data.
    © Luis Joyanes Aguilar
    Universidad Pontificia de Salamanca -   Página –12–
    Abril 2013.Curso 2012/13
Big Data – McKinsey. Junio 2011
Multimedia and individuals with smartphones and
 on social network sites will continue to fuel
 exponential growth. Big data—large pools of data
 that can be captured, communicated, aggregated,
 stored, and analyzed—is now part of every sector
 and function of the global economy. Like other
 essential factors of production such as hard
 assets and human capital, it is increasingly the
 case that much of modern economic activity,
 innovation, and growth simply couldn’t take place
 without data.
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –13–
  Abril 2013.Curso 2012/13
Big Data – McKinsey. Junio 2011
 The question is what this phenomenon means. Is the
  proliferation of data simply evidence of an increasingly
  intrusive world? Or can big data play a useful economic
  role? While most research into big data thus far has
  focused on the question of its volume, our study makes the
  case that the business and economic possibilities of big
  data and its wider implications are important issues that
  business leaders and policy makers must tackle. To inform
  the debate, this study examines the potential value that big
  data can create for organizations and sectors of the
  economy and seeks to illustrate and quantify that value. We
  also explore what leaders of organizations and policy
  makers need to do to capture it.
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -          Página –14–
   Abril 2013.Curso 2012/13
What do we mean by "big data"?―
: McKinsey 2011
―Big data‖ refers to datasets whose size is
 beyond the ability of typical database software
 tools to capture, store, manage, and analyze.
 This definition is intentionally subjective and incorporates a
 moving definition of how big a dataset needs to be in order to be
 considered big data—i.e., we don’t define big data in terms of
 being larger than a certain number of terabytes (thousands of
 gigabytes). We assume that, as technology advances over time,
 the size of datasets that qualify as big data will also increase. Also
 note that the definition can vary by sector, depending on what
 kinds of software tools are commonly available and what sizes of
 datasets are common in a particular industry. With those caveats,
 big data in many sectors today will range from a few dozen
 terabytes to multiple petabytes (thousands of terabytes).

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                  Página –15–
  Abril 2013.Curso 2012/13
DEFINICIÓN DE BIG DATA: IBM
 What is big data?*
 Every day, we create 2.5 quintillion bytes of data — so
  much that 90% of the data in the world today has been
  created in the last two years alone. This data comes from
  everywhere: sensors used to gather climate information,
  posts to social media sites, digital pictures and videos,
  purchase transaction records, and cell phone GPS signals
  to name a few. This data is big data.
 *http://www-
  01.ibm.com/software/data/bigdata/



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -            Página –16–
   Abril 2013.Curso 2012/13
DEFINICIÓN DE BIG DATA: IBM




 © Luis Joyanes Aguilar
 Universidad Pontificia de Salamanca -   Página –17–
 Abril 2013.Curso 2012/13
DEFINICIÓN DE BIG DATA: IBM
 Big data spans four dimensions: Volume, Velocity,
  Variety, and Veracity.

  Volume: Enterprises are awash with ever-growing data
  of all types, easily amassing terabytes—even petabytes—
  of information.
• Turn 12 terabytes of Tweets created each day into
  improved product sentiment analysis
• Convert 350 billion annual meter readings to better
  predict power consumption



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -          Página –18–
   Abril 2013.Curso 2012/13
DEFINICIÓN DE BIG DATA: IBM
 Velocity: Sometimes 2 minutes is too late. For time-
  sensitive processes such as catching fraud, big data must
  be used as it streams into your enterprise in order to
  maximize its value.
• Scrutinize 5 million trade events created each day to
  identify potential fraud
• Analyze 500 million daily call detail records in real-time to
  predict customer churn faster




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -               Página –19–
   Abril 2013.Curso 2012/13
DEFINICIÓN DE BIG DATA: IBM
 Variety: Big data is any type of data - structured and
  unstructured data such as text, sensor data, audio, video,
  click streams, log files and more. New insights are found
  when analyzing these data types together.
 Monitor 100’s of live video feeds from surveillance
  cameras to target points of interest
 Exploit the 80% data growth in images, video and
  documents to improve customer satisfaction




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -            Página –20–
   Abril 2013.Curso 2012/13
DEFINICIÓN DE BIG DATA: IBM
 Veracity: 1 in 3 business leaders don’t trust the
  information they use to make decisions. How can you act
  upon information if you don’t trust it? Establishing trust in
  big data presents a huge challenge as the variety and
  number of sources grows.
 Big data is more than simply a matter of size; it is an opportunity to
  find insights in new and emerging types of data and content, to make
  your business more agile, and to answer questions that were
  previously considered beyond your reach. Until now, there was no
  practical way to harvest this opportunity. Today, IBM’s platform for
  big data uses state of the art technologies including patented
  advanced analytics to open the door to a world of possibilities.



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                       Página –21–
   Abril 2013.Curso 2012/13
Modelo 3V de Big Data
 VOLUMEN
 • Terabytes
 • Records
 • Transactions
 • Tables, files
 VELOCIDAD                                VARIEDAD
 • Batch (por lotes)                      Estructurado
 • Near time (casi a tiempo)              No estructurado
 • Real time (tiempo real)                Semi-estructurado
 • Streams (flujos)                       Todos los demás

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                       Página –22–
   Abril 2013.Curso 2012/13
Fuentes de Big Data
 Herramientas para análisis de datos en grandes
  volúmenes de datos.
 Infraestructuras de Big Data
 Fuentes de Big Data (Soares 2012):
    Web y Social media
    Machine-to-Machine (M2M, Internet de las
     cosas)
    Biometria
    Datos de transacciones de grandes datos (salud,
     telecomunicaciones…)
    Datos generados por las personas (humanos)


  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -      Página –23–
  Abril 2013.Curso 2012/13
Store.com
   Sunil Soares (2003). Big Data Governance. An
  Emerging Imperative. Boise. MC Press Online. El
autor de este libro mantiene un blog excelente sobre
          Big Data y Gobierno de Big Data




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -               Página –24–
  Abril 2013.Curso 2012/13
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 1. Web y Social Media: Incluye contenido web e información
 que es obtenida de las medios sociales como Facebook, Twitter,
 LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
 de periódicos y televisiones, wikis como MediaWiki, Wikipedia,
 marcadores sociales como Del.icio.us, Stumbleupon…
 agregadores de contenidos como Dig, Meneame… En esta
 categoría los datos se capturan, almacenan o distribuyen
 teniendo presente las características siguientes: Datos de los
 flujos de clics, tuits, retuits o entradas en general (feeds) de
 Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos
 web diversos.

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                Página –25–
   Abril 2013.Curso 2012/13
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 2. Machine-to-Machine (M2M)/ Internet de las
  cosas: M2M se refiere a las tecnologías que permiten conectarse a
  otros diferentes dispositivos entre sí. M2M utiliza dispositivos como
  sensores o medidores que capturan algún evento en particular
  (humedad, velocidad, temperatura, presión, variables meteorológicas,
  variables químicas como la salinidad, etc.) los cuales transmiten a
  través de cableadas, inalámbricas y móviles a otras aplicaciones que
  traducen estos eventos en información significativa. La comunicación
  M2M ha originado el conocido Internet de las cosas o de los objetos.
  Entre los dispositivos que se emplean para capturar datos de esta
  categoría podemos considerar chips o etiquetas RFID, chips NFC,
  medidores (de temperaturas, de electricidad, presión…). sensores,
  dispositivos GPS… y ocasionan la generación de datos mediante la
  lectura de los medidores, lecturas de los RFID y NFC, lectura de los
  sensores, señales GPS, señales de GIS, etc.

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                     Página –26–
   Abril 2013.Curso 2012/13
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 3.Big Data transaccionales: Grandes datos transaccionales
 procedentes de operaciones normales de transacciones de todo
 tipo. Incluye registros de facturación, en telecomunicaciones
 registros detallados de las llamadas (CDR), etc. Estos datos
 transaccionales están disponibles en formatos tanto
 semiestructurados como no estructurados. Los datos generados
 procederán de registros de llamada de centros de llamada,
 departamentos de facturación, reclamaciones de las personas,
 presentación de documentos…



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -             Página –27–
   Abril 2013.Curso 2012/13
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 4. Biometría: La biometría o reconocimiento biométrico.
  La información biométrica se refiere a la identificación
  automática de una persona basada en sus características
  anatómicas o trazos personales. Los datos anatómicos se
  crean a partir de las características físicas de una persona
  incluyendo huellas digitales, iris, escaneo de la retina,
  reconocimiento facial, genética, DNA, reconocimiento de
  voz, incluso olor corporal etc. Los datos de
  comportamiento incluyen análisis de pulsaciones y
  escritura a mano. Los avances tecnológicos han
  incrementado considerablemente los datos biométricos
  disponibles

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -              Página –28–
   Abril 2013.Curso 2012/13
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 . En el área de seguridad e inteligencia, los datos
  biométricos han sido información importante para las
  agencias de investigación. En el área de negocios y de
  comercio electrónico los datos biométricos se pueden
  combinar con datos procedentes de medios sociales lo
  que hace aumentar el volumen de datos contenidos en los
  datos biométricos. Los datos generados por la biometría
  se pueden agrupar en dos grandes categorías: Genética y
  Reconocimiento facial.
 ―An Overview of Biometric Recpgnition‖.
  http://biometrics.cse.nsu.edu/info.html


   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -         Página –29–
   Abril 2013.Curso 2012/13
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 5. Datos generados por las personas: Las personas
  generan enormes y diversas cantidades de datos como la
  información que guarda un centro de llamadas telefónicas
  (call center) al establecer una llamada telefónica, notas de
  voz, correos electrónicos, documentos electrónicos,
  estudios y registros médicos electrónicos, recetas
  médicas, documentos papel, faxes, etc. El problema que
  acompaña a los documentos generados por las personas es que
  pueden contener información sensible de las personas que necesita,
  normalmente ser oculta, enmascarada o cifrada de alguna forma para
  conservar la privacidad de dichas personas. Estos datos al ser
  sensibles necesitan ser protegidos por las leyes nacionales o
  supranacionales (como es el caso de la Unión Europea o Mercosur)
  relativas a protección de datos y privacidad.

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                   Página –30–
   Abril 2013.Curso 2012/13
Estructura de Big Data: tipos de datos
Estructurados
No estructurados
   No estructurados (texto, datos de vídeo, datos de audio,,,)
   Semiestructurados ( a veces se conocen como
      ―multiestructurados‖. Tienen un formato y flujo lógico de modo
      que pueden ser entendidos pero el formato no es amistoso al
      usuario(HTML. XML…, datos de web logs)
 Normalmente, se suelen asociar los datos
  estructurados a los tradicionales y los datos no
  estructurados a los Big Data
 Objetivo principal de los sistemas de gestión de
  datos: Integración de datos estructurados y no
  estructurados
   © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                       Página –31–
  Abril 2013.Curso 2012/13
ESTADO ACTUAL DE BIG DATA
 1. Almacenamiento:
hacen falta nuevas tecnologías de almacenamiento
 2. Bases de datos:
las BD relacionales no pueden con todo
 3. Procesado:
 se requieren nuevos modelos de programación
 4. Obtención de valor:
los datos no se pueden comer crudos (en bruto)
La información no es conocimiento ―accionable‖



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –32–
   Abril 2013.Curso 2012/13
Bases de datos
 In-Memory (en-memoria)
    SAP Hana
    Oracle Times Ten In.Memory Database
    IBM solidDB
 Relacional
    Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
    Transeferencia de datos entre Hadoop y bases de datos
       relacionales
 Legacy (jerárquicas, en red… primeras relacionales…)
 In-Memory (SAP, Oracle, Microsoft…)



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                     Página –33–
   Abril 2013.Curso 2012/13
1. Almacenamiento
 Hacen falta nuevas tecnologías de almacenamiento
 RAM vs HHD

 HHD 100 más barato que RAM
 Pero 1000 veces más lento
 Solución actual:
 Solid- state drive (SSD) además no volátil
 Investigación:

 Storage Class Memory (SCM)

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -        Página –34–
  Abril 2013.Curso 2012/13
2. Base de datos

 Las BD relacionales no pueden con todo
 Base de datos
 volumen de la información
 GBs
 PBs Tiempo de ejecución
 Limitadas para almacenar ―big data‖
 (ACID, SQL, …)
 ACID: Atomicity, Consistency, Isolation & Durability



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -             Página –35–
   Abril 2013.Curso 2012/13
2. Bases de datos
In-Memory (en-memoria)
   SAP Hana
   Oracle Times Ten In-Memory Database
   IBM solidDB
 NoSQL (Not only SQL)
Relacional
   Sistemas RDBMS
   Transferencia de datos entre Hadoop y bases de datos
      relacionales
Legacy (heredadas, antiguas…)


  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                    Página –36–
  Abril 2013.Curso 2012/13
3. Procesado
 Se requieren nuevos modelos de programación
  para manejarse con estos datos
 Solución: Para conseguir procesar grandes conjuntos de
  datos:       MapReduce



 Pero fue el desarrollo de Hadoop MapReduce,
  por parte de Yahoo, el que ha propiciado un ecosistema
  de herramientas open source os Google creó el modelo
  de programación MapReduce
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -          Página –37–
   Abril 2013.Curso 2012/13
4. Obtención de valor
 los datos no se pueden comer crudos la
  información no es conocimiento accionable
 Para ello tenemos tecnicas de Data Mining
 • Asociación
 • Clasificación
 • Clustering
 • Predicción
 • ...
 Pero la mayoría de algoritmos se ejecutan bien en
  miles de registros, pero son hoy por hoy
  impracticables en miles de millones.

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -       Página –38–
  Abril 2013.Curso 2012/13
4. Obtención de valor
 Solución: Dentro del ecosistema open source Hadoop
  existe la iniciativa Mahout
 El objetivo es producir una implementación libre de un
  paquete que incluya los principales algoritmos de Data
  mining que escalen sobre la plataforma Hadoop.




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –39–
   Abril 2013.Curso 2012/13
INGENIERÍA DE ORGANIZACIÓN
INDUSTRIAL



 BASES DE DATOS NoSQL


 Prof. Luis Joyanes Aguilar




                              40
Bases de datos NoSQL (Not only SQL)
NoSQL – es un término utilizado para describir
 un subconjunto de bases de datos que difiere en
 varios modos de bases de datos tradicionales
 (RDBMS).
   No tienen schemas, no permiten JOINs, no intentan
      garantizar ACID y escalan horizontalmente
El término fue acuñado en 1998 por Carlo
 Strozzi y resucitado en 2009 por Eric Evans
   El propio Evans sugiere mejor referirse a esta familia
      de BBDD de nueva generación como ―Big Data‖


  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -             Página –41–
  Abril 2013.Curso 2012/13
Bases de datos NoSQL (Not only SQL)
 Categoría de sistemas de gestión de bases de datos que
  no utilizan el lenguaje SQL como su principal lenguaje de
  consulta.
 Incluyen una amplia oferta tal como Apache Hbase,
  Apache Cassandra, MongoDB, Apache CpuchDB,
  Riak, Neo4J, Redis, Membase, Amazon DynamoDB
  que constituye el software como servicio de Amazon Web
  Services
 Cassandra se utiliza en organizaciones tales como Netflix,
  Twitter, Cisco…



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -             Página –42–
   Abril 2013.Curso 2012/13
Bases de datos NoSQL (Not only SQL)
• NoSQL – "not only SQL” – es una categoría general de
  sistemas de gestión de bases de datos que difiere de
  modelos relacionales clásicos (RDBMS) en diferente
  modos:
   – Estos datastores no requieren esquemas de información
     fijas
   – Evitan las operaciones JOIN y escalan horizontalmente
• De hecho, tanto las bases de datos NoSQL como las
  relacionales son tipos de Almacenamiento
  Estructurado

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -              Página –43–
  Abril 2013.Curso 2012/13
Bases de datos NoSQL (Not only SQL)
 La principal diferencia radica en cómo guardan los datos
  (por ejemplo, almacenamiento de un recibo):
    En una RDBMS tendríamos que partir la información en
     diferentes tablas y luego usar un lenguaje de programación
     en la parte servidora para transformar estos datos en
     objetos de la vida real.
    En NoSQL, simplemente guardas el recibo:
          NoSQL es libre de schemas, tú no diseñas tus
       tablas y su estructura por adelantado
 ¡¡¡NoSQL no es la panacea!!!
    Si tus datos son relacionales, quedarte con tu RDBMS sería la
       opción correcta

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                     Página –44–
   Abril 2013.Curso 2012/13
¿Por qué necesitamos NoSQL?
 Las BBDD relacionales ofrecen bajo rendimiento ante ciertas
  aplicaciones intensivas de datos:
     Indexación de un gran número de documentos
     Servir páginas en sitios de mucho tráfico
     Envío de datos destreaming
 Las RDBMS están optimizadas para pequeñas pero frecuentes
  transacciones de lectura/escritura o largas transacciones con pocos
  acceso de escritura.
 NoSQL puede dar servicio a grandes cargas de lectura/escritura:
     Digg mantiene 3 TB de green badges (marcadores que indican las
       historias votadas por otros en una red social)
     Facebook que ha de realizar búsqueda en bandejas de mensajes de
       más de 50 TB


   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                        Página –45–
   Abril 2013.Curso 2012/13
Arquitectura de las BBDD NoSQL
 A menudo ofrecen sólo garantías de consistencia
  débiles, como por ejemplo eventual consistency, o
  transacciones restringidas a elementos de datos simples
 Emplean una arquitectura distribuida, donde los datos
  se guardan de modo redundante en distintos servidores, a
  menudo usando tablas hash distribuidas
 Suelen ofrecer estructuras de datos sencillas como
  arrays asociativos o almacenes de pares clave-valor




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -          Página –46–
   Abril 2013.Curso 2012/13
¿Quién usa NoSQL?
 No lo usan para todo, sólo para algunas partes de sus sistemas
  empresariales:
    Ubuntu DesktopCouch (CouchDB)
    Adobe y Mozilla (Hbase)
    Twitter
     (http://www.readwriteweb.com/cloud/2011/01/how-
     twitter-uses-nosql.php)




       © Luis Joyanes Aguilar
       Universidad Pontificia de Salamanca -           Página –47–
       Abril 2013.Curso 2012/13
Taxonomía de soluciones NoSQL
Los principales tipos de BBDD de acuerdo
 con su implementación son los siguientes:
   Almacenes de Clave-Valor
   Almacenes de Familia de Columnas
    (columnares)
   Almacenes de documentos
   Grafos



  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –48–
  Abril 2013.Curso 2012/13
Características BBDD
orientadas a Clave-Valor
Su precursor fue Amazon Dynamo
   Basadas en DHT (Distributed Hash
    Tables)
Modelo de datos: colección de pares
 clave/valor
Ejemplos: Dynomite, Voldemort, Tokyo



  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –49–
  Abril 2013.Curso 2012/13
Características BBDD
orientadas a Familia de Columnas
Su precursor es Google BigTable
Modelo de datos: familia de columnas, esto es, un
 modelo tabular donde cada fila puede tener una
 configuración diferente de columnas
Ejemplos: HBase, Hypertable, Cassandra, Riak
Buenas en:
   Gestión de tamaño
   Cargas de escrituras masivas orientas al stream
   Alta disponibilidad
   MapReduce

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -           Página –50–
  Abril 2013.Curso 2012/13
Características BBDD
orientadas a Documentos
La precursora fue Lotus Notes
Modelo de datos: colecciones de documentos que
 contienen colecciones de claves-valor
Ejemplos: CouchDB, MongoDB
Buenas en:
   Modelado de datos natural
   Amigables al programador
   Desarrollo rápido
   Orientas a la web: CRUD

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –51–
  Abril 2013.Curso 2012/13
Características Bases de
Datos Basadas en Grafos
 Inspiradas por la teoría de grafos
 Modelo de datos: nodos, relaciones con pares clave valor
  en ambos
 Ejemplos:          AllegroGraph, VertexBD, Neo4j




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –52–
   Abril 2013.Curso 2012/13
Apache Cassandra
 Es un almacén altamente escalable, eventualmente
  consistente y distribuido de estructuras clave-valor.
    Iniciado por Facebook
    Código abierto
    Proyecto apache
          Licencia: Apache License 2.0
    Escrito en Java
    Multiplataforma
    Versión actual: 1.1.6

    Web:http://cassandra.apache.org/
 Documentación:
  http://www.datastax.com/docs/1.0/index

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -              Página –53–
   Abril 2013.Curso 2012/13
¿Quién usa Apache Cassandra?
 Algunos usuarios famosos de Cassandra son:
    Digg
    Facebook
    Twitter
    Rackspace
    SimpleGEO
    …




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -        Página –54–
  Abril 2013.Curso 2012/13
Comparación de BBDD NoSQL
 Cassandra vs MongoDB vs CouchDB vs Redis vs
  Riak vs HBase vs Membase vs Neo4j comparison
   http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis

 NoSQL: Comparing the Different Solutions
   http://www.readwriteweb.com/cloud/2010/11/nosql-comparison.php

 Is the Relational Database Doomed?
   http://www.readwriteweb.com/enterprise/2009/02/is-the-relational-
      database-doomed.php
 Comparing Document Databases to Key-Value
  Stores
   http://nosql.mypopescu.com/post/659390374/comparing-
      document-databases-to-key-value-stores


  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                          Página –55–
  Abril 2013.Curso 2012/13
Bases de datos
NoSQL (not only SQL)… Bases de datos NoSQL:
   Cassandra
   MongoDB
   Apache CouchDB
   CouchBase
   Riak
   Amazon DynamoDB
   Noo4J
   Redis
   Membase
   Hbase
   Bases de datos                columnares (por columnas) en lugar de por
      filas como las bases de datos relacionales
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                           Página –56–
  Abril 2013.Curso 2012/13
NoSQL or not NoSQL?
 En NoSQL, generalmente los datos son recuperados de manera mucho más
  rápida que en un RDBMS, sin embargo las consultas que se pueden hacer son
  más limitadas y requieren trasladar complejidad a la aplicación
 RDBMS para escribir usan locks y redos para garantizar ACID, pero NoSQL no
  soporta a menudo Atomicy, Consistency o Durability
     Si quieres soporte transaccional integral debes seguir usando RDBMS
 Aplicaciones que generan informes emplean consultas complejas para las que
  NoSQL no es muy adecuado
 Aplicando MapReduce, las bases de datos NoSQL pueden paralelizar
  operaciones complejas como agregaciones estadísticas, filtros, agrupaciones
  o ordenación.
 Desde un punto de vista de sistemas deberíamos considerar
  la combinación de SQL y NoSQL:
     LinkedIn comenzó sólo con un RDBMS, pero desarrolló su propia BBDD NoSQL
      (Voldemort)
     Facebook tienen una arquitectura híbrida con Memcached y MySQL junto a un
      OLTP (envío de mensajes al Wall), y Cassandra para la búsqueda en la bandeja de
      entrada
    © Luis Joyanes Aguilar
    Universidad Pontificia de Salamanca -                                   Página –57–
    Abril 2013.Curso 2012/13
NoSQL or not NoSQL?
 Los principales problemas de NoSQL son:
   Su complejidad:
         Instalación
         Consultas (comprender bien MapReduce)
         Los modelos de datos usados
   Su falta de madurez

 ¿Dónde usarlas?
   Datos sociales
   Procesado de datos (Hadoop)
   Búsqueda (Lucene)
   Caching (Memcache)
   Data Warehousing

 ¿Qué problema quieres resolver?
   Transacciones
   Grandes volúmenes de datos (Exabytes)
   Estructura de los datos


  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -           Página –58–
  Abril 2013.Curso 2012/13
Conclusiones NoSQL
 Las BBDD NoSQL son una clara alternativa a los
  RDBMS
   Sobre todo para algunas aplicaciones sociales y web que
      requieren elevada escalabilidad
 No son idóneas para todo, de hecho en la mayoría
  de los casos las RDBMS deberían seguir siendo la
  primera opción:
   La capacidad de hacer JOIN y las garantías ACID son muy
      importantes para muchas aplicaciones
Es muy posible que los RDBMS actuales
 evolucionen para incorporar capacidades de
 NoSQL
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                       Página –59–
  Abril 2013.Curso 2012/13
INGENIERÍA DE ORGANIZACIÓN
INDUSTRIAL


 TECNOLOGÍAS
 BASES DE DATOS
 ―In-Memory‖

 Prof. Luis Joyanes Aguilar




                              60
Computación en memoria ―In-Memory‖
La computación en memoria                      es una
  tecnología que permite el procesamiento de cantidades
  masivas de datos en memoria principal para proporcionar
  resultados inmediatos del análisis y de las transacciones.
  Los datos a procesar, idealmente son datos en tiempo
      real (es decir, datos que están disponibles para su
      procesamiento o análisis inmediatamente después
      que se han creado). (IBM)

Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP             HANA   es una de las
más acreditadas y populares.
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                 Página –61–
   Abril 2013.Curso 2012/13
Bases de datos ―en memoria‖
 Los sistemas de gestión de bases de datos confian en la
  memoria principal para almacenamiento de datos.
  Comparados con los sistemas de gestión de bases datos
  tradicionales que almacenan datos en disco, las bases de
  datos en memoria están optimizadas para alcanzar
  grandes velocidades.
 Las bases de datos en memoria buscan procesar
  volúmenes masivos de grandes datos. SAP HANA, Oracle
  In-Memory Database, IBM solidDB… son ejemplos de
  bases de datos en memoria.



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –62–
   Abril 2013.Curso 2012/13
Bases de datos ―In-Memory‖
 Para conseguir el rendimiento deseado, la computación en
  memoria utiliza estos principios básicos:
 Mantener datos en memoria principal para aumentar
  la velocidad de acceso a los datos.
 Minimizar el movimiento de datos potenciando el
  concepto de almacenamiento en columna, compresión y
  ejecución de cálculos al nivel de base de datos.
 Divide y vencerás. La potenciación de la arquitectura
  multi-core de los procesadores modernos y de los
  servidores multi-procesador, o incluso ―escalar‖ en bases
  de datos distribuídas para poder crecer de lo que puede
  proporcionar un solo servidor.

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –63–
   Abril 2013.Curso 2012/13
Bases de datos ―In-Memory‖
 La capacidad de la memoria principal en servidores
  ha incrementado de modo continuo durante los
  últimos años, mientras que los precios han caído
  drásticamente. Hoy, un simple servidor empresarial puede
  contener varios terabytes de memoria principal.
 Al mismo tiempo, los precios de la memoria principal del
  servidor ha caído también en las últimas décadas. Este
  aumento de capacidad y reducción de costes hacen muy
  viable el sistema de mantener cantidades de datos
  de negocios en memoria.



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -          Página –64–
   Abril 2013.Curso 2012/13
Bases de datos ―In-Memory‖
 Memoria principal como almacén de datos
  (tiempos de acceso de datos de diferentes
  dispositivos de almacenamiento, en relación a
  RAM, escala logarítmica)
   Volátil.
      Registros CPU (0,005)
      Caché CPU (0,4-0,5)
      RAM (0.0 – 1.2)
   No volátil
         SSD/Flash (2.000)
         Disco duro (100.000 a 400.000)

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -      Página –65–
  Abril 2013.Curso 2012/13
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca -   Página –66–
Abril 2013.Curso 2012/13
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca -   Página –67–
Abril 2013.Curso 2012/13
TECNOLOGÍAS BIG DATA (HADOOP)
 Datos de la consultora IDC de agosto de 2012 prevén que el
  mercado del software relacionado con los framework
  open source Apache Hadoop y el MapReduce de
  Google crecerá a un ritmo anual de más del 60% hasta el
  año 2016.
 La popularidad de Hadoop se ha ido incrementando durante
  los últimos meses, a medida que las empresas necesitan
  manejar grandes cantidades de datos estructurados y no
  estructurados para después analizarlos y ser capaces de
  tomar decisiones lo más favorables posible para sus negocios.
 IDC también espera que el mercado de Hadoop-MapReduce evolucione y
  que poco a poco comienza a introducirse en los sistemas empresariales.


   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                   Página –68–
   Abril 2013.Curso 2012/13
TECNOLOGÍAS BIG DATA (HADOOP)
 Hadoop es un proyecto de software open source que
  provee un framework para habilitar el procesamiento
  distribuido de grandes conjuntos de datos sobre clusters
  construidos con hardware genérico. En esencia, Hadoop
  consiste de dos elementos base: un sistema de archivos
  distribuido (Hadoop Distributed File System, HDFS) y un
  motor de procesamiento de datos que implementa el
  modelo Map/Reduce (Hadoop MapReduce). Sin embargo,
  conforme ha ido ganando adopción y madurez, también
  se han ido creando tecnologías para complementarlo y
  ampliar sus escenarios de uso, de tal forma que hoy en
  día el nombre ―Hadoop‖ no se refiere a una sola
  herramienta sino a una familia de herramientas alrededor
  de HDFS y MapReduce.
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –69–
   Abril 2013.Curso 2012/13
Historia de HADOOP
 ● 2004-2006
 – Google publica los papers de GFS y MapReduce
 – Doug Cutting implementa una version Open Source en
 Nutch
 ● 2006-2008
 – Hadoop se separa de Nutch
 – Se alcanza la escala web en 2008
 ● 2008-Hasta ahora
 – Hadoop se populariza y se comienza a explotar
 comercialmente.
 Fuente: Hadoop: a brief history. Doug Cutting
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -         Página –70–
  Abril 2013.Curso 2012/13
Componentes fundamentales de Open
Source
 Apache Hadoop (biblioteca de software de open source)
 Apache Hadoop consta de los siguientes subproyectos
    HDFS (Haoop Distributed File System)
    MapREduce
    Hadoop Commons
y de las siguientes tecnologías
       Hbase
       Hive
       Pig
       Otras

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -         Página –71–
  Abril 2013.Curso 2012/13
TECNOLOGÍAS BIG DATA (HADOOP)
Almacenamiento y acceso a datos
 Como su nombre lo indica, estos componentes son los
  que proveen la capacidad de almacenar y acceder
  grandes volúmenes de datos. Aquí tenemos dos
  tecnologías principalmente: HDFS y HBase.




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -          Página –72–
  Abril 2013.Curso 2012/13
HADOOP
HDFS (Hadoop Distributed File System). Es
 un sistema de archivos distribuido que está optimizado
 para almacenar grandes cantidades de datos utilizando un
 patrón de acceso write-once read-many (escribe una vez,
 lee muchas). Esto hace que HDFS sea una opción
 adecuada cuando es necesario escribir pocos archivos
 grandes, que son leídos muchas veces. Un cluster HDFS
 tiene dos tipos de nodos: un nodo de nombre (namenode)
 y múltiples nodos de datos (datanodes). El primero es
 responsable del árbol del sistema de archivos y los
 metadatos, mientras que los segundos son los que
 realizan el acceso a los datos.

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -          Página –73–
  Abril 2013.Curso 2012/13
HADOOP
HBase (Hadoop Database). HBase es una base
 de datos distribuida, versionada y orientada a columnas,
 diseñada para almacenar tablas muy grandes (millones de
 registros con millones de columnas). HBase funciona
 encima de HDFS y usa la misma arquitectura de nodos:
 un nodo maestro que divide y distribuye los datos, y
 múltiples nodos de trabajo que realizan las operaciones de
 acceso a datos. Los datos de HBase típicamente se
 acceden por medio de tareas MapReduce, aunque
 también ofrece interfaces tipo REST.



  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -            Página –74–
  Abril 2013.Curso 2012/13
HADOOP
Procesamiento de datos
 Encima de la capa de datos necesitamos frameworks para
  procesar dichos datos. La herramienta principal en este
  capa es un motor de procesamiento de tareas
  MapReduce.
MapReduce es un modelo de programación creado
  originalmente por Google para procesar grandes
  cantidades de datos. Está inspirado en las funciones map
  y reduce de la programación funcional, aunque en
  realidad aquí funcionan de forma un poco distinta:



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –75–
   Abril 2013.Curso 2012/13
HADOOP
 Map: En este paso, un nodo maestro recibe una tarea y la
 divide en tareas más pequeñas que distribuye hacia otros
 nodos para que las procesen. Cada uno de estos nodos
 puede a su vez volver a dividir y repartir tareas, lo cual lleva
 a una estructura de árbol de varios niveles. Cada nodo de
 procesamiento, una vez que termina su tarea la regresa a su
 nodo maestro.
Reduce: El nodo maestro colecciona todas las respuestas
  recibidas y las combina para generar la salida, es decir, la
  respuesta al problema que originalmente se trata de resolver.
 Los beneficios principales de MapReduce son su escalabilidad y la
  variedad de datos que puede procesar tales como archivos, tablas de
  bases de datos, sitios web (web crawling).

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -                    Página –76–
   Abril 2013.Curso 2012/13
Obstáculos de MapReduce+NoSQL
 Difícil pensar en MapReduce+NoSQL hace falta
  ―desaprender
 Solución (open source):
 – HIVE, sistema DW basado en Hadoop desarrollado por
  Facebook que permite escribir consultas en SQL.
 – PIG, lenguaje de alto nivel para ejecutar trabajos sobre
  MapReduce (desarrollado per Yahoo).




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -            Página –77–
   Abril 2013.Curso 2012/13
Obstáculos de MapReduce+NoSQL
 Propuestas de la industria para integrar NoSQL con SQL:
 – Sqoop de Cloudera
 – Greenplum database
 – Aster Data's nCluster DW system
–…
 Muchas soluciones DW han optado por conectores
  Hadoop en vez de integrar sus propias funcionalidades
  MapReduce.




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –78–
   Abril 2013.Curso 2012/13
Hadoop
―The Apache Hadoop software library is a
 framework that allows for the distributed
 processing of large data sets across
 clusters of computers using a simple
 Programming model‖
 De la página de Hadoop




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –79–
  Abril 2013.Curso 2012/13
Componentes fundamentales de Open
Source
 Apache Hadoop (biblioteca de software de open source)
 Apache Hadoop consta de los siguientes subproyectos
    HDFS (Haoop Distributed File System)
    MapREduce
    Hadoop Commons
y de las siguientes tecnologías
       Hbase
       Hive
       Pig
       Otras

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -         Página –80–
  Abril 2013.Curso 2012/13
Hadoop
 Apache Hadoop es un framework que permite el
  tratamiento distribuido de grandes cantidades de datos
  (del orden de peta bytes) y trabajar con miles de
  máquinas de forma distribuida. Se inspiró en los
  documentos sobre MapReduce y Google File System
  publicados por Google.
 Está desarrollado en Java y se ejecuta dentro de la JVM.
 Actualmente está soportado por Google, Yahoo e IBM
  entre otros. También existen empresas como Cloudera
  (http://www.cloudera.com/) que ofrecen soluciones
  empresariales Open Source basadas en Hadoop.


   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -            Página –81–
   Abril 2013.Curso 2012/13
Hadoop
 Las características principales de Hadoop son
 Económico: Está diseñado para ejecutarse en equipos de
  bajo coste formando clústeres. Estos clústeres pueden
  llevarnos a pensar en miles de nodos de procesamiento
  disponibles para el procesado de información.
 • Escalable: Si se necesita más poder de procesamiento o
  capacidad de almacenamiento solo hay que añadir más
  nodos al clúster de forma sencilla.
 • Eficiente: Hadoop distribuye los datos y los procesa en
  paralelo en los nodos donde los datos se encuentran
  localizados.
 • Confiable: Es capaz de mantener Es capaz de mantener
  múltiples copias de los datos y
   © Luis Joyanes Aguilar
 automáticamente hacer un re-despliegue de las tareas
    Universidad Pontificia de Salamanca -           Página –82–
   Abril 2013.Curso 2012/13
Hadoop
 El diseño de Hadoop se divide en dos partes
  principales:
 Por un lado la implementación de MapReduce que se
  encarga del
 procesamiento de la información de forma distribuida.
 Por otro lado está el sistema de ficheros distribuido
  Hadoop Distributed File System (HDFS) que
  se encarga de almacenar todos los datos repartiéndolos
 entre cada nodo de la red Hadoop.



   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -          Página –83–
   Abril 2013.Curso 2012/13
Hadoop




 © Luis Joyanes Aguilar
 Universidad Pontificia de Salamanca -   Página –84–
 Abril 2013.Curso 2012/13
Sistema de Ficheros Distribuido
 Sistema de ficheros distribuido (HDFS)
 – Bloques grandes: 64 Mb
 ● Almacenados en el sistema de ficheros del SO
 – Tolerante a Fallos (replicacion)
 – Formatos habituales:
 ● Ficheros en formato texto (CSV)
 ● SequenceFiles
 – Ristras de pares [clave, valor]




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –85–
   Abril 2013.Curso 2012/13
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca -   Página –86–
Abril 2013.Curso 2012/13
Hadoop en la actualidad
 Hadoop se puede utilizar en teoría para casi cualquier tipo
  de trabajo batch, mejor que ha trabajos en tiempo real,
  ya que son más fáciles de dividir y ejecutar en paralelo.
  Entre lo campos actuales a aplicación se encuentran:
 • Análisis de logs
 • Análisis de mercado
 • Machine learning y data mining
 • Procesamiento de imágenes
 • Procesamiento de mensajes XML
 • Web crawling
 • Indexación

   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -             Página –87–
   Abril 2013.Curso 2012/13
Hadoop en la actualidad
 Actualmente Hadoop es un framework muy extendido en
  el ámbito empresarial, sobre todo en compañías que
  manejan grandes volúmenes de datos. Entre las que
  podemos descarta las siguientes empresas:
 Yahoo: La aplicación Yahoo! Search Webmap está
  implementado con Hadoop sobre un clúster de mas de
  10.000 nodos Linux y la información que produce es la
  utilizada por el buscador de Yahoo.
 Facebook: Tiene ha día de hoy el mayor clúster Hadoop
  del mundo que almacena hasta 30 peta bytes de
  información
 Amazon A9: Se utiliza para la generar índices de búsqueda de los
  productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
  100 nodos
   © Luis Joyanes Aguilar
 cada uno.
    Universidad Pontificia de Salamanca -                            Página –88–
    Abril 2013.Curso 2012/13
Hadoop en la actualidad
 The New York Times: Utiliza Hadoop y EC2 (Amazon
  Elastic Compute Cloud) para convertir 4 Tera bytes de
  imágenes TIFF en imágenes PNG de 800 K para ser
  mostradas en la Web en 36 horas.
 Además existen compañías cuyo negocio es principal es
  Hadoop, como Cloudera, que comercializa CDH
  (Cloudera's Distribution including Apache Hadoop), que da
  soporte en la configuración y despliegue de clústeres
 Hadoop. Además proporciona servicios de consultoría y
  formación en estas tecnología. Todo el software que
  distribuyen es Open Source.


   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -           Página –89–
   Abril 2013.Curso 2012/13
Distribuciones de Hadoop
 Cloudera
 mapR
 Hortonworks
 IBM… ofrece una distribución llamada InfoSphere
  BigInsights
 Amazon Web Services ofrece una marco de trabajo
  Hadoop que forma parte del servicio Amazon Elastic
  MapReduce
 EMC ofrece Greenplus HD
 Microsoft ofrece Hadoop como un servicio basado en
  la nube de Microsoft Azure

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -       Página –90–
  Abril 2013.Curso 2012/13
Proveedores de Big Data
 Algunos han desarrollado sus propias distribuciones de
  Hadoop (con diferentes niveles de personalización:
  disponibilidad, rendimiento, replicas …). Una distribución
  muy popular




 Otros ejemplos: MapR, Greenplum, Hortonworks, …
 Hay docenas




   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -             Página –91–
   Abril 2013.Curso 2012/13
Empresas que ya utilizan “Big Data”

 . IBM
  Intel
  HP
  Oracle
  Teradata
  Fujitsu
  CSC
  Accenture
  Dell
  Seagate
  Capgemini
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –92–
  Abril 2013.Curso 2012/13
Definición de Analítica de Big Data
BIG DATA ANALYTICS : (TDWI): 4Q 2011
 Big data analytics is where advanced analytic
  techniques operate on big data sets. Hence, big
  data analytics is really about two things—big data
  and analytics—plus how the two have teamed up
  to create one of the most profound trends in
  business intelligence (BI) today.
 The definition is easy to understand, but do users actually
  use the term? To quantify this question, the survey for
  this report asked: ―Which of the following best
  characterizes your familiarity with big data analytics and
  how you name it?‖ The survey results show that most
  users understand the concept of big data analytics,
  whether they have a name for it or not:
   © Luis Joyanes Aguilar
   Universidad Pontificia de Salamanca -             Página –93–
   Abril 2013.Curso 2012/13
ANALÍTICA DE BIG DATA
 Cloudera
 EMC Greenplum
 IBM
 Impetus Technologies
 Kognitio
 ParAccel
 SAP
 SAND Technology
 SAS
 Tableau Software
 Teradata
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -   Página –94–
  Abril 2013.Curso 2012/13
BIBLIOGRAFÍA
  SOARES, Sunil (2013). Big Data Governance. An
   emerging Imperative. Boise, USA: MC Press.
  FRANKS, Bill (2012). Taming the Big Data Tidal Wave.
   New York: Wiley.
  JOYANES, Luis (2012). Computación en la nube.
    Estrategias de cloud computing en las empresas.
   Marcombo/Alfaomega: Barcelona/México
  JOYANES, Luis (2013). Big Data. Análisis de los grandes
   volúmenes de datos. Marcombo/Alfaomega:
   Barcelona/México.



  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -           Página –95–
  Abril 2013.Curso 2012/13
 ZIKOPOULOS, Paul C. et al (2012). Understanding Big
  Data. Analytics for Enterprise Class Hadoop and Streaming
  Data. New York: McGraw-Hill.
  www-01.ibm.com/software/data/bigdata/
 ZIKOPOULOS, Paul C. et al (2013). Harness the Power
  of Big Data. The IBM Big Data Platform. New York:
  McGraw-Hill. Descargable libre en IBM




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -            Página –96–
  Abril 2013.Curso 2012/13
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca -   Página –97–
Abril 2013.Curso 2012/13
REFERENCIAS
McKinsey Global Institute . Big data: The
  next frontier for innovation, competition, and
  productivity. June 2011
James G. Kobielus. The Forrester Wave™:
 Enterprise Hadoop Solutions, Q1 2012, February
 2, 2012.
  www-01.ibm.com/software/data/bigdata/
 Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No
  Relacionales (NoSQL). Facultad de Ingeniería,
  Universidad de Deusto. www.morelab.deusto.es
  http://paginaspersonales.deusto.es/dipina
  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -           Página –98–
  Abril 2013.Curso 2012/13
BIBLIOGRAFÍA
 Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
 2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/




  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -       Página –99–
  Abril 2013.Curso 2012/13
Referencias, Ipiña Glz. de Artaza
 NoSQL vs. RDBMS
    Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS
      databases", version 10r2
         http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:266
            4632900346253817
    NoSQL or not NoSQL?
       http://www.slideshare.net/ruflin/nosql-or-not-nosql/download
    Comparativa de diferentes soluciones NoSQL:
       http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
    SQL vs. NoSQL. http://www.linuxjournal.com/article/10770

 Cassandra. ―NoSQL – Not only SQL (Introduction to
  Apache Cassandra)‖.
  http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql-
  introduction-to-apache-cassandra/#.TtonPmMk6nA
    http://www.datastax.com/docs/0.8/dml/using_cql
    http://cassandra.apache.org/

  © Luis Joyanes Aguilar
  Universidad Pontificia de Salamanca -                                Página –100–
  Abril 2013.Curso 2012/13

Más contenido relacionado

La actualidad más candente

Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Luis Joyanes
 
La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...
La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...
La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...Luis Joyanes
 
Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Luis Joyanes
 
Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinalLuis Joyanes
 
Curso de big data
Curso de big data Curso de big data
Curso de big data Luis Joyanes
 
Conferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingConferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingLuis Joyanes
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacionalLuis Joyanes
 
Big Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosBig Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosLuis Joyanes
 
Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Luis Joyanes
 
Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Luis Joyanes
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Luis Joyanes
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos Luis Joyanes
 
Pilar Santamaria IoT Big Data Analytics 2016 Agenda Empresarial
Pilar Santamaria IoT Big Data Analytics 2016 Agenda EmpresarialPilar Santamaria IoT Big Data Analytics 2016 Agenda Empresarial
Pilar Santamaria IoT Big Data Analytics 2016 Agenda EmpresarialPilar Santamaria
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosEnrique Onieva
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nubejony luna
 
Introduccion a la computacion en la nube
Introduccion a la computacion en la nubeIntroduccion a la computacion en la nube
Introduccion a la computacion en la nubeAngelo Madrid
 
Ebook: Internet de las cosas
Ebook: Internet de las cosasEbook: Internet de las cosas
Ebook: Internet de las cosasi cloud seven
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataEmilio del Prado
 
Introducción a la computacion en la Nube
Introducción a la computacion en la NubeIntroducción a la computacion en la Nube
Introducción a la computacion en la Nubeciyopi19
 
Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación
Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación
Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación INACAP
 

La actualidad más candente (20)

Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013
 
La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...
La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...
La cuartarevindustrial_industrial: Internet de las cosas y big data. los pila...
 
Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA Innovaciones Tecnológicas - Master UPSA
Innovaciones Tecnológicas - Master UPSA
 
Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinal
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
 
Conferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud ComputingConferencia Analítica Datos y Cloud Computing
Conferencia Analítica Datos y Cloud Computing
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacional
 
Big Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosBig Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datos
 
Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014
 
Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)Computación en la nube: Estado de arte (Octubre 2012)
Computación en la nube: Estado de arte (Octubre 2012)
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
Pilar Santamaria IoT Big Data Analytics 2016 Agenda Empresarial
Pilar Santamaria IoT Big Data Analytics 2016 Agenda EmpresarialPilar Santamaria IoT Big Data Analytics 2016 Agenda Empresarial
Pilar Santamaria IoT Big Data Analytics 2016 Agenda Empresarial
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datos
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Introduccion a la computacion en la nube
Introduccion a la computacion en la nubeIntroduccion a la computacion en la nube
Introduccion a la computacion en la nube
 
Ebook: Internet de las cosas
Ebook: Internet de las cosasEbook: Internet de las cosas
Ebook: Internet de las cosas
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big Data
 
Introducción a la computacion en la Nube
Introducción a la computacion en la NubeIntroducción a la computacion en la Nube
Introducción a la computacion en la Nube
 
Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación
Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación
Presentación Catalina Petric, Conferencia Capital Humano Diseño & Comunicación
 

Destacado

Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Joseph Lopez
 
Business intelligence and analytics
Business intelligence and analyticsBusiness intelligence and analytics
Business intelligence and analyticsRajiv Kumar
 
Caso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOne
Caso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOneCaso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOne
Caso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOneNeteris Spain
 
Como realizar estudio de mercado
Como realizar estudio de mercadoComo realizar estudio de mercado
Como realizar estudio de mercadoRonald Cifuentes
 
Twitter analysis by Kaify Rais
Twitter analysis by Kaify RaisTwitter analysis by Kaify Rais
Twitter analysis by Kaify RaisAjay Ohri
 

Destacado (8)

Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!
 
Migración Discoverer a Oracle BI
Migración Discoverer a Oracle BIMigración Discoverer a Oracle BI
Migración Discoverer a Oracle BI
 
Oracle bI(inteligencia de negocios)
Oracle bI(inteligencia de negocios)Oracle bI(inteligencia de negocios)
Oracle bI(inteligencia de negocios)
 
Business intelligence and analytics
Business intelligence and analyticsBusiness intelligence and analytics
Business intelligence and analytics
 
Nuevas Herramientas de Business Intelligence de Oracle
Nuevas Herramientas de Business Intelligence de OracleNuevas Herramientas de Business Intelligence de Oracle
Nuevas Herramientas de Business Intelligence de Oracle
 
Caso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOne
Caso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOneCaso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOne
Caso de éxito: Implementación de la Solución ERP Oracle JD Edwards EnterpriseOne
 
Como realizar estudio de mercado
Como realizar estudio de mercadoComo realizar estudio de mercado
Como realizar estudio de mercado
 
Twitter analysis by Kaify Rais
Twitter analysis by Kaify RaisTwitter analysis by Kaify Rais
Twitter analysis by Kaify Rais
 

Similar a Big Data Impact

Similar a Big Data Impact (20)

MMA Playbook Big Data - Version español
MMA Playbook Big Data - Version españolMMA Playbook Big Data - Version español
MMA Playbook Big Data - Version español
 
Big data
Big dataBig data
Big data
 
Revista TicNews Edición Mayo 2014
Revista TicNews Edición Mayo 2014Revista TicNews Edición Mayo 2014
Revista TicNews Edición Mayo 2014
 
Inteligencia negocios dennis garcia
Inteligencia negocios dennis garciaInteligencia negocios dennis garcia
Inteligencia negocios dennis garcia
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translated
 
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
 
Abelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaAbelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional Weborama
 
Articulo de Big Data
Articulo de Big DataArticulo de Big Data
Articulo de Big Data
 
Big data en la era de la nube
Big data en la era de la nubeBig data en la era de la nube
Big data en la era de la nube
 
Wp 2015-07
Wp 2015-07Wp 2015-07
Wp 2015-07
 
Ensayo tutoria 1 sep
Ensayo tutoria 1 sepEnsayo tutoria 1 sep
Ensayo tutoria 1 sep
 
Big data
Big dataBig data
Big data
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
Big data
Big dataBig data
Big data
 
Nt c1 2015-a9_giordanino_silvina
Nt c1 2015-a9_giordanino_silvinaNt c1 2015-a9_giordanino_silvina
Nt c1 2015-a9_giordanino_silvina
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
 
Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanish
 
Tema1
Tema1Tema1
Tema1
 
Revista Mundo Contact Octubre 2014
Revista Mundo Contact Octubre 2014Revista Mundo Contact Octubre 2014
Revista Mundo Contact Octubre 2014
 
Cómo generar valor a partir de los datos: formatos, técnicas y herramientas p...
Cómo generar valor a partir de los datos: formatos, técnicas y herramientas p...Cómo generar valor a partir de los datos: formatos, técnicas y herramientas p...
Cómo generar valor a partir de los datos: formatos, técnicas y herramientas p...
 

Más de Luis Joyanes

Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesCiberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesLuis Joyanes
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RLuis Joyanes
 
Master UPSA - Social Media II
Master UPSA - Social Media IIMaster UPSA - Social Media II
Master UPSA - Social Media IILuis Joyanes
 
Master UPSA- Social Media -I
Master UPSA- Social Media -IMaster UPSA- Social Media -I
Master UPSA- Social Media -ILuis Joyanes
 
Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Luis Joyanes
 
Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Luis Joyanes
 

Más de Luis Joyanes (6)

Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentesCiberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
Ciberseguridad: Retos, oportunidades y riesgos de las tecnologías emergentes
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
 
Master UPSA - Social Media II
Master UPSA - Social Media IIMaster UPSA - Social Media II
Master UPSA - Social Media II
 
Master UPSA- Social Media -I
Master UPSA- Social Media -IMaster UPSA- Social Media -I
Master UPSA- Social Media -I
 
Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012Seminario Analítica Social - ITESCO, México Noviembre 2012
Seminario Analítica Social - ITESCO, México Noviembre 2012
 
Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"Presentación del libro "Computación en la Nube"
Presentación del libro "Computación en la Nube"
 

Big Data Impact

  • 1. INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL Inteligencia de negocios Tema 6 Big Data: Los grandes volúmenes de datos y su impacto en la inteligencia de negocios Curso 2012/13 – 2º C Prof. Luis Joyanes Aguilar 1
  • 2. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas están buscando la mejor forma de aprovechar el exceso de información.  La información abunda y las empresas están buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenómeno como big data. La definición es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha más información que antes, que proviene de muchas más fuentes y la obtienen casi al momento en que se genera. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –2– Abril 2013.Curso 2012/13
  • 3. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  El concepto de big data a menudo se relaciona con las empresas que ya operan en el mundo de la información, como Google, Facebook y Amazon. Pero compañías en múltiples industrias están colocando los datos en el corazón de sus operaciones. Están recolectando cantidades enormes de información, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e información de ubicación que viene de los dispositivos móviles. Las empresas escudriñan esta información para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes.  Las firmas de logística, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva característica. Los gerentes de personal estudian cómo los candidatos a un empleo responden preguntas para ver si encajan bien con la compañía. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –3– Abril 2013.Curso 2012/13
  • 4. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  Aún quedan numerosos obstáculos en el camino. Algunos son técnicos, pero en la mayoría de las empresas las decisiones se siguen basando en la opinión de la persona con el salario más alto y podría ser difícil convencer a un ejecutivo de que los datos superan su intuición.  Los recursos humanos, las operaciones, el desarrollo de productos o el márketing son las diferentes formas a través de las cuales las empresas usan el poder de la información para transformar sus negocios. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –4– Abril 2013.Curso 2012/13
  • 5. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –5– Abril 2013.Curso 2012/13
  • 6. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  InterContinental La cadena hotelera InterContinental ha recabado información sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolidó la información en un solo almacén de datos que reúne información de redes sociales y procesa búsquedas más rápido © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –6– Abril 2013.Curso 2012/13
  • 7. Tabla de unidades de almacenamiento (The Economist, febrero 2010): ―data, data everywhere‖ www.economist.com/specialreports/displaystory.cfm?story_id=15557421 © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –7– Abril 2013.Curso 2012/13
  • 8. LA AVALANCHA DE DATOS  Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)  Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la ―montaña‖ resultante sería 25 veces más alta que el monte Fuji. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –8– Abril 2013.Curso 2012/13
  • 9. EL UNIVERSO DIGITAL DE DATOS © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –9– Abril 2013.Curso 2012/13
  • 10. LA AVALANCHA DE DATOS  Twitter: (redes sociales)  90 millones de Tweets por día que representa 8 Terabytes.  Boeing: (industria)  Vuelo transoceánico de un jumbo puede generar 640 Terabytes.  Wal-Mart: (comercio)  1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes.  Google procesa al día 20 petabytes de información © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –10– Abril 2013.Curso 2012/13
  • 11. Big Data – McKinsey. Junio 2011 Big data: The next frontier for innovation, competition, and productivity. http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –11– Abril 2013.Curso 2012/13
  • 12. Big Data – McKinsey. Junio 2011 Big data: The next frontier for innovation, competition, and productivity. The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –12– Abril 2013.Curso 2012/13
  • 13. Big Data – McKinsey. Junio 2011 Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big data—large pools of data that can be captured, communicated, aggregated, stored, and analyzed—is now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldn’t take place without data. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –13– Abril 2013.Curso 2012/13
  • 14. Big Data – McKinsey. Junio 2011  The question is what this phenomenon means. Is the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –14– Abril 2013.Curso 2012/13
  • 15. What do we mean by "big data"?― : McKinsey 2011 ―Big data‖ refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big data—i.e., we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes). © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –15– Abril 2013.Curso 2012/13
  • 16. DEFINICIÓN DE BIG DATA: IBM  What is big data?*  Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.  *http://www- 01.ibm.com/software/data/bigdata/ © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –16– Abril 2013.Curso 2012/13
  • 17. DEFINICIÓN DE BIG DATA: IBM © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –17– Abril 2013.Curso 2012/13
  • 18. DEFINICIÓN DE BIG DATA: IBM  Big data spans four dimensions: Volume, Velocity, Variety, and Veracity.  Volume: Enterprises are awash with ever-growing data of all types, easily amassing terabytes—even petabytes— of information. • Turn 12 terabytes of Tweets created each day into improved product sentiment analysis • Convert 350 billion annual meter readings to better predict power consumption © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –18– Abril 2013.Curso 2012/13
  • 19. DEFINICIÓN DE BIG DATA: IBM  Velocity: Sometimes 2 minutes is too late. For time- sensitive processes such as catching fraud, big data must be used as it streams into your enterprise in order to maximize its value. • Scrutinize 5 million trade events created each day to identify potential fraud • Analyze 500 million daily call detail records in real-time to predict customer churn faster © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –19– Abril 2013.Curso 2012/13
  • 20. DEFINICIÓN DE BIG DATA: IBM  Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together.  Monitor 100’s of live video feeds from surveillance cameras to target points of interest  Exploit the 80% data growth in images, video and documents to improve customer satisfaction © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –20– Abril 2013.Curso 2012/13
  • 21. DEFINICIÓN DE BIG DATA: IBM  Veracity: 1 in 3 business leaders don’t trust the information they use to make decisions. How can you act upon information if you don’t trust it? Establishing trust in big data presents a huge challenge as the variety and number of sources grows.  Big data is more than simply a matter of size; it is an opportunity to find insights in new and emerging types of data and content, to make your business more agile, and to answer questions that were previously considered beyond your reach. Until now, there was no practical way to harvest this opportunity. Today, IBM’s platform for big data uses state of the art technologies including patented advanced analytics to open the door to a world of possibilities. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –21– Abril 2013.Curso 2012/13
  • 22. Modelo 3V de Big Data  VOLUMEN  • Terabytes  • Records  • Transactions  • Tables, files  VELOCIDAD VARIEDAD  • Batch (por lotes) Estructurado  • Near time (casi a tiempo) No estructurado  • Real time (tiempo real) Semi-estructurado  • Streams (flujos) Todos los demás © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –22– Abril 2013.Curso 2012/13
  • 23. Fuentes de Big Data  Herramientas para análisis de datos en grandes volúmenes de datos.  Infraestructuras de Big Data  Fuentes de Big Data (Soares 2012):  Web y Social media  Machine-to-Machine (M2M, Internet de las cosas)  Biometria  Datos de transacciones de grandes datos (salud, telecomunicaciones…)  Datos generados por las personas (humanos) © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –23– Abril 2013.Curso 2012/13
  • 24. Store.com Sunil Soares (2003). Big Data Governance. An Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –24– Abril 2013.Curso 2012/13
  • 25. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  1. Web y Social Media: Incluye contenido web e información que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de periódicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon… agregadores de contenidos como Dig, Meneame… En esta categoría los datos se capturan, almacenan o distribuyen teniendo presente las características siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos web diversos. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –25– Abril 2013.Curso 2012/13
  • 26. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –26– Abril 2013.Curso 2012/13
  • 27. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procederán de registros de llamada de centros de llamada, departamentos de facturación, reclamaciones de las personas, presentación de documentos… © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –27– Abril 2013.Curso 2012/13
  • 28. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  4. Biometría: La biometría o reconocimiento biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –28– Abril 2013.Curso 2012/13
  • 29. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  . En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.  ―An Overview of Biometric Recpgnition‖. http://biometrics.cse.nsu.edu/info.html © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –29– Abril 2013.Curso 2012/13
  • 30. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –30– Abril 2013.Curso 2012/13
  • 31. Estructura de Big Data: tipos de datos Estructurados No estructurados  No estructurados (texto, datos de vídeo, datos de audio,,,)  Semiestructurados ( a veces se conocen como ―multiestructurados‖. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)  Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data  Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –31– Abril 2013.Curso 2012/13
  • 32. ESTADO ACTUAL DE BIG DATA  1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento  2. Bases de datos: las BD relacionales no pueden con todo  3. Procesado:  se requieren nuevos modelos de programación  4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento ―accionable‖ © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –32– Abril 2013.Curso 2012/13
  • 33. Bases de datos  In-Memory (en-memoria)  SAP Hana  Oracle Times Ten In.Memory Database  IBM solidDB  Relacional  Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…  Transeferencia de datos entre Hadoop y bases de datos relacionales  Legacy (jerárquicas, en red… primeras relacionales…)  In-Memory (SAP, Oracle, Microsoft…) © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –33– Abril 2013.Curso 2012/13
  • 34. 1. Almacenamiento  Hacen falta nuevas tecnologías de almacenamiento  RAM vs HHD  HHD 100 más barato que RAM  Pero 1000 veces más lento  Solución actual:  Solid- state drive (SSD) además no volátil  Investigación:  Storage Class Memory (SCM) © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –34– Abril 2013.Curso 2012/13
  • 35. 2. Base de datos  Las BD relacionales no pueden con todo  Base de datos  volumen de la información  GBs  PBs Tiempo de ejecución  Limitadas para almacenar ―big data‖  (ACID, SQL, …)  ACID: Atomicity, Consistency, Isolation & Durability © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –35– Abril 2013.Curso 2012/13
  • 36. 2. Bases de datos In-Memory (en-memoria)  SAP Hana  Oracle Times Ten In-Memory Database  IBM solidDB  NoSQL (Not only SQL) Relacional  Sistemas RDBMS  Transferencia de datos entre Hadoop y bases de datos relacionales Legacy (heredadas, antiguas…) © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –36– Abril 2013.Curso 2012/13
  • 37. 3. Procesado  Se requieren nuevos modelos de programación para manejarse con estos datos  Solución: Para conseguir procesar grandes conjuntos de datos: MapReduce  Pero fue el desarrollo de Hadoop MapReduce, por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source os Google creó el modelo de programación MapReduce © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –37– Abril 2013.Curso 2012/13
  • 38. 4. Obtención de valor  los datos no se pueden comer crudos la información no es conocimiento accionable  Para ello tenemos tecnicas de Data Mining  • Asociación  • Clasificación  • Clustering  • Predicción  • ...  Pero la mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –38– Abril 2013.Curso 2012/13
  • 39. 4. Obtención de valor  Solución: Dentro del ecosistema open source Hadoop existe la iniciativa Mahout  El objetivo es producir una implementación libre de un paquete que incluya los principales algoritmos de Data mining que escalen sobre la plataforma Hadoop. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –39– Abril 2013.Curso 2012/13
  • 40. INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL BASES DE DATOS NoSQL Prof. Luis Joyanes Aguilar 40
  • 41. Bases de datos NoSQL (Not only SQL) NoSQL – es un término utilizado para describir un subconjunto de bases de datos que difiere en varios modos de bases de datos tradicionales (RDBMS).  No tienen schemas, no permiten JOINs, no intentan garantizar ACID y escalan horizontalmente El término fue acuñado en 1998 por Carlo Strozzi y resucitado en 2009 por Eric Evans  El propio Evans sugiere mejor referirse a esta familia de BBDD de nueva generación como ―Big Data‖ © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –41– Abril 2013.Curso 2012/13
  • 42. Bases de datos NoSQL (Not only SQL)  Categoría de sistemas de gestión de bases de datos que no utilizan el lenguaje SQL como su principal lenguaje de consulta.  Incluyen una amplia oferta tal como Apache Hbase, Apache Cassandra, MongoDB, Apache CpuchDB, Riak, Neo4J, Redis, Membase, Amazon DynamoDB que constituye el software como servicio de Amazon Web Services  Cassandra se utiliza en organizaciones tales como Netflix, Twitter, Cisco… © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –42– Abril 2013.Curso 2012/13
  • 43. Bases de datos NoSQL (Not only SQL) • NoSQL – "not only SQL” – es una categoría general de sistemas de gestión de bases de datos que difiere de modelos relacionales clásicos (RDBMS) en diferente modos: – Estos datastores no requieren esquemas de información fijas – Evitan las operaciones JOIN y escalan horizontalmente • De hecho, tanto las bases de datos NoSQL como las relacionales son tipos de Almacenamiento Estructurado © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –43– Abril 2013.Curso 2012/13
  • 44. Bases de datos NoSQL (Not only SQL)  La principal diferencia radica en cómo guardan los datos (por ejemplo, almacenamiento de un recibo):  En una RDBMS tendríamos que partir la información en diferentes tablas y luego usar un lenguaje de programación en la parte servidora para transformar estos datos en objetos de la vida real.  En NoSQL, simplemente guardas el recibo:  NoSQL es libre de schemas, tú no diseñas tus tablas y su estructura por adelantado  ¡¡¡NoSQL no es la panacea!!!  Si tus datos son relacionales, quedarte con tu RDBMS sería la opción correcta © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –44– Abril 2013.Curso 2012/13
  • 45. ¿Por qué necesitamos NoSQL?  Las BBDD relacionales ofrecen bajo rendimiento ante ciertas aplicaciones intensivas de datos:  Indexación de un gran número de documentos  Servir páginas en sitios de mucho tráfico  Envío de datos destreaming  Las RDBMS están optimizadas para pequeñas pero frecuentes transacciones de lectura/escritura o largas transacciones con pocos acceso de escritura.  NoSQL puede dar servicio a grandes cargas de lectura/escritura:  Digg mantiene 3 TB de green badges (marcadores que indican las historias votadas por otros en una red social)  Facebook que ha de realizar búsqueda en bandejas de mensajes de más de 50 TB © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –45– Abril 2013.Curso 2012/13
  • 46. Arquitectura de las BBDD NoSQL  A menudo ofrecen sólo garantías de consistencia débiles, como por ejemplo eventual consistency, o transacciones restringidas a elementos de datos simples  Emplean una arquitectura distribuida, donde los datos se guardan de modo redundante en distintos servidores, a menudo usando tablas hash distribuidas  Suelen ofrecer estructuras de datos sencillas como arrays asociativos o almacenes de pares clave-valor © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –46– Abril 2013.Curso 2012/13
  • 47. ¿Quién usa NoSQL?  No lo usan para todo, sólo para algunas partes de sus sistemas empresariales:  Ubuntu DesktopCouch (CouchDB)  Adobe y Mozilla (Hbase)  Twitter (http://www.readwriteweb.com/cloud/2011/01/how- twitter-uses-nosql.php) © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –47– Abril 2013.Curso 2012/13
  • 48. Taxonomía de soluciones NoSQL Los principales tipos de BBDD de acuerdo con su implementación son los siguientes:  Almacenes de Clave-Valor  Almacenes de Familia de Columnas (columnares)  Almacenes de documentos  Grafos © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –48– Abril 2013.Curso 2012/13
  • 49. Características BBDD orientadas a Clave-Valor Su precursor fue Amazon Dynamo  Basadas en DHT (Distributed Hash Tables) Modelo de datos: colección de pares clave/valor Ejemplos: Dynomite, Voldemort, Tokyo © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –49– Abril 2013.Curso 2012/13
  • 50. Características BBDD orientadas a Familia de Columnas Su precursor es Google BigTable Modelo de datos: familia de columnas, esto es, un modelo tabular donde cada fila puede tener una configuración diferente de columnas Ejemplos: HBase, Hypertable, Cassandra, Riak Buenas en:  Gestión de tamaño  Cargas de escrituras masivas orientas al stream  Alta disponibilidad  MapReduce © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –50– Abril 2013.Curso 2012/13
  • 51. Características BBDD orientadas a Documentos La precursora fue Lotus Notes Modelo de datos: colecciones de documentos que contienen colecciones de claves-valor Ejemplos: CouchDB, MongoDB Buenas en:  Modelado de datos natural  Amigables al programador  Desarrollo rápido  Orientas a la web: CRUD © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –51– Abril 2013.Curso 2012/13
  • 52. Características Bases de Datos Basadas en Grafos  Inspiradas por la teoría de grafos  Modelo de datos: nodos, relaciones con pares clave valor en ambos  Ejemplos: AllegroGraph, VertexBD, Neo4j © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –52– Abril 2013.Curso 2012/13
  • 53. Apache Cassandra  Es un almacén altamente escalable, eventualmente consistente y distribuido de estructuras clave-valor.  Iniciado por Facebook  Código abierto  Proyecto apache  Licencia: Apache License 2.0  Escrito en Java  Multiplataforma  Versión actual: 1.1.6  Web:http://cassandra.apache.org/  Documentación: http://www.datastax.com/docs/1.0/index © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –53– Abril 2013.Curso 2012/13
  • 54. ¿Quién usa Apache Cassandra?  Algunos usuarios famosos de Cassandra son:  Digg  Facebook  Twitter  Rackspace  SimpleGEO  … © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –54– Abril 2013.Curso 2012/13
  • 55. Comparación de BBDD NoSQL  Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Membase vs Neo4j comparison  http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis  NoSQL: Comparing the Different Solutions  http://www.readwriteweb.com/cloud/2010/11/nosql-comparison.php  Is the Relational Database Doomed?  http://www.readwriteweb.com/enterprise/2009/02/is-the-relational- database-doomed.php  Comparing Document Databases to Key-Value Stores  http://nosql.mypopescu.com/post/659390374/comparing- document-databases-to-key-value-stores © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –55– Abril 2013.Curso 2012/13
  • 56. Bases de datos NoSQL (not only SQL)… Bases de datos NoSQL:  Cassandra  MongoDB  Apache CouchDB  CouchBase  Riak  Amazon DynamoDB  Noo4J  Redis  Membase  Hbase  Bases de datos columnares (por columnas) en lugar de por filas como las bases de datos relacionales © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –56– Abril 2013.Curso 2012/13
  • 57. NoSQL or not NoSQL?  En NoSQL, generalmente los datos son recuperados de manera mucho más rápida que en un RDBMS, sin embargo las consultas que se pueden hacer son más limitadas y requieren trasladar complejidad a la aplicación  RDBMS para escribir usan locks y redos para garantizar ACID, pero NoSQL no soporta a menudo Atomicy, Consistency o Durability  Si quieres soporte transaccional integral debes seguir usando RDBMS  Aplicaciones que generan informes emplean consultas complejas para las que NoSQL no es muy adecuado  Aplicando MapReduce, las bases de datos NoSQL pueden paralelizar operaciones complejas como agregaciones estadísticas, filtros, agrupaciones o ordenación.  Desde un punto de vista de sistemas deberíamos considerar la combinación de SQL y NoSQL:  LinkedIn comenzó sólo con un RDBMS, pero desarrolló su propia BBDD NoSQL (Voldemort)  Facebook tienen una arquitectura híbrida con Memcached y MySQL junto a un OLTP (envío de mensajes al Wall), y Cassandra para la búsqueda en la bandeja de entrada © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –57– Abril 2013.Curso 2012/13
  • 58. NoSQL or not NoSQL?  Los principales problemas de NoSQL son:  Su complejidad:  Instalación  Consultas (comprender bien MapReduce)  Los modelos de datos usados  Su falta de madurez  ¿Dónde usarlas?  Datos sociales  Procesado de datos (Hadoop)  Búsqueda (Lucene)  Caching (Memcache)  Data Warehousing  ¿Qué problema quieres resolver?  Transacciones  Grandes volúmenes de datos (Exabytes)  Estructura de los datos © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –58– Abril 2013.Curso 2012/13
  • 59. Conclusiones NoSQL  Las BBDD NoSQL son una clara alternativa a los RDBMS  Sobre todo para algunas aplicaciones sociales y web que requieren elevada escalabilidad  No son idóneas para todo, de hecho en la mayoría de los casos las RDBMS deberían seguir siendo la primera opción:  La capacidad de hacer JOIN y las garantías ACID son muy importantes para muchas aplicaciones Es muy posible que los RDBMS actuales evolucionen para incorporar capacidades de NoSQL © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –59– Abril 2013.Curso 2012/13
  • 60. INGENIERÍA DE ORGANIZACIÓN INDUSTRIAL TECNOLOGÍAS BASES DE DATOS ―In-Memory‖ Prof. Luis Joyanes Aguilar 60
  • 61. Computación en memoria ―In-Memory‖ La computación en memoria es una tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado). (IBM) Existen un amplio conjunto de tecnologías que emplean bases de datos en memoria. SAP HANA es una de las más acreditadas y populares. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –61– Abril 2013.Curso 2012/13
  • 62. Bases de datos ―en memoria‖  Los sistemas de gestión de bases de datos confian en la memoria principal para almacenamiento de datos. Comparados con los sistemas de gestión de bases datos tradicionales que almacenan datos en disco, las bases de datos en memoria están optimizadas para alcanzar grandes velocidades.  Las bases de datos en memoria buscan procesar volúmenes masivos de grandes datos. SAP HANA, Oracle In-Memory Database, IBM solidDB… son ejemplos de bases de datos en memoria. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –62– Abril 2013.Curso 2012/13
  • 63. Bases de datos ―In-Memory‖  Para conseguir el rendimiento deseado, la computación en memoria utiliza estos principios básicos:  Mantener datos en memoria principal para aumentar la velocidad de acceso a los datos.  Minimizar el movimiento de datos potenciando el concepto de almacenamiento en columna, compresión y ejecución de cálculos al nivel de base de datos.  Divide y vencerás. La potenciación de la arquitectura multi-core de los procesadores modernos y de los servidores multi-procesador, o incluso ―escalar‖ en bases de datos distribuídas para poder crecer de lo que puede proporcionar un solo servidor. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –63– Abril 2013.Curso 2012/13
  • 64. Bases de datos ―In-Memory‖  La capacidad de la memoria principal en servidores ha incrementado de modo continuo durante los últimos años, mientras que los precios han caído drásticamente. Hoy, un simple servidor empresarial puede contener varios terabytes de memoria principal.  Al mismo tiempo, los precios de la memoria principal del servidor ha caído también en las últimas décadas. Este aumento de capacidad y reducción de costes hacen muy viable el sistema de mantener cantidades de datos de negocios en memoria. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –64– Abril 2013.Curso 2012/13
  • 65. Bases de datos ―In-Memory‖  Memoria principal como almacén de datos (tiempos de acceso de datos de diferentes dispositivos de almacenamiento, en relación a RAM, escala logarítmica)  Volátil.  Registros CPU (0,005)  Caché CPU (0,4-0,5)  RAM (0.0 – 1.2)  No volátil  SSD/Flash (2.000)  Disco duro (100.000 a 400.000) © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –65– Abril 2013.Curso 2012/13
  • 66. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –66– Abril 2013.Curso 2012/13
  • 67. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –67– Abril 2013.Curso 2012/13
  • 68. TECNOLOGÍAS BIG DATA (HADOOP)  Datos de la consultora IDC de agosto de 2012 prevén que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecerá a un ritmo anual de más del 60% hasta el año 2016.  La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.  IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –68– Abril 2013.Curso 2012/13
  • 69. TECNOLOGÍAS BIG DATA (HADOOP)  Hadoop es un proyecto de software open source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusters construidos con hardware genérico. En esencia, Hadoop consiste de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce). Sin embargo, conforme ha ido ganando adopción y madurez, también se han ido creando tecnologías para complementarlo y ampliar sus escenarios de uso, de tal forma que hoy en día el nombre ―Hadoop‖ no se refiere a una sola herramienta sino a una familia de herramientas alrededor de HDFS y MapReduce. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –69– Abril 2013.Curso 2012/13
  • 70. Historia de HADOOP  ● 2004-2006  – Google publica los papers de GFS y MapReduce  – Doug Cutting implementa una version Open Source en  Nutch  ● 2006-2008  – Hadoop se separa de Nutch  – Se alcanza la escala web en 2008  ● 2008-Hasta ahora  – Hadoop se populariza y se comienza a explotar  comercialmente.  Fuente: Hadoop: a brief history. Doug Cutting © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –70– Abril 2013.Curso 2012/13
  • 71. Componentes fundamentales de Open Source  Apache Hadoop (biblioteca de software de open source)  Apache Hadoop consta de los siguientes subproyectos  HDFS (Haoop Distributed File System)  MapREduce  Hadoop Commons y de las siguientes tecnologías Hbase Hive Pig Otras © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –71– Abril 2013.Curso 2012/13
  • 72. TECNOLOGÍAS BIG DATA (HADOOP) Almacenamiento y acceso a datos  Como su nombre lo indica, estos componentes son los que proveen la capacidad de almacenar y acceder grandes volúmenes de datos. Aquí tenemos dos tecnologías principalmente: HDFS y HBase. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –72– Abril 2013.Curso 2012/13
  • 73. HADOOP HDFS (Hadoop Distributed File System). Es un sistema de archivos distribuido que está optimizado para almacenar grandes cantidades de datos utilizando un patrón de acceso write-once read-many (escribe una vez, lee muchas). Esto hace que HDFS sea una opción adecuada cuando es necesario escribir pocos archivos grandes, que son leídos muchas veces. Un cluster HDFS tiene dos tipos de nodos: un nodo de nombre (namenode) y múltiples nodos de datos (datanodes). El primero es responsable del árbol del sistema de archivos y los metadatos, mientras que los segundos son los que realizan el acceso a los datos. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –73– Abril 2013.Curso 2012/13
  • 74. HADOOP HBase (Hadoop Database). HBase es una base de datos distribuida, versionada y orientada a columnas, diseñada para almacenar tablas muy grandes (millones de registros con millones de columnas). HBase funciona encima de HDFS y usa la misma arquitectura de nodos: un nodo maestro que divide y distribuye los datos, y múltiples nodos de trabajo que realizan las operaciones de acceso a datos. Los datos de HBase típicamente se acceden por medio de tareas MapReduce, aunque también ofrece interfaces tipo REST. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –74– Abril 2013.Curso 2012/13
  • 75. HADOOP Procesamiento de datos  Encima de la capa de datos necesitamos frameworks para procesar dichos datos. La herramienta principal en este capa es un motor de procesamiento de tareas MapReduce. MapReduce es un modelo de programación creado originalmente por Google para procesar grandes cantidades de datos. Está inspirado en las funciones map y reduce de la programación funcional, aunque en realidad aquí funcionan de forma un poco distinta: © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –75– Abril 2013.Curso 2012/13
  • 76. HADOOP  Map: En este paso, un nodo maestro recibe una tarea y la divide en tareas más pequeñas que distribuye hacia otros nodos para que las procesen. Cada uno de estos nodos puede a su vez volver a dividir y repartir tareas, lo cual lleva a una estructura de árbol de varios niveles. Cada nodo de procesamiento, una vez que termina su tarea la regresa a su nodo maestro. Reduce: El nodo maestro colecciona todas las respuestas recibidas y las combina para generar la salida, es decir, la respuesta al problema que originalmente se trata de resolver.  Los beneficios principales de MapReduce son su escalabilidad y la variedad de datos que puede procesar tales como archivos, tablas de bases de datos, sitios web (web crawling). © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –76– Abril 2013.Curso 2012/13
  • 77. Obstáculos de MapReduce+NoSQL  Difícil pensar en MapReduce+NoSQL hace falta ―desaprender  Solución (open source):  – HIVE, sistema DW basado en Hadoop desarrollado por Facebook que permite escribir consultas en SQL.  – PIG, lenguaje de alto nivel para ejecutar trabajos sobre MapReduce (desarrollado per Yahoo). © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –77– Abril 2013.Curso 2012/13
  • 78. Obstáculos de MapReduce+NoSQL  Propuestas de la industria para integrar NoSQL con SQL:  – Sqoop de Cloudera  – Greenplum database  – Aster Data's nCluster DW system –…  Muchas soluciones DW han optado por conectores Hadoop en vez de integrar sus propias funcionalidades MapReduce. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –78– Abril 2013.Curso 2012/13
  • 79. Hadoop ―The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model‖  De la página de Hadoop © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –79– Abril 2013.Curso 2012/13
  • 80. Componentes fundamentales de Open Source  Apache Hadoop (biblioteca de software de open source)  Apache Hadoop consta de los siguientes subproyectos  HDFS (Haoop Distributed File System)  MapREduce  Hadoop Commons y de las siguientes tecnologías Hbase Hive Pig Otras © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –80– Abril 2013.Curso 2012/13
  • 81. Hadoop  Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google.  Está desarrollado en Java y se ejecuta dentro de la JVM.  Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –81– Abril 2013.Curso 2012/13
  • 82. Hadoop  Las características principales de Hadoop son  Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.  • Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.  • Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.  • Confiable: Es capaz de mantener Es capaz de mantener múltiples copias de los datos y © Luis Joyanes Aguilar  automáticamente hacer un re-despliegue de las tareas Universidad Pontificia de Salamanca - Página –82– Abril 2013.Curso 2012/13
  • 83. Hadoop  El diseño de Hadoop se divide en dos partes principales:  Por un lado la implementación de MapReduce que se encarga del  procesamiento de la información de forma distribuida.  Por otro lado está el sistema de ficheros distribuido Hadoop Distributed File System (HDFS) que se encarga de almacenar todos los datos repartiéndolos  entre cada nodo de la red Hadoop. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –83– Abril 2013.Curso 2012/13
  • 84. Hadoop © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –84– Abril 2013.Curso 2012/13
  • 85. Sistema de Ficheros Distribuido  Sistema de ficheros distribuido (HDFS)  – Bloques grandes: 64 Mb  ● Almacenados en el sistema de ficheros del SO  – Tolerante a Fallos (replicacion)  – Formatos habituales:  ● Ficheros en formato texto (CSV)  ● SequenceFiles  – Ristras de pares [clave, valor] © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –85– Abril 2013.Curso 2012/13
  • 86. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –86– Abril 2013.Curso 2012/13
  • 87. Hadoop en la actualidad  Hadoop se puede utilizar en teoría para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son más fáciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicación se encuentran:  • Análisis de logs  • Análisis de mercado  • Machine learning y data mining  • Procesamiento de imágenes  • Procesamiento de mensajes XML  • Web crawling  • Indexación © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –87– Abril 2013.Curso 2012/13
  • 88. Hadoop en la actualidad  Actualmente Hadoop es un framework muy extendido en el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:  Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.  Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información  Amazon A9: Se utiliza para la generar índices de búsqueda de los productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos © Luis Joyanes Aguilar  cada uno. Universidad Pontificia de Salamanca - Página –88– Abril 2013.Curso 2012/13
  • 89. Hadoop en la actualidad  The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.  Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres  Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –89– Abril 2013.Curso 2012/13
  • 90. Distribuciones de Hadoop  Cloudera  mapR  Hortonworks  IBM… ofrece una distribución llamada InfoSphere BigInsights  Amazon Web Services ofrece una marco de trabajo Hadoop que forma parte del servicio Amazon Elastic MapReduce  EMC ofrece Greenplus HD  Microsoft ofrece Hadoop como un servicio basado en la nube de Microsoft Azure © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –90– Abril 2013.Curso 2012/13
  • 91. Proveedores de Big Data  Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular  Otros ejemplos: MapR, Greenplum, Hortonworks, …  Hay docenas © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –91– Abril 2013.Curso 2012/13
  • 92. Empresas que ya utilizan “Big Data”   . IBM   Intel   HP   Oracle   Teradata   Fujitsu   CSC   Accenture   Dell   Seagate   Capgemini © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –92– Abril 2013.Curso 2012/13
  • 93. Definición de Analítica de Big Data BIG DATA ANALYTICS : (TDWI): 4Q 2011  Big data analytics is where advanced analytic techniques operate on big data sets. Hence, big data analytics is really about two things—big data and analytics—plus how the two have teamed up to create one of the most profound trends in business intelligence (BI) today.  The definition is easy to understand, but do users actually use the term? To quantify this question, the survey for this report asked: ―Which of the following best characterizes your familiarity with big data analytics and how you name it?‖ The survey results show that most users understand the concept of big data analytics, whether they have a name for it or not: © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –93– Abril 2013.Curso 2012/13
  • 94. ANALÍTICA DE BIG DATA  Cloudera  EMC Greenplum  IBM  Impetus Technologies  Kognitio  ParAccel  SAP  SAND Technology  SAS  Tableau Software  Teradata © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –94– Abril 2013.Curso 2012/13
  • 95. BIBLIOGRAFÍA  SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.  FRANKS, Bill (2012). Taming the Big Data Tidal Wave. New York: Wiley.  JOYANES, Luis (2012). Computación en la nube. Estrategias de cloud computing en las empresas. Marcombo/Alfaomega: Barcelona/México  JOYANES, Luis (2013). Big Data. Análisis de los grandes volúmenes de datos. Marcombo/Alfaomega: Barcelona/México. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –95– Abril 2013.Curso 2012/13
  • 96.  ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill. www-01.ibm.com/software/data/bigdata/  ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –96– Abril 2013.Curso 2012/13
  • 97. © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –97– Abril 2013.Curso 2012/13
  • 98. REFERENCIAS McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011 James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/  Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –98– Abril 2013.Curso 2012/13
  • 99. BIBLIOGRAFÍA  Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org IBM. http://www-01.ibm.com/software/data/bigdata/ © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –99– Abril 2013.Curso 2012/13
  • 100. Referencias, Ipiña Glz. de Artaza  NoSQL vs. RDBMS  Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS databases", version 10r2  http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:266 4632900346253817  NoSQL or not NoSQL?  http://www.slideshare.net/ruflin/nosql-or-not-nosql/download  Comparativa de diferentes soluciones NoSQL:  http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis  SQL vs. NoSQL. http://www.linuxjournal.com/article/10770  Cassandra. ―NoSQL – Not only SQL (Introduction to Apache Cassandra)‖. http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql- introduction-to-apache-cassandra/#.TtonPmMk6nA  http://www.datastax.com/docs/0.8/dml/using_cql  http://cassandra.apache.org/ © Luis Joyanes Aguilar Universidad Pontificia de Salamanca - Página –100– Abril 2013.Curso 2012/13