SlideShare une entreprise Scribd logo
1  sur  66
#SQLSat247
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Comunidad Windows Costa Rica
Big Data HDInsight
Explorando con Excel 2013
Canal en YouTube
 http://www.youtube.com
/eduardocastrom
Más detalles sobre Big Data
 http://tinyurl.com/BigDataEduardoCastro
Objetivos de la sesión
 Qué es Big data
 Introducción a HDInsight
 Autoservicio de Inteligencia de Negocios (BI):
 Excel 2013 PowerPivot
 Excel 2013 Power View
 Características de BI de Excel 2013
 Creación de un solución de BI con Big Data BI dentro de Excel
2013
Esquema
 Introducción:
 Big Data y Hadoop
 HDInsight
 PowerPivot en Excel 2013
 Power View en Excel 2013
 Modelaje de “Big Data” con PowerPivot:
 Beneficios
 Consideraciones
 Demostraciones
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso
de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento,
búsqueda, intercambio, análisis y visualización
Qué es Big Data?
Megabytes
Gigabytes
Terabytes
Petabytes
Purchase detail
Purchase record
Payment record
ERP
CRM
WEB
BIG DATA
Offer details
Support Contacts
Customer Touches
Segmentation
Web logs
Offer history
A/B testing
Dynamic Pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
User Generated Content
Mobile Web
SMS/MMSSentiment
External Demographics
HD Video, Audio, Images
Speech to Text
Product/Service Logs
Social Interactions & Feeds
Business Data Feeds
User Click Stream
Sensors / RFID / Devices
Spatial & GPS Coordinates
Incremento de variedad y cantidad de datos
Transacciones +
Interacciones +
Observaciones
= BIG DATA
Procesamiento de datos y análisis: The Old Way
La naturaleza cambiante del Big Data
 Big Data tiene importantes cualidades distintivas que lo
diferencian de los datos corporativos "tradicionales".
 Los datos no son centralizadas, muy estructurados y de fácil
manejo, ahora más que nunca los datos están muy
dispersos, poco estructurados (o no tiene estructura en
absoluto), y cada vez más con volúmenes más grandes
La naturaleza cambiante del Big Data
 Volumen - La cantidad de datos que han creado las
empresas a través de
 La web
 Dispositivos móviles
 Infraestructura de TI
 y otras fuentes está creciendo exponencialmente cada año.
La naturaleza cambiante del Big Data
 Tipo - La variedad de tipos de datos es cada vez mayor,
 No estructurados de datos basados ​​en texto
 Datos semi-estructurados como los datos de los medios sociales
 Los datos basados ​​en la localización
 Datos de logs, ejemplo servidores Web
La naturaleza cambiante del Big Data
 Velocidad
 La velocidad a la que se está creando nuevos datos
 La necesidad de análisis en tiempo real para obtener valor de
negocio de ella - es cada vez mayor gracias a la digitalización de las
transacciones, la informática móvil y el gran número de usuarios de
dispositivos de Internet y el móvil.
Principales fuentes de datos
 Redes sociales y medios de comunicación
 700 millones de usuarios de Facebook, 250 millones de usuarios
de Twitter y 156 millones de blogs públicos
 Dispositivos móviles
 Más de 5 mil millones de teléfonos móviles en uso en todo el mundo
 Transacciones en Internet
 miles de millones de compras en línea, operaciones de bolsa y otras
transacciones ocurren todos los días
 Dispositivos de red y sensores
Big Data
Casos en los cuales se utiliza Big Data
 Parte de lo que hace Hadoop y otras tecnologías y enfoques
Big Data es encontrar respuestas a preguntas que ni siquiera
saben que preguntar.
 Dar lugar a ideas que conducen a nuevas ideas de productos
o ayudar a identificar formas de mejorar la eficiencia
operativa.
 Casos de uso ya identificadas para Big Data, tanto para los
gigantes de internet como Google, Facebook y LinkedIn, y
para la empresa más tradicional
Casos en los cuales se utiliza Big Data
 Sentiment Analysis
 Utilizado junto con Hadoop, herramientas avanzadas de análisis de
texto analizan el texto no estructurado de las redes sociales y
mensajes de redes sociales
 Incluyendo los Tweets y mensajes de Facebook, para determinar la
confianza del usuario en relación con determinadas empresas,
marcas o productos.
 El análisis puede centrarse en el sentimiento a nivel macro hasta el
sentimiento usuario individual.
Casos en los cuales se utiliza Big Data
 Modelado de riesgo
 Las empresas financieras, bancos y otros utilizan Hadoop y Next
Generation Data Warehouse para analizar grandes volúmenes de
datos transaccionales para determinar el riesgo y la exposición de
los activos financieros
 Para preparar la posible "qué pasaría si" los escenarios basados ​​en
el comportamiento del mercado simulado, y para puntuación de
clientes potenciales por el riesgo.
Casos en los cuales se utiliza Big Data
 Motor de recomendación
 Los minoristas en línea utilizan Hadoop para igualar y recomendar a
los usuarios entre sí o con los productos y servicios basados ​​en el
análisis del perfil de usuario y los datos de comportamiento.
 LinkedIn utiliza este enfoque para potenciar su función de "la gente
puede saber", mientras que Amazon utiliza para sugerir productos a
la venta a los consumidores en línea.
Casos en los cuales se utiliza Big Data
 Detección de Fraude
 Utilizar técnicas de Big Data para combinar el
comportamiento del cliente, históricos y datos de
transacciones para detectar la actividad fraudulenta.
 Las compañías de tarjetas de crédito, por ejemplo, utilizan
tecnologías de Big Data para identificar el comportamiento
transaccional que indica una alta probabilidad de una tarjeta
robada.
Casos en los cuales se utiliza Big Data
 Análisis de la campaña de marketing
 Los departamentos de marketing a través de industrias han
utilizado durante mucho tiempo la tecnología para monitorear
y determinar la efectividad de las campañas de marketing.
 Big Data permite a los equipos de marketing para incorporar
mayores volúmenes de datos cada vez más granulares,
como los datos de click-stream y registros detallados de
llamadas, para aumentar la precisión de los análisis.
Casos en los cuales se utiliza Big Data
 Análisis Social Graph
 Junto con Hadoop los datos de redes sociales se extraen
para determinar qué clientes representan la mayor influencia
sobre los demás dentro de las redes sociales.
 Esto ayuda a determinar las empresas que son sus clientes
"más importantes", que no siempre son los que compran la
mayoría de los productos o de los que más gastan, pero los
que tienden a influir en el comportamiento de compra de la
mayoría de los demás.
Casos en los cuales se utiliza Big Data
 Customer Experience Analytics
 Empresas orientadas al consumidor utilizan Hadoop y
tecnologías relacionadas con Big Data para integrar los datos
de antes silos canales de interacción con clientes
 Tales como centros de llamadas, chat en línea, Twitter, etc,
para obtener una visión completa de la experiencia del
cliente.
Next Generation Data Warehouse
 Características de los almacenes de datos de próxima
generación
Next Generation Data Warehouse
 Procesamiento paralelo masivo, o MPP
 Emplean el procesamiento paralelo masivo, o MPP, que permite
la carga, el procesamiento y la consulta de datos en varias
máquinas simultáneamente.
 Resultado es un rendimiento significativamente más rápido que
los almacenes de datos tradicionales que se ejecutan en una sola
caja, grande y están limitados por un solo punto de
procesamiento
http://blog.treasure-data.com/post/30398632865/five-criteria-of-next-generation-data-warehouse
Next Generation Data Warehouse
 Arquitecturas compartido-nada
 Una arquitectura de no compartición asegura que no hay un único
punto de fallo en la generación de entornos de almacenamiento
de datos siguientes.
 Cada nodo funciona de manera independiente de los otros por lo
que si una máquina falla, los otros siguen funcionando
 Aprovechamos Hadoop MapReduce se ejecuta en HDInsight para
procesar los trabajos de nuestros clientes
Next Generation Data Warehouse
 Arquitecturas columnares
 En lugar de almacenamiento y procesamiento de datos en filas,
como es típico con bases de datos relacionales más, la mayoría
de los almacenes de datos Next Generation emplean
arquitecturas columnares
 Esto también significa que los datos no tienen que ser
estructurados en tablas ordenadas como las bases de datos
relacionales tradicionales
Next Generation Data Warehouse
 Avanzadas funciones de compresión de datos
 Las capacidades de compresión de datos avanzadas permiten
ingerir y almacenar grandes volúmenes de datos que de otra
manera posible y lo hacen con muchos menos recursos de
hardware que las bases de datos tradicionales
 Un almacén con 10-a-1 capacidades de compresión, por ejemplo,
puede comprimir 10 terabytes de datos hacia abajo a 1 terabyte
Next Generation Data Warehouse
 Hardware de productos básicos
 Basados en Clústers de Hadoop, la mayoría de los
almacenes de datos Next Generation se ejecutan en
hardware comercial off-the-shelf para que puedan escalar de
salida en un costo manera eficaz
Nuevos Enfoques para el procesamiento y análisis de datos
grandes
 Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
 Hadoop
 NoSQL
 Bases de datos analíticos masivamente paralelo
Nuevos Enfoques para el procesamiento y análisis de datos
grandes
Introducción a Big Data y Hadoop
 Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de
los datos
 Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el
hardware tradicional en un servicio que puede:
 Almacenar petabytes de información
 Permite procedamiento distribuido
 Principales atributos:
 Redundante y confiable (no se pierden datos)
 Centrado en el análisis por lotes
 Facilidad de crear aplicaciones y procesamiento distribuido
 Ejecuta en cualquier hardware
Componentes de Hadoop
 Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en
cualquier clúster Hadoop dado;
 Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente
en lugar del grupo de datos en particular se almacenan y si los nodos fallan;
 Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente
y almacena los datos del nombre de nodo debe fallar;
 Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el
tratamiento de los datos.
 Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos
almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
Arquitectura de Hardware
Arquitectura de Software
Hadoop Distributed Architecture
MapReduce: Mover Código a los Datos
Cómo trabaja?
Windows HADOOP
 2 Versiones
 Cloud
 Azure Service
 On Permise
 Integración con el Hadoop File System with Active Directory
 Integración con BI
 Herramientas de integración
 Sqoop
 Integración con SQL Server
Introducción a HDInsight
 HDInsight es una implementación de Microsoft 100% compatible
con la distribución de Apache Hadoop
 Disponible tanto para Windows Server y como un servicio
Windows Azure
 Permite que las empresas analicen datos no estructurados con
herramientas bien conocidas tales como Excel
Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:
Windows Azure HDInsight Service
HADOOP PARA WINDOWS
HDP para Windows
Hortonworks
Data Platform (HDP) For
Windows
100% Open Source Enterprise Hadoop
HORTONWORKS
DATA PLATFORM (HDP)
For Windows
PLATFORM SERVICES
HADOOP CORE Distributed
Storage & Processing
DATA
SERVICES
Store,
Process and
Access Data
OPERATIONAL
SERVICES
Manage &
Operate at
Scale
Manage &
Operate at
Scale
Store,
Process and
Access Data
Distributed
Storage & Processing
Enterprise Readiness
DEMOSTRACIÓN
CREACIÓN DE UN HADOOP CLUSTER
ECOSISTEMA DE BIG DATA DE
MICROSOFT
Plataforma de Big Data Micrsooft
Interoperatibilidad
Integración con las
herramientas de
Análisis de Microsoft
APPLICATIONSDATASYSTEMS
Aplicaciones Microsoft
HORTONWORKS
DATA PLATFORM
For Windows
DATASOURCES
MOBILE
DATA
OLTP,
POS
SYSTEMS
Fuentes tradicionales
(RDBMS, OLTP, OLAP)
Nuevas Fuentes
(web logs, email, sensor data, social media)
Introducción a PowerPivot
 PowerPivot permite que los usuarios creen modelos de
datos de autoservicio con Excel
 Se logra mediante una versión del lado del cliente de of SQL Server
Analysis Services conocido como xVelocity In-Memory Analytics
Engine
 Puede almacenar de forma eficiente volúmenes de datos más
grandes que las hojas típicas de Excel
Introducción a PowerPivot
 Una ventana se puede utilizar para cargar, explorar,
relacionar y enriquecer datos con cálculos personalizados
 Puede importar y relacionar datos de la empresa, datos
locales, o distintos almacenes de datos
 En el Excel 2013 Professional Plus edition, PowerPivot está
instalado pero no habilitado
Introducción a Power View
 Power View una experiencia de exploración de datos,
visualización y presentación
 Experiencia centrada en la interacción
 Interacción con metadatos
 Permite que los usuarios creen reportes ad-hoc
 Los reportes pueden estár basado en modelos de datos
tabulares, incluyen modelos de PowerPivot
Introducción a Power View
 En Excel 2013, se incluyen nuevas características:
Modelando “Big Data” con PowerPivot
 Big data puede ser integrado con otras fuentes de datos
 Potencial de Autoservicio de BI:
 PowerPivot puede cargar Big Data mediante el Table Import Wizard
 ODBC para HDInsight
 OLE DB para SQL Server con enlace a HDInsight
 PowerPivot puede ser fuente para:
 Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View
 Otras herramientas de análisis (una vez publicado en SharePoint)
Consideraciones de modelar “Big Data” con PowerPivot
 Los resultados de Big Data pueden ser muy grandes para
almacenamiento en memoria
 Workaround: minizar la cantidad de datos consultados
 Recuperar un periodo de tiempo más pequeño
 Reducir las dimensiones o ser más granular
 Una vez que está cargado el modelo puede ser manipulado con
rapidez
Formas de carga de datos
Cargar datos al blog storage de Windows Azure
 Para prototipos y ejemplos: #put
 Para producción utilizer el blob storage APIs.
 AzCopy Command Line
 CopyBlob REST API
Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob,
etc)
No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports
ODBC connections to data sources)
Yes
DEMO
CONSUMIR RESULT SETS – EXCEL &
“DATA EXPLORER”
Hadoop Connectors
 SQL Server versions
 Azure
 PDW
 SQL 2012
 SQL 2008 R2
http://www.microsoft.com/download/en/details.aspx?id=27584
With SQL Server-Hadoop Connector, you can:
 Sqoop-based connector
 Import
 tables in SQL Server to delimited text files on HDFS
 tables in SQL Server to SequenceFiles files on HDFS
 tables in SQL Server to tables in Hive
 Result of queries executed on SQL Server to delimited text files on HDFS
 Result of queries executed on SQL Server to SequenceFiles files on HDFS
 Result of queries executed on SQL Server to tables in Hive
 Export
 Delimited text files on HDFS to SQL Server
 DequenceFiles on HDFS to SQL Server
 Hive Tables to tables in SQL Server
Recursos Adicionales
http://www.microsoft.com/bigdata
https://www.hadooponazure.com
Includes an excellent set of BI specific resources in the section named “Using HDInsight with
Other BI Technologies”
http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based-services-for-
windows-en-us.aspx
http://blogs.msdn.com/b/microsoft_business_intelligence1/archive/2012/02/24/big-data-for-
everyone-using-microsoft-s-familiar-bi-tools-with-hadoop.aspx
Patrocinadores
9/14/2013
|
SQL Saturday #247 – Bogotá, Colombia65 |
Capítulos Organizadores
9/14/2013
|
SQL Saturday #247 – Bogotá, Colombia66 |
GRACIAS !!!!

Contenu connexe

Tendances

Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno BancarioMartín Cabrera
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Ruben Pertusa Lopez
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningStratebi
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con PentahoDatalytics
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes socialesDatKnoSys
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 

Tendances (20)

Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno Bancario
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 

En vedette

La integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business IntelligenceLa integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business IntelligenceJesús Tramullas
 
Aplicación Puertos y Aeropuertos Analytics (spanish)
Aplicación Puertos y Aeropuertos Analytics (spanish)Aplicación Puertos y Aeropuertos Analytics (spanish)
Aplicación Puertos y Aeropuertos Analytics (spanish)Stratebi
 
Herramientas Business Intelligence
Herramientas Business IntelligenceHerramientas Business Intelligence
Herramientas Business Intelligencekarlavzqz
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligencelears0
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataAlex Rayón Jerez
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceStratebi
 
Curso de creación de Dashboards Open Source
Curso de creación de Dashboards Open SourceCurso de creación de Dashboards Open Source
Curso de creación de Dashboards Open SourceStratebi
 
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesModelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesBig-Data-Summit
 
4º Oleada Observatorio de Redes Sociales
4º Oleada Observatorio de Redes Sociales  4º Oleada Observatorio de Redes Sociales
4º Oleada Observatorio de Redes Sociales The Cocktail Analysis
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales.. ..
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Presentacion de Qlik Sense para usuarios QlikView
Presentacion de Qlik Sense para usuarios QlikViewPresentacion de Qlik Sense para usuarios QlikView
Presentacion de Qlik Sense para usuarios QlikViewData IQ Argentina
 

En vedette (16)

La integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business IntelligenceLa integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business Intelligence
 
Aplicación Puertos y Aeropuertos Analytics (spanish)
Aplicación Puertos y Aeropuertos Analytics (spanish)Aplicación Puertos y Aeropuertos Analytics (spanish)
Aplicación Puertos y Aeropuertos Analytics (spanish)
 
Herramientas Business Intelligence
Herramientas Business IntelligenceHerramientas Business Intelligence
Herramientas Business Intelligence
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Stratebi
StratebiStratebi
Stratebi
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business Intelligence
 
Curso de creación de Dashboards Open Source
Curso de creación de Dashboards Open SourceCurso de creación de Dashboards Open Source
Curso de creación de Dashboards Open Source
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas solucionesModelos Predictivos, Big Data Retos y Generación de nuevas soluciones
Modelos Predictivos, Big Data Retos y Generación de nuevas soluciones
 
4º Oleada Observatorio de Redes Sociales
4º Oleada Observatorio de Redes Sociales  4º Oleada Observatorio de Redes Sociales
4º Oleada Observatorio de Redes Sociales
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales
 
BUSINESS INTELLIGENCE
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE
BUSINESS INTELLIGENCE
 
Diseño Dimensional
Diseño DimensionalDiseño Dimensional
Diseño Dimensional
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Presentacion de Qlik Sense para usuarios QlikView
Presentacion de Qlik Sense para usuarios QlikViewPresentacion de Qlik Sense para usuarios QlikView
Presentacion de Qlik Sense para usuarios QlikView
 

Similaire à SQL Saturday Bogota - Big Data HDInsight Server

Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stackEduardo Castro
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptxJuanCarlosRomanPerez1
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bnjuanjosetn
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)christian lisintuña
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
 
Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014Edicion Ticnews
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
 
BIG DATA GRUPO #7
BIG DATA GRUPO #7 BIG DATA GRUPO #7
BIG DATA GRUPO #7 Dyllan Raza
 

Similaire à SQL Saturday Bogota - Big Data HDInsight Server (20)

Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stack
 
Big data
Big dataBig data
Big data
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Que es big data
Que es big dataQue es big data
Que es big data
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big data
Big dataBig data
Big data
 
Rolando Archila
Rolando ArchilaRolando Archila
Rolando Archila
 
Trabajo de-big-data
Trabajo de-big-dataTrabajo de-big-data
Trabajo de-big-data
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bn
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)Lisintuña christian (cloud computing and data)
Lisintuña christian (cloud computing and data)
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
BIG DATA GRUPO #7
BIG DATA GRUPO #7 BIG DATA GRUPO #7
BIG DATA GRUPO #7
 

Plus de Eduardo Castro

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL ServerEduardo Castro
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerEduardo Castro
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL AzureEduardo Castro
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflowEduardo Castro
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022Eduardo Castro
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022Eduardo Castro
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Eduardo Castro
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceEduardo Castro
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022Eduardo Castro
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Eduardo Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricksEduardo Castro
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql serverEduardo Castro
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsEduardo Castro
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Eduardo Castro
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsEduardo Castro
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en AzureEduardo Castro
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL ServerEduardo Castro
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Eduardo Castro
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesEduardo Castro
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesEduardo Castro
 

Plus de Eduardo Castro (20)

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
 

SQL Saturday Bogota - Big Data HDInsight Server

  • 2. Ing. Eduardo Castro, PhD Microsoft SQL Server MVP ecastro@simsasys.com http://www.youtube.com/eduardocastrom Comunidad Windows Costa Rica Big Data HDInsight Explorando con Excel 2013
  • 3. Canal en YouTube  http://www.youtube.com /eduardocastrom
  • 4. Más detalles sobre Big Data  http://tinyurl.com/BigDataEduardoCastro
  • 5. Objetivos de la sesión  Qué es Big data  Introducción a HDInsight  Autoservicio de Inteligencia de Negocios (BI):  Excel 2013 PowerPivot  Excel 2013 Power View  Características de BI de Excel 2013  Creación de un solución de BI con Big Data BI dentro de Excel 2013
  • 6. Esquema  Introducción:  Big Data y Hadoop  HDInsight  PowerPivot en Excel 2013  Power View en Excel 2013  Modelaje de “Big Data” con PowerPivot:  Beneficios  Consideraciones  Demostraciones
  • 7. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 8. Qué es Big Data? Megabytes Gigabytes Terabytes Petabytes Purchase detail Purchase record Payment record ERP CRM WEB BIG DATA Offer details Support Contacts Customer Touches Segmentation Web logs Offer history A/B testing Dynamic Pricing Affiliate Networks Search Marketing Behavioral Targeting Dynamic Funnels User Generated Content Mobile Web SMS/MMSSentiment External Demographics HD Video, Audio, Images Speech to Text Product/Service Logs Social Interactions & Feeds Business Data Feeds User Click Stream Sensors / RFID / Devices Spatial & GPS Coordinates Incremento de variedad y cantidad de datos Transacciones + Interacciones + Observaciones = BIG DATA
  • 9. Procesamiento de datos y análisis: The Old Way
  • 10. La naturaleza cambiante del Big Data  Big Data tiene importantes cualidades distintivas que lo diferencian de los datos corporativos "tradicionales".  Los datos no son centralizadas, muy estructurados y de fácil manejo, ahora más que nunca los datos están muy dispersos, poco estructurados (o no tiene estructura en absoluto), y cada vez más con volúmenes más grandes
  • 11. La naturaleza cambiante del Big Data  Volumen - La cantidad de datos que han creado las empresas a través de  La web  Dispositivos móviles  Infraestructura de TI  y otras fuentes está creciendo exponencialmente cada año.
  • 12. La naturaleza cambiante del Big Data  Tipo - La variedad de tipos de datos es cada vez mayor,  No estructurados de datos basados ​​en texto  Datos semi-estructurados como los datos de los medios sociales  Los datos basados ​​en la localización  Datos de logs, ejemplo servidores Web
  • 13. La naturaleza cambiante del Big Data  Velocidad  La velocidad a la que se está creando nuevos datos  La necesidad de análisis en tiempo real para obtener valor de negocio de ella - es cada vez mayor gracias a la digitalización de las transacciones, la informática móvil y el gran número de usuarios de dispositivos de Internet y el móvil.
  • 14. Principales fuentes de datos  Redes sociales y medios de comunicación  700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos  Dispositivos móviles  Más de 5 mil millones de teléfonos móviles en uso en todo el mundo  Transacciones en Internet  miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días  Dispositivos de red y sensores
  • 16. Casos en los cuales se utiliza Big Data  Parte de lo que hace Hadoop y otras tecnologías y enfoques Big Data es encontrar respuestas a preguntas que ni siquiera saben que preguntar.  Dar lugar a ideas que conducen a nuevas ideas de productos o ayudar a identificar formas de mejorar la eficiencia operativa.  Casos de uso ya identificadas para Big Data, tanto para los gigantes de internet como Google, Facebook y LinkedIn, y para la empresa más tradicional
  • 17. Casos en los cuales se utiliza Big Data  Sentiment Analysis  Utilizado junto con Hadoop, herramientas avanzadas de análisis de texto analizan el texto no estructurado de las redes sociales y mensajes de redes sociales  Incluyendo los Tweets y mensajes de Facebook, para determinar la confianza del usuario en relación con determinadas empresas, marcas o productos.  El análisis puede centrarse en el sentimiento a nivel macro hasta el sentimiento usuario individual.
  • 18. Casos en los cuales se utiliza Big Data  Modelado de riesgo  Las empresas financieras, bancos y otros utilizan Hadoop y Next Generation Data Warehouse para analizar grandes volúmenes de datos transaccionales para determinar el riesgo y la exposición de los activos financieros  Para preparar la posible "qué pasaría si" los escenarios basados ​​en el comportamiento del mercado simulado, y para puntuación de clientes potenciales por el riesgo.
  • 19. Casos en los cuales se utiliza Big Data  Motor de recomendación  Los minoristas en línea utilizan Hadoop para igualar y recomendar a los usuarios entre sí o con los productos y servicios basados ​​en el análisis del perfil de usuario y los datos de comportamiento.  LinkedIn utiliza este enfoque para potenciar su función de "la gente puede saber", mientras que Amazon utiliza para sugerir productos a la venta a los consumidores en línea.
  • 20. Casos en los cuales se utiliza Big Data  Detección de Fraude  Utilizar técnicas de Big Data para combinar el comportamiento del cliente, históricos y datos de transacciones para detectar la actividad fraudulenta.  Las compañías de tarjetas de crédito, por ejemplo, utilizan tecnologías de Big Data para identificar el comportamiento transaccional que indica una alta probabilidad de una tarjeta robada.
  • 21. Casos en los cuales se utiliza Big Data  Análisis de la campaña de marketing  Los departamentos de marketing a través de industrias han utilizado durante mucho tiempo la tecnología para monitorear y determinar la efectividad de las campañas de marketing.  Big Data permite a los equipos de marketing para incorporar mayores volúmenes de datos cada vez más granulares, como los datos de click-stream y registros detallados de llamadas, para aumentar la precisión de los análisis.
  • 22. Casos en los cuales se utiliza Big Data  Análisis Social Graph  Junto con Hadoop los datos de redes sociales se extraen para determinar qué clientes representan la mayor influencia sobre los demás dentro de las redes sociales.  Esto ayuda a determinar las empresas que son sus clientes "más importantes", que no siempre son los que compran la mayoría de los productos o de los que más gastan, pero los que tienden a influir en el comportamiento de compra de la mayoría de los demás.
  • 23. Casos en los cuales se utiliza Big Data  Customer Experience Analytics  Empresas orientadas al consumidor utilizan Hadoop y tecnologías relacionadas con Big Data para integrar los datos de antes silos canales de interacción con clientes  Tales como centros de llamadas, chat en línea, Twitter, etc, para obtener una visión completa de la experiencia del cliente.
  • 24. Next Generation Data Warehouse  Características de los almacenes de datos de próxima generación
  • 25. Next Generation Data Warehouse  Procesamiento paralelo masivo, o MPP  Emplean el procesamiento paralelo masivo, o MPP, que permite la carga, el procesamiento y la consulta de datos en varias máquinas simultáneamente.  Resultado es un rendimiento significativamente más rápido que los almacenes de datos tradicionales que se ejecutan en una sola caja, grande y están limitados por un solo punto de procesamiento http://blog.treasure-data.com/post/30398632865/five-criteria-of-next-generation-data-warehouse
  • 26. Next Generation Data Warehouse  Arquitecturas compartido-nada  Una arquitectura de no compartición asegura que no hay un único punto de fallo en la generación de entornos de almacenamiento de datos siguientes.  Cada nodo funciona de manera independiente de los otros por lo que si una máquina falla, los otros siguen funcionando  Aprovechamos Hadoop MapReduce se ejecuta en HDInsight para procesar los trabajos de nuestros clientes
  • 27. Next Generation Data Warehouse  Arquitecturas columnares  En lugar de almacenamiento y procesamiento de datos en filas, como es típico con bases de datos relacionales más, la mayoría de los almacenes de datos Next Generation emplean arquitecturas columnares  Esto también significa que los datos no tienen que ser estructurados en tablas ordenadas como las bases de datos relacionales tradicionales
  • 28. Next Generation Data Warehouse  Avanzadas funciones de compresión de datos  Las capacidades de compresión de datos avanzadas permiten ingerir y almacenar grandes volúmenes de datos que de otra manera posible y lo hacen con muchos menos recursos de hardware que las bases de datos tradicionales  Un almacén con 10-a-1 capacidades de compresión, por ejemplo, puede comprimir 10 terabytes de datos hacia abajo a 1 terabyte
  • 29. Next Generation Data Warehouse  Hardware de productos básicos  Basados en Clústers de Hadoop, la mayoría de los almacenes de datos Next Generation se ejecutan en hardware comercial off-the-shelf para que puedan escalar de salida en un costo manera eficaz
  • 30. Nuevos Enfoques para el procesamiento y análisis de datos grandes  Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes  Hadoop  NoSQL  Bases de datos analíticos masivamente paralelo
  • 31. Nuevos Enfoques para el procesamiento y análisis de datos grandes
  • 32. Introducción a Big Data y Hadoop  Big data se enfrenta a complejidades de alto volumen, la velocidad y la variedad de los datos  Apache Hadoop, es un conjunto de proyectos de código abierto que transforman el hardware tradicional en un servicio que puede:  Almacenar petabytes de información  Permite procedamiento distribuido  Principales atributos:  Redundante y confiable (no se pierden datos)  Centrado en el análisis por lotes  Facilidad de crear aplicaciones y procesamiento distribuido  Ejecuta en cualquier hardware
  • 33. Componentes de Hadoop  Hadoop Distributed File System (HDFS): La capa de almacenamiento por defecto en cualquier clúster Hadoop dado;  Nombre de nodo: El nodo de un clúster Hadoop que proporciona la información del cliente en lugar del grupo de datos en particular se almacenan y si los nodos fallan;  Nodo secundario: Una copia de seguridad con el nombre de nodo, se replica periódicamente y almacena los datos del nombre de nodo debe fallar;  Job Tracker: El nodo de un clúster Hadoop que inicia y coordina trabajos MapReduce, o el tratamiento de los datos.  Los nodos esclavos: Los gruñidos de cualquier Hadoop clúster, los nodos esclavos almacenan datos y tomar la dirección de procesarlo desde el gestor de trabajo.
  • 39. Windows HADOOP  2 Versiones  Cloud  Azure Service  On Permise  Integración con el Hadoop File System with Active Directory  Integración con BI  Herramientas de integración  Sqoop  Integración con SQL Server
  • 40. Introducción a HDInsight  HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop  Disponible tanto para Windows Server y como un servicio Windows Azure  Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  • 41. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • 44. HDP para Windows Hortonworks Data Platform (HDP) For Windows 100% Open Source Enterprise Hadoop HORTONWORKS DATA PLATFORM (HDP) For Windows PLATFORM SERVICES HADOOP CORE Distributed Storage & Processing DATA SERVICES Store, Process and Access Data OPERATIONAL SERVICES Manage & Operate at Scale Manage & Operate at Scale Store, Process and Access Data Distributed Storage & Processing Enterprise Readiness
  • 46. ECOSISTEMA DE BIG DATA DE MICROSOFT
  • 47. Plataforma de Big Data Micrsooft
  • 48. Interoperatibilidad Integración con las herramientas de Análisis de Microsoft APPLICATIONSDATASYSTEMS Aplicaciones Microsoft HORTONWORKS DATA PLATFORM For Windows DATASOURCES MOBILE DATA OLTP, POS SYSTEMS Fuentes tradicionales (RDBMS, OLTP, OLAP) Nuevas Fuentes (web logs, email, sensor data, social media)
  • 49.
  • 50. Introducción a PowerPivot  PowerPivot permite que los usuarios creen modelos de datos de autoservicio con Excel  Se logra mediante una versión del lado del cliente de of SQL Server Analysis Services conocido como xVelocity In-Memory Analytics Engine  Puede almacenar de forma eficiente volúmenes de datos más grandes que las hojas típicas de Excel
  • 51. Introducción a PowerPivot  Una ventana se puede utilizar para cargar, explorar, relacionar y enriquecer datos con cálculos personalizados  Puede importar y relacionar datos de la empresa, datos locales, o distintos almacenes de datos  En el Excel 2013 Professional Plus edition, PowerPivot está instalado pero no habilitado
  • 52. Introducción a Power View  Power View una experiencia de exploración de datos, visualización y presentación  Experiencia centrada en la interacción  Interacción con metadatos  Permite que los usuarios creen reportes ad-hoc  Los reportes pueden estár basado en modelos de datos tabulares, incluyen modelos de PowerPivot
  • 53. Introducción a Power View  En Excel 2013, se incluyen nuevas características:
  • 54. Modelando “Big Data” con PowerPivot  Big data puede ser integrado con otras fuentes de datos  Potencial de Autoservicio de BI:  PowerPivot puede cargar Big Data mediante el Table Import Wizard  ODBC para HDInsight  OLE DB para SQL Server con enlace a HDInsight  PowerPivot puede ser fuente para:  Reporte locales en Excel con PivotTables, PivotCharts, CUBE y Power View  Otras herramientas de análisis (una vez publicado en SharePoint)
  • 55. Consideraciones de modelar “Big Data” con PowerPivot  Los resultados de Big Data pueden ser muy grandes para almacenamiento en memoria  Workaround: minizar la cantidad de datos consultados  Recuperar un periodo de tiempo más pequeño  Reducir las dimensiones o ser más granular  Una vez que está cargado el modelo puede ser manipulado con rapidez
  • 56. Formas de carga de datos
  • 57.
  • 58. Cargar datos al blog storage de Windows Azure  Para prototipos y ejemplos: #put  Para producción utilizer el blob storage APIs.  AzCopy Command Line  CopyBlob REST API
  • 59. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Account Azure Blob Storage REST APIs (Copy Blob, etc) No SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  • 60. DEMO CONSUMIR RESULT SETS – EXCEL & “DATA EXPLORER”
  • 61. Hadoop Connectors  SQL Server versions  Azure  PDW  SQL 2012  SQL 2008 R2 http://www.microsoft.com/download/en/details.aspx?id=27584
  • 62. With SQL Server-Hadoop Connector, you can:  Sqoop-based connector  Import  tables in SQL Server to delimited text files on HDFS  tables in SQL Server to SequenceFiles files on HDFS  tables in SQL Server to tables in Hive  Result of queries executed on SQL Server to delimited text files on HDFS  Result of queries executed on SQL Server to SequenceFiles files on HDFS  Result of queries executed on SQL Server to tables in Hive  Export  Delimited text files on HDFS to SQL Server  DequenceFiles on HDFS to SQL Server  Hive Tables to tables in SQL Server
  • 63. Recursos Adicionales http://www.microsoft.com/bigdata https://www.hadooponazure.com Includes an excellent set of BI specific resources in the section named “Using HDInsight with Other BI Technologies” http://social.technet.microsoft.com/wiki/contents/articles/6204.hadoop-based-services-for- windows-en-us.aspx http://blogs.msdn.com/b/microsoft_business_intelligence1/archive/2012/02/24/big-data-for- everyone-using-microsoft-s-familiar-bi-tools-with-hadoop.aspx
  • 64. Patrocinadores 9/14/2013 | SQL Saturday #247 – Bogotá, Colombia65 |
  • 65. Capítulos Organizadores 9/14/2013 | SQL Saturday #247 – Bogotá, Colombia66 |