Herramientas que posibilitan la información y la investigación.pdf
Infraestructura para big data Telefónica
1. 1Telefónica Digital
Telefónica Digital
Junio 2013
Grandes cantidades
de Datos
Servidores de Alto
rendimiento
Foto: http://www.wallpixy.com/competitions-dog-racing-dog-elephant-wallpapers-download/
2. 2Telefónica Digital
Para Gestionar Grandes Cantidades de Datos…
Ilustración: http://humorsalmon.blogspot.com.es/2009/12/un-
minimo-de-circo.html
Necesidades técnicas:
acceso a grandes volúmenes de
datos no estructurados, en fuentes
distribuidas que deben capturarse y
procesarse.
Limitaciones de coste: se
necesita gran capacidad de
cómputo y almacenamiento por lo
que se apuesta por un uso eficiente
de infraestructura genérica.
Tiempos de respuesta: los
datos deben poder analizarse en
horas en vez de en semanas para
poder tomar decisiones en tiempo
real.
01
02
03
3. 3Telefónica Digital
Necesidades Técnicas
Ofrece la capacidad de procesar
datos en un volumen
anteriormente no atacable con
herramientas de DWH clásico.
• Utiliza sistema de ficheros distribuido
• Tolerante a fallos, gestiona réplicas,
fallo de nodos, etc.
• Open source (Apache)
• Escalable (Yahoo! tiene cluster de
4000 nodos)
• Muy potente: permite ordenar 1TB de
números aleatorios en 62 segundos.
Fuentes:
http://hadoop.apache.org/
http://www.slideshare.net/kevinweil/hadoop-pig-and-twitter-
nosql-east-2009
01
http://wiki.apache.org/hadoop/PoweredBy
¿Quién usa Hadoop?
4. 4Telefónica Digital
Limitaciones de Costes
CAPACIDAD DE LOS SERVIDORES DEDICADOS
TIEMPO
NIVELDECARGASERVIDORES
Periodo de procesamiento
de datos: requiere mucha
capacidad.
Periodo sin procesamiento:
capacidad contratada
sobrante
La infraestructura dedicada
dimensionada según los picos de
demanda es cara e ineficiente
02
5. 5Telefónica Digital
TIEMPO
Servidores virtuales
Se adaptan a la necesidad de carga de
cada momento (escalado vertical) o
pueden crearse o destruirse en el
momento (escalado horizontal)
3 SERVIDORES S
100 SERVIDORES XL
20
SERVIDORES L
3 SERVIDORES S
2 SERVIDORES
S
15 SERVIDORES M
15 SERVIDORES M
Pago por uso: el coste se adapta a la
capacidad que se necesita en cada
momento.
02Limitaciones de Costes
6. 6Telefónica Digital
03Tiempos de respuesta
• Servidores de alto rendimiento:
• Virtualización realizada a nivel de Sistema Operativo
• Caché de alto rendimiento
• Tecnología 400% CPU bursting
• Optimización de procesos de desarrollo con DTrace.
Fuente: http://joyent.com/company/press/joyent-launches-high-performance-hadoop-solution
3x Las operaciones de E/S de clusters
de Hadoop sobre Instant Servers
son 3 veces más rápidas
(comparando servidores de igual
capacidad)
Es posible reducir costes 2/3
obteniendo los mismos tiempos de
respuesta.
1/3
más rápido
del coste
Menores tiempos de respuesta para obtener resultados
en tiempo real.
7. 7Telefónica Digital
Servidores de Alto Rendimiento
www.InstantServers.es
Pago por uso
Alto
rendimiento
Disponibilidad
99,95%
trimestral por
máquina
Datos en España
y soporte
telefónico en
español
8. 8Telefónica Digital
o Big Data como Servicio
¿Cómo funciona?
• Un servicio extremo a extremo
• En modo pago por uso
• Con un Time to Market muy reducido
1. Con Escenarios acotados:
Gestión del
Riesgo
¿Quién tiene
riesgo de
impago?
¿Dónde invertir
mi presupuesto
de Marketing?
Marketing Mix
Pricing
¿Qué precio es
el óptimo para
mi producto?
2. Mediante un modelo explicativo/predictivo:
Modelando eventos pasados para entender por
qué han ocurrido y poder crear modelos
predictivos.etc…
9. Lorena de la Flor
@lorenadelaflor
Gracias
Más información en:
www.InstantServers.es