Retos en los fundamentos de Data Science

Veracidad, expresividad y computación
Joaquín Borrego Díaz
Departamento de Ciencias de la Computación e IA - Universidad de Sevilla
jborrego@us.es
https://ontoblogia.wordpress.com/
Retos en los
fundamentos de Data
Science
Cátedra I4S-URJC - Centro de Innovación BBVA

Contenido aproximado
• Realidad versus Datos
• Fidelidad versus
interpretación
• Datos y
reconstrucción
• Dimensión de la
interpretación
• Ausencia de modelos
• Veracidad y ﬁabilidad.
Control
• Parcheando grandes
datasets
• Acotando la racionalidad
• Semántica emergente y
colectiva
• Semántica como gran
desafío para la Data Science
• Privacidad y control de la IA
en Data Science

https://placesjournal.org/article/skywatching/

Calibrado de satélites espía
Proyecto Corona
(EEUU)
(~1959-1972)
(Re)descubierto en 2004

¿Están los satélites ofreciendo exactitud/ﬁdelidad?
¿Cuánta exactitud necesitas para razonar en una
tarea concreta?

¿Impacto de la veracidad/aproximación?
• Google Maps NO es la
realidad
• Tiene sólo 2 (3)
dimensiones
• ¿Cómo es el mundo
según Google Maps?
• Importante
conocerlo para
razonar con los
datos extraídos de
este

¿Cómo es el mundo
según los datos de
un satélite?
Pero es “infinita”:
siempre estamos
pelando la naranja
Si sólo fuera un satélite para toda la tierra:
Una fibración de la esfera
con fibra trivial
¡Pero son muchos satélites!
t=0
t=1
tiempo
Geoestacionarios

Para un usuario: “ciclos de refresco” de
nuestro sistema (por ejemplo, un sistema
de monitorización) y solo un satélite
De Niles Johnson - Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=22485543
Fibración de Hopf

Pero es “infinita”:
siempre estamos
pelando la naranja
Si sólo fuera un satélite para toda la tierra:
Una fibración de la esfera
con fibra trivial
t=0
t=1
tiempo
Problema 1:
Nos encontramos con espacios
ambiente
(donde viven los datos)
complejos
¡Pero son muchos satélites!
Geoestacionarios
¿Cómo es el mundo
según los datos de
un satélite?

The Atlas of the Conﬂict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.

http://mjmdavis.com/showing/2017/05/16/how-to-read-maps.html
AlaskaSingapur

The Atlas of the Conﬂict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.
Problema 1 (cont.):
¿interpretamos bien el espacio
ambiente donde están los
datos?

Simulación
multiagente del
desastre del
Katrina
! !
 
M O D E L I Z A C I Ó N
D ATO S
Ejemplo: dinámica urbana “extrema”

www.youtube.com/watch?v=pTKhrpl9jZc
Modelado
basado en
agentes para
“encajar”
datos
Utilidad…

www.youtube.com/watch?v=pTKhrpl9jZc
Modelado
basado en
agentes para
“encajar”
datos
Utilidad…
Problema 2:
Reconstruir con datos
(masivos)…
¿Es una
reconstrucción de la
realidad?

• ¿Es explicable la dinámica
del conﬂicto en términos
cualitativos (predicción
razonada)?
Ejemplo: el trabajo de campo y la datiﬁcación fallida
¿Dónde falla?

• ¿Es explicable la dinámica
del conﬂicto en términos
cualitativos (predicción
razonada)?
Ejemplo: el trabajo de campo y la datiﬁcación fallida
¿Dónde falla?
Problema 3:
¿La falta de explicación
razonada es por pobreza de
datos o de nuestro lenguaje de
representación?

Volvamos al problema 1…
Los datos como vectores
Problema 1:
Nos encontramos con
espacios ambiente
(donde viven los
datos) complejos

Los datos como vectores
Dim
ensión
d=tam
año
del vocabulario
(keyw
ords) (p.e. ~25.000)
Para un buscador para WWW, la matriz sería ~25.000x109

La maldición de la dimensión
La aletoriedad se concentra
Los vectores documentos
son “perpendiculares”
al vector pregunta
El volumen de la
hiperesfera tiende a 0
Término acuñado por Richard Bellman en 1960

La maldición de la dimensión
2 3 d
}ε
El volumen de la “cáscara”
del hipercubo unidad es 1-(1-ε)d
conforme crece d, tiende a 1
el centro se “vacía”

La reducción
de la dimensión
Problema 1:
Nos encontramos con
espacios ambiente
(donde viven los datos)
complejos

La reducción de la
dimensionalidad
Problema 4:
¿Cuánta información
útil
perdemos?

¿Y si el problema es
que modelamos?
Problema 2:
Reconstruir con datos…
¿Es una
reconstrucción de la
realidad?

Big Data:
El ﬁn de la
teoría
(de los
modelos)
Todos los modelos
son erróneos, pero
algunos son útiles
George E. P. Box (1976)
Todos los modelos son
erróneos, y trabajamos
sin modelos cada vez
mejor
Peter Norvig (2008)

Big Data: El ﬁn de la teoría
(de los modelos)
• Norvig versus
Fukuyama
• “N=Todo” deja
inservible la causalidad:
la correlación gana
• Los modelos tienen un
ﬁn que no necesitamos
La lucha causalidad-
correlación ha
terminado

Big Data: El ﬁn de la teoría
(de los modelos)
• Norvig versus
Fukuyama
• “N=Todo” deja
inservible la causalidad
• Los modelos tienen un
ﬁn que no necesitamos
sí necesitamos los modelos
(y las teorías)
Al menos las teorías
matemáticas

Solución
razonada
Deep
Learning
La ausencia de modelos afecta a cuatro
dimensiones esenciales
• la mencionada causalidad,
• la conﬁanza en los
resultados,
• la posibilidad de transferir
del modelo a datos distintos
de los usados en la fase de
entrenamiento, y ﬁnalmente,
• a su capacidad de informar
sobre lo que ocurre.

Un camino intermedio…
modelar los procesos
• Describir que hacemos y qué podemos hacer
• ¿Que aportan estos modelos?
• Abstracción,
• Procedimientos de DS como elementos de
estructuras mas abstractas (vision
categorial).
• Facilita el reacondicionamiento de resultados.
• Los procesos detectan patrones e indicios
y los cientíﬁcos interpretan.

Veracidad: dos visiones
• Veracidad desde el punto de vista de bases de
datos: refleja fielmente el universo a representar
• Veracidad desde las matemáticas: las
conclusiones extraídas son consecuencia
(¿lógica?) del dataset
• Intuición (puede que errónea): mientras más datos
tengamos, más fiel el modelo a la realidad.
• Sustituimos “consecuencia” por “checking” ¡!

Primera visión: Todos los
datos no es “todo”
• Los datos no están representando exhibiendo todas
sus relaciones
• La relación interna (p.e. causal) necesitamos
establecerla
• La relación con el exterior: ¿Cómo? ¿Cuánto?
• Por esta razón no podemos cuantiﬁcar el valor
de los datos
• Los datos son materia prima reutilizable

• en BD es usual trabajar con datasets no veraces
• ausencia de items,
• distorsion de datos,
• incompletitud, etc.
• heterodasticidad
• que provoca la pérdida de la seguridad que ofrecen las
bases de datos tradicionales en cuanto a inferencia de
resultados
Ruido
Segunda visión: las consecuencias
no son consecuencia

Una tercera: veracidad de la
conclusiones. Validez

conclusiones. Validez
Conocimiento
accionable

conclusiones
Conocimiento
accionable
¿Y
si las
consecuencias
son
“razonables”
pero
no
son
válidas
en
el m
odelo?
Veamos algunos
ejemplos

Peligros
http://arstechnica.co.uk/security/2016/02/the-nsas-skynet-program-may-be-killing-thousands-of-innocent-people/

https://www.nytimes.com/2017/05/01/us/politics/sent-to-prison-by-a-software-programs-secret-algorithms.html
Peligros

https://www.nytimes.com/2017/05/01/us/politics/sent-to-prison-by-a-software-programs-secret-algorithms.html
El avance imparable de la IA en algunos
campos esta provocando una fuerte crisis
social y cultural acerca de la seguridad de los
resultados obtenidos en BD.
Peligros

Peligros
Es socialmente inaceptable que un coche
autonomo no alcance una tasa de exito de casi
el 100 %
Los sistemas actuales no lo pueden asegurar
• Los sensores del automóvil de Google ~ 1 Gigabyte de informacion p.s.
• Un estadounidense utiliza el automovil ~ 600 horas año
• Por tanto, un solo coche generaría 2 PB de datos al año

http://moralmachine.mit.edu/hl/es

Peligros H I G H F R E Q U E N C Y T R A D I N G
E N B O L S A

http://www.motherjones.com/politics/2013/02/high-frequency-trading-danger-risk-wall-street
Diez millones de dólares por minuto
45 minutos en encontrar desactivar el sistema
concreto que provocó el desastre
1 de agosto de 2013
Knigth Capital
pérdidas de 440 millones $
Peligros H I G H F R E Q U E N C Y T R A D I N G
E N B O L S A

Agente de compra-venta
M E R C A D O S
C O M P R A -
V E N TA
D E A C C I O N E S
C O N E X I Ó N
U LT R A R R Á P I D A
P E L I G R O S

¿Con qué grado de
formalidad?
¿Conocemos
(sabemos
especiﬁcar) el
problema?
Ejemplo difícil:
Respetar los derechos de autor en Youtube
• ¿Se puede controlar este tipo de sistemas (multiagente)?
• ES UN SISTEMA COMPLEJO
• ¿SE PUEDE PREDECIR EL COMPORTAMIENTO?
No Sigue intentando
Sí

BD como un síntoma/
reflejo de un problema
a resolver…
• There is no definitive formulation of a wicked problem
• Wicked problems have no stopping rule
• Solutions to wicked problems are not true-or-false, but good-or-bad
• There is no immediate and no ultimate test of a solution to a wicked
problem
• Every solution to a wicked problem is a "one-shot operation"; because
there is no opportunity to learn by trial-and-error, every attempt counts
significantly
• Wicked problems do not have an enumerable (or an exhaustively
describable) set of potential solutions, nor is there a well-described set of
permissible operations that may be incorporated into the plan
• Every wicked problem is essentially unique
• Every wicked problem can be considered to be a symptom of another
problem
• The existence of a discrepancy representing a wicked problem can be
explained in numerous ways. The choice of explanation determines the
nature of the problem’s resolution
• The planner has no right to be wrong

S I M U L A C I Ó N ( S O C I A L , E N E S T E C A S O )
¿ S I N M O D E L O S ?
Imagen de Carlos Lozares , La simulación social, ¿una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771

S I M U L A C I Ó N ( S O C I A L , E N E S T E C A S O )
¿ S I N M O D E L O S ?
Imagen de Carlos Lozares , La simulación social, ¿una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
No
Models?
¿NO CONFRONTAMOS TEORÍAS?

Una mirada al pasado: Conectando-Centralizando
Viktor Glushkov
All-State Automated System
(OGAS)
URSS, 1950
Cybersyn
Anthony Stafford Beer
Chile, 1971-73

Actualidad: Conectando
Volumen
Variedad
Velocidad

Parcheando grandes
datasets: Una idea
Conciliación
Conciliación

Simulando nuestra
(defectuosa) causalidad
Parcheando la correlación…

Simulando nuestra
(defectuosa) decisión
Parcheando la decisión…

Problema 3:
representación?
Creemos el lenguaje a la vez
que estudiamos los datos

Mapamundi de Ebstorf (~1300)
http://www.ebstorfer-weltkarte.de/

Problema 3:
representación?
• Minería de datos semántica (en el amplio sentido)
• Minería de conceptos: El lenguaje que
manejamos
• Deﬁnición matemática de un concepto: similar
a la de extensión/intención en la descripción
de conjuntos

Problema 3:
representación?
• Minería de datos semántica (en el amplio sentido)
• Minería de conceptos: El lenguaje que
manejamos
• Deﬁnición matemática de un concepto: similar
a la de extensión/intención en la descripción
de conjuntos
La semántica emergente como
la recuperación de la cualidad

Trending topic: “Syria” • 11,500 tweets collected
Topic: “Syria”
• Language: English
• Date: 05/20/2013
(collection process
lasted 6 hours)
• Weighted lattice (tweet
count)
• Red/Green => Negative/
Positive sentiment
New
sentiments
emergence
Bing Liu’s Opinion Lexicon: http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
SentiWordNet: http://sentiwordnet.isti.cnr.it/
AFINN-111: http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010

Predicción bajo racionalidad acotada
Retículo de conceptos

Sistema
Resultados
Comparación

Sistema
Resultados
Comparación
¿Cómo saber si nuestro vocabulario es bueno para representar
si no sabemos lo que queremos representar (no lo hemos
encontrado aún)?
¿Cómo podemos medir la expresividad a priori?

La complejidad como medida
de bondad de representación
• Simpliﬁcando: Si hemos
elegido un buen conjunto
de atributos (un lenguaje
descriptivo), entonces la
red semántica asociada
es libre de escala
La hipótesis del residuo libre de escala (Aranda, Borrego y Galán 2012)
Es un test independiente del signiﬁcado Escala
Logarítmica

Hipótesis del residuo libre de escala
• Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento útil
• La topología afecta al proceso deductivo desde la minería de datos
Datos para la
predicción
social de
apuestas
deportivas
Datos sobre el
conﬂicto de
Sudan

Hipótesis del residuo libre de escala
• Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento útil
• La topología afecta al proceso deductivo desde la minería de datos
Datos para la
predicción
social de
apuestas
deportivas
Datos sobre el
conﬂicto de
Sudan
¿Pero cómo elegir el lenguaje
conciso pero expresivo?

Mientras más usuarios aporten ideas (y
acepten atributos),
Mejor será el sistema
Diversidad de opinión
Independencia
Decentralización
Agregación

¿Por qué no explota la
inteligencia colectiva?

Real State Data
• Some properties:
• Dimensions (small, medium, big)
• Price (very low, low, medium, high,
very high)
• Price decreased/increased in the
last 3 months
• Price with respect to other
homes in the neighbourhood
(more expensive than average,
average, cheaper than average)
• Amount of other homes for sale
in the surroundings (none, few,
lots)
• Access to public transport
• ...

Concept Lattices by streets
Av. Kansas City
Av. República Argentina
Similar lattices:
- A signiﬁcant difference:  
Home’s dimensions
Idea:
- Analyse knowledge basis

Using the pattern within the District

Conclusiones…
• Los datos son matematizados para tratarlos
• No conocemos todas las relaciones ocultas entre ellos
que son importantes
• POR TANTO
• Un dataset es una materia prima que no se agota
cuando se usa ni siquiera semánticamente.
• Es inﬁnitamente reutilizable y explotable (revisión,
reparación, combinación, venta, etc.)

Conclusiones…
• Los datos son matematizados para tratarlos
• No conocemos todas las relaciones ocultas entre ellos
que son importantes
• POR TANTO
• Un dataset es una materia prima que no se agota
cuando se usa ni siquiera semánticamente.
• Es inﬁnitamente reutilizable y explotable (revisión,
reparación, combinación, venta, etc.)
¿Y dónde está la
semántica?

(Pre)historia
¡Com
prada
por Google!
(2010)

https://www.google.com/intl/es/insidesearch/features/search/knowledge.html
70.000 millones de hechos almacenados

ejemplos
de
triples
nacidoEn
dirigió
tieneCartel
esUna

Especiﬁcación de la World Wide Web
Consortium (W3C) originalmente
diseñado como un modelo de datos
para metadatos.
RDF (Description Framework)

Cinco grafos semánticos importantes… atrapando el
conocimiento común…

En Facebook usan
el Open Graph

Idea detrás de Open Graph
Algo similar a RDF
Alimentando OpenGraph

¿Es Open Graph “EL MODELO”?
•Una consulta para OpenGraph se puede
considerar semántica
•No es demostración automática
•¿Pero y si es “EL MODELO” a tener en
cuenta?
•Sí: entonces seguridad en la respuesta…
•Pero… NO
El razonamiento potencia los procesos de
descubrimiento de conocimiento

Conclusión: Es big
data social
Facebook Open Graph:
semántica
http://actualfacebookgraphsearches.tumblr.com/

Semántica: Linked Data… y metadatos
• Necesitamos añadir razonamiento lógico al razonamiento estadístico
• Razonando con las relaciones entre objetos del universo de discurso
a través de los grafos semánticos

• https://grakn.ai/
https://grakn.ai/

Tendencia (~2024)
Semantic Data Mining
Stream Data
Automated Annotation
Sensor Data
Automated Ontology
Population
Future Trends in Handbook of Semantic Web Technologies, http://link.springer.com/referenceworkentry/10.1007/978-3-540-92913-0_14

Computación y privacidad
Anonimización

Computación y privacidad
Anonimización: Tres requsitos
• Debe preservarse bajo composicion
• Coste computacional aceptable.
• Hay que conciliar la privacidad con la capacidad
de ser enlazable

Anonimización ad hoc
• Intenta evitar la des-anonimización mediante consulta y/o
procesamiento de éste
• K-anonimizacion
• Atributos con varianza pequeña: buenos candidatos para
los intrusos, porque pueden simular sus valores.
• El caracter ubicuo del BD hace que las tecnicas de
anonimización centradas en datasets cerrados sean
insuﬁcientes para asegurar la privacidad.
• Problemas éticos

Ética
• Bert Kaplan, antropólogo
• ~1950-1958
• Finalizado (en parte) por
el uso periodístico de los
datos para desacreditar
al pueblo navajo

(2006-09)
• Netﬂix ofreció un premio de un millón de
dolares a quien pudiera mejorar al menos un
10% su sistema de recomendación.
• La compañía proporcionó a los
desarrolladores interesados un dataset
anonimizado, eliminando información
personal de las opiniones y valoraciones de
usuarios.
• Las identidades fueron reemplazadas por
identiﬁcadores generados aleatoriamente.
Un caso clásico

La competición Netﬂix
(2006-09)
Un caso clásico
• Combinando datos de
diferentes fuentes podemos
obtener informacion
personalizada.
• Este peligro es mucho mayor
cuando combinamos los datos
con el ingente lago de datos de
la Web social.

• Combinando datos de
diferentes fuentes podemos
obtener informacion
personalizada.
• Este peligro es mucho mayor
cuando combinamos los datos
con el ingente lago de datos de
la Web social.
La competición Netﬂix
(2006-09)
Un caso clásico
La curación de contenido
amenaza la privacidad

http://www.centrodeinnovacionbbva.com/bbvatourism
+

Anonimización ad omnia
• Todo lo que se pueda aprender sobre un
individuo que aparece en el dataset puede ser
aprendido sin usar el dataset
Tor Dalenius (1977)
Privacidad diferencial

• Los datos pasados están almacenados. Cualquier
nueva técnica puede aprovecharlos
• Los datos no caducan
• Algunos sistemas de IA no explican las decisiones
• Deep Learning (redes neuronales en general)
• Al no conocer como funciona internamente el
modelo no podemos asegurar que otros
investigadores no sean capaces de romper la
privacidad.
IA como amenaza a la
privacidad

Controlando la IA en BD
“R” es la penalización
que afecta a la utilidad del
sistema por “modiﬁcar el
mundo”

Pregunta:
¿Por qué es interesante plantearse estas cuestiones?
Respuesta:
Por el futuro
• Peligro: Las decisiones tomadas
mediante aprendizaje automático tendrán
un impacto considerable
• Seguridad:
• cesión de control a IA
• Premia la desigualdad social
• Ética: Los sistemas pueden aprender
(correlación) a discriminar por sexo,
raza, condiciones económicas,
salud…

Joaquín Borrego Díaz
Departamento de Ciencias de la Computación e IA - Universidad de Sevilla
jborrego@us.es
https://ontoblogia.wordpress.com/
Cátedra I4S-URJC - Centro de Innovación BBVA

Retos en los fundamentos de Data Science

Recommandé

Recommandé

Contenu connexe

Similaire à Retos en los fundamentos de Data Science

Similaire à Retos en los fundamentos de Data Science (20)

Plus de Joaquín Borrego-Díaz

Plus de Joaquín Borrego-Díaz (20)

Dernier

Dernier (20)

Retos en los fundamentos de Data Science