1. Veracidad, expresividad y computación
Joaquín Borrego Díaz
Departamento de Ciencias de la Computación e IA - Universidad de Sevilla
jborrego@us.es
https://ontoblogia.wordpress.com/
Retos en los
fundamentos de Data
Science
Cátedra I4S-URJC - Centro de Innovación BBVA
2. Contenido aproximado
• Realidad versus Datos
• Fidelidad versus
interpretación
• Datos y
reconstrucción
• Dimensión de la
interpretación
• Ausencia de modelos
• Veracidad y fiabilidad.
Control
• Parcheando grandes
datasets
• Acotando la racionalidad
• Semántica emergente y
colectiva
• Semántica como gran
desafío para la Data Science
• Privacidad y control de la IA
en Data Science
9. ¿Impacto de la veracidad/aproximación?
• Google Maps NO es la
realidad
• Tiene sólo 2 (3)
dimensiones
• ¿Cómo es el mundo
según Google Maps?
• Importante
conocerlo para
razonar con los
datos extraídos de
este
10.
11.
12.
13.
14.
15. ¿Cómo es el mundo
según los datos de
un satélite?
Pero es “infinita”:
siempre estamos
pelando la naranja
Si sólo fuera un satélite para toda la tierra:
Una fibración de la esfera
con fibra trivial
¡Pero son muchos satélites!
t=0
t=1
tiempo
Geoestacionarios
16. Para un usuario: “ciclos de refresco” de
nuestro sistema (por ejemplo, un sistema
de monitorización) y solo un satélite
De Niles Johnson - Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=22485543
Fibración de Hopf
17. Pero es “infinita”:
siempre estamos
pelando la naranja
Si sólo fuera un satélite para toda la tierra:
Una fibración de la esfera
con fibra trivial
t=0
t=1
tiempo
Problema 1:
Nos encontramos con espacios
ambiente
(donde viven los datos)
complejos
¡Pero son muchos satélites!
Geoestacionarios
¿Cómo es el mundo
según los datos de
un satélite?
18. The Atlas of the Conflict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.
20. The Atlas of the Conflict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.
Problema 1 (cont.):
¿interpretamos bien el espacio
ambiente donde están los
datos?
24. • ¿Es explicable la dinámica
del conflicto en términos
cualitativos (predicción
razonada)?
Ejemplo: el trabajo de campo y la datificación fallida
¿Dónde falla?
25. • ¿Es explicable la dinámica
del conflicto en términos
cualitativos (predicción
razonada)?
Ejemplo: el trabajo de campo y la datificación fallida
¿Dónde falla?
Problema 3:
¿La falta de explicación
razonada es por pobreza de
datos o de nuestro lenguaje de
representación?
26. Volvamos al problema 1…
Los datos como vectores
Problema 1:
Nos encontramos con
espacios ambiente
(donde viven los
datos) complejos
27. Los datos como vectores
Dim
ensión
d=tam
año
del vocabulario
(keyw
ords) (p.e. ~25.000)
Para un buscador para WWW, la matriz sería ~25.000x109
28. La maldición de la dimensión
La aletoriedad se concentra
Los vectores documentos
son “perpendiculares”
al vector pregunta
El volumen de la
hiperesfera tiende a 0
Término acuñado por Richard Bellman en 1960
29. La maldición de la dimensión
2 3 d
}ε
El volumen de la “cáscara”
del hipercubo unidad es 1-(1-ε)d
conforme crece d, tiende a 1
el centro se “vacía”
30. La reducción
de la dimensión
Problema 1:
Nos encontramos con
espacios ambiente
(donde viven los datos)
complejos
31. La reducción de la
dimensionalidad
Problema 4:
¿Cuánta información
útil
perdemos?
32. ¿Y si el problema es
que modelamos?
Problema 2:
Reconstruir con datos…
¿Es una
reconstrucción de la
realidad?
33. Big Data:
El fin de la
teoría
(de los
modelos)
Todos los modelos
son erróneos, pero
algunos son útiles
George E. P. Box (1976)
Todos los modelos son
erróneos, y trabajamos
sin modelos cada vez
mejor
Peter Norvig (2008)
34. Big Data: El fin de la teoría
(de los modelos)
• Norvig versus
Fukuyama
• “N=Todo” deja
inservible la causalidad:
la correlación gana
• Los modelos tienen un
fin que no necesitamos
La lucha causalidad-
correlación ha
terminado
35. Big Data: El fin de la teoría
(de los modelos)
• Norvig versus
Fukuyama
• “N=Todo” deja
inservible la causalidad
• Los modelos tienen un
fin que no necesitamos
sí necesitamos los modelos
(y las teorías)
Al menos las teorías
matemáticas
36. Solución
razonada
Deep
Learning
La ausencia de modelos afecta a cuatro
dimensiones esenciales
• la mencionada causalidad,
• la confianza en los
resultados,
• la posibilidad de transferir
del modelo a datos distintos
de los usados en la fase de
entrenamiento, y finalmente,
• a su capacidad de informar
sobre lo que ocurre.
37. Un camino intermedio…
modelar los procesos
• Describir que hacemos y qué podemos hacer
• ¿Que aportan estos modelos?
• Abstracción,
• Procedimientos de DS como elementos de
estructuras mas abstractas (vision
categorial).
• Facilita el reacondicionamiento de resultados.
• Los procesos detectan patrones e indicios
y los científicos interpretan.
38. Veracidad: dos visiones
• Veracidad desde el punto de vista de bases de
datos: refleja fielmente el universo a representar
• Veracidad desde las matemáticas: las
conclusiones extraídas son consecuencia
(¿lógica?) del dataset
• Intuición (puede que errónea): mientras más datos
tengamos, más fiel el modelo a la realidad.
• Sustituimos “consecuencia” por “checking” ¡!
39. Primera visión: Todos los
datos no es “todo”
• Los datos no están representando exhibiendo todas
sus relaciones
• La relación interna (p.e. causal) necesitamos
establecerla
• La relación con el exterior: ¿Cómo? ¿Cuánto?
• Por esta razón no podemos cuantificar el valor
de los datos
• Los datos son materia prima reutilizable
40. • en BD es usual trabajar con datasets no veraces
• ausencia de items,
• distorsion de datos,
• incompletitud, etc.
• heterodasticidad
• que provoca la pérdida de la seguridad que ofrecen las
bases de datos tradicionales en cuanto a inferencia de
resultados
Ruido
Segunda visión: las consecuencias
no son consecuencia
43. Una tercera: veracidad de la
conclusiones
Conocimiento
accionable
¿Y
si las
consecuencias
son
“razonables”
pero
no
son
válidas
en
el m
odelo?
Veamos algunos
ejemplos
47. Peligros
Es socialmente inaceptable que un coche
autonomo no alcance una tasa de exito de casi
el 100 %
Los sistemas actuales no lo pueden asegurar
• Los sensores del automóvil de Google ~ 1 Gigabyte de informacion p.s.
• Un estadounidense utiliza el automovil ~ 600 horas año
• Por tanto, un solo coche generaría 2 PB de datos al año
51. Agente de compra-venta
M E R C A D O S
C O M P R A -
V E N TA
D E A C C I O N E S
C O N E X I Ó N
U LT R A R R Á P I D A
P E L I G R O S
52. ¿Con qué grado de
formalidad?
¿Conocemos
(sabemos
especificar) el
problema?
Ejemplo difícil:
Respetar los derechos de autor en Youtube
• ¿Se puede controlar este tipo de sistemas (multiagente)?
• ES UN SISTEMA COMPLEJO
• ¿SE PUEDE PREDECIR EL COMPORTAMIENTO?
No Sigue intentando
Sí
53. BD como un síntoma/
reflejo de un problema
a resolver…
• There is no definitive formulation of a wicked problem
• Wicked problems have no stopping rule
• Solutions to wicked problems are not true-or-false, but good-or-bad
• There is no immediate and no ultimate test of a solution to a wicked
problem
• Every solution to a wicked problem is a "one-shot operation"; because
there is no opportunity to learn by trial-and-error, every attempt counts
significantly
• Wicked problems do not have an enumerable (or an exhaustively
describable) set of potential solutions, nor is there a well-described set of
permissible operations that may be incorporated into the plan
• Every wicked problem is essentially unique
• Every wicked problem can be considered to be a symptom of another
problem
• The existence of a discrepancy representing a wicked problem can be
explained in numerous ways. The choice of explanation determines the
nature of the problem’s resolution
• The planner has no right to be wrong
54. S I M U L A C I Ó N ( S O C I A L , E N E S T E C A S O )
¿ S I N M O D E L O S ?
Imagen de Carlos Lozares , La simulación social, ¿una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
55. S I M U L A C I Ó N ( S O C I A L , E N E S T E C A S O )
¿ S I N M O D E L O S ?
Imagen de Carlos Lozares , La simulación social, ¿una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
No
Models?
¿NO CONFRONTAMOS TEORÍAS?
57. Una mirada al pasado: Conectando-Centralizando
Viktor Glushkov
All-State Automated System
(OGAS)
URSS, 1950
Cybersyn
Anthony Stafford Beer
Chile, 1971-73
62. Problema 3:
¿La falta de explicación
razonada es por pobreza de
datos o de nuestro lenguaje de
representación?
Creemos el lenguaje a la vez
que estudiamos los datos
64. Problema 3:
¿La falta de explicación
razonada es por pobreza de
datos o de nuestro lenguaje de
representación?
Creemos el lenguaje a la vez
que estudiamos los datos
• Minería de datos semántica (en el amplio sentido)
• Minería de conceptos: El lenguaje que
manejamos
• Definición matemática de un concepto: similar
a la de extensión/intención en la descripción
de conjuntos
65. Problema 3:
¿La falta de explicación
razonada es por pobreza de
datos o de nuestro lenguaje de
representación?
Creemos el lenguaje a la vez
que estudiamos los datos
• Minería de datos semántica (en el amplio sentido)
• Minería de conceptos: El lenguaje que
manejamos
• Definición matemática de un concepto: similar
a la de extensión/intención en la descripción
de conjuntos
La semántica emergente como
la recuperación de la cualidad
69. Sistema
Resultados
Comparación
¿Cómo saber si nuestro vocabulario es bueno para representar
si no sabemos lo que queremos representar (no lo hemos
encontrado aún)?
¿Cómo podemos medir la expresividad a priori?
70. La complejidad como medida
de bondad de representación
• Simplificando: Si hemos
elegido un buen conjunto
de atributos (un lenguaje
descriptivo), entonces la
red semántica asociada
es libre de escala
La hipótesis del residuo libre de escala (Aranda, Borrego y Galán 2012)
Es un test independiente del significado Escala
Logarítmica
71. Hipótesis del residuo libre de escala
• Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento útil
• La topología afecta al proceso deductivo desde la minería de datos
Datos para la
predicción
social de
apuestas
deportivas
Datos sobre el
conflicto de
Sudan
72. Hipótesis del residuo libre de escala
• Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento útil
• La topología afecta al proceso deductivo desde la minería de datos
Datos para la
predicción
social de
apuestas
deportivas
Datos sobre el
conflicto de
Sudan
¿Pero cómo elegir el lenguaje
conciso pero expresivo?
73. Mientras más usuarios aporten ideas (y
acepten atributos),
Mejor será el sistema
Diversidad de opinión
Independencia
Decentralización
Agregación
74.
75. ¿Por qué no explota la
inteligencia colectiva?
76. Real State Data
• Some properties:
• Dimensions (small, medium, big)
• Price (very low, low, medium, high,
very high)
• Price decreased/increased in the
last 3 months
• Price with respect to other
homes in the neighbourhood
(more expensive than average,
average, cheaper than average)
• Amount of other homes for sale
in the surroundings (none, few,
lots)
• Access to public transport
• ...
77. Concept Lattices by streets
Av. Kansas City
Av. República Argentina
Similar lattices:
- A significant difference:
Home’s dimensions
Idea:
- Analyse knowledge basis
79. Conclusiones…
• Los datos son matematizados para tratarlos
• No conocemos todas las relaciones ocultas entre ellos
que son importantes
• POR TANTO
• Un dataset es una materia prima que no se agota
cuando se usa ni siquiera semánticamente.
• Es infinitamente reutilizable y explotable (revisión,
reparación, combinación, venta, etc.)
80. Conclusiones…
• Los datos son matematizados para tratarlos
• No conocemos todas las relaciones ocultas entre ellos
que son importantes
• POR TANTO
• Un dataset es una materia prima que no se agota
cuando se usa ni siquiera semánticamente.
• Es infinitamente reutilizable y explotable (revisión,
reparación, combinación, venta, etc.)
¿Y dónde está la
semántica?
93. Idea detrás de Open Graph
Algo similar a RDF
Alimentando OpenGraph
94.
95. ¿Es Open Graph “EL MODELO”?
•Una consulta para OpenGraph se puede
considerar semántica
•No es demostración automática
•¿Pero y si es “EL MODELO” a tener en
cuenta?
•Sí: entonces seguridad en la respuesta…
•Pero… NO
El razonamiento potencia los procesos de
descubrimiento de conocimiento
96. Conclusión: Es big
data social
Facebook Open Graph:
semántica
http://actualfacebookgraphsearches.tumblr.com/
97. Semántica: Linked Data… y metadatos
• Necesitamos añadir razonamiento lógico al razonamiento estadístico
• Razonando con las relaciones entre objetos del universo de discurso
a través de los grafos semánticos
99. Tendencia (~2024)
Semantic Data Mining
Stream Data
Automated Annotation
Sensor Data
Automated Ontology
Population
Future Trends in Handbook of Semantic Web Technologies, http://link.springer.com/referenceworkentry/10.1007/978-3-540-92913-0_14
101. Computación y privacidad
Anonimización: Tres requsitos
• Debe preservarse bajo composicion
• Coste computacional aceptable.
• Hay que conciliar la privacidad con la capacidad
de ser enlazable
102. Anonimización ad hoc
• Intenta evitar la des-anonimización mediante consulta y/o
procesamiento de éste
• K-anonimizacion
• Atributos con varianza pequeña: buenos candidatos para
los intrusos, porque pueden simular sus valores.
• El caracter ubicuo del BD hace que las tecnicas de
anonimización centradas en datasets cerrados sean
insuficientes para asegurar la privacidad.
• Problemas éticos
103. Ética
• Bert Kaplan, antropólogo
• ~1950-1958
• Finalizado (en parte) por
el uso periodístico de los
datos para desacreditar
al pueblo navajo
105. (2006-09)
• Netflix ofreció un premio de un millón de
dolares a quien pudiera mejorar al menos un
10% su sistema de recomendación.
• La compañía proporcionó a los
desarrolladores interesados un dataset
anonimizado, eliminando información
personal de las opiniones y valoraciones de
usuarios.
• Las identidades fueron reemplazadas por
identificadores generados aleatoriamente.
Un caso clásico
106. La competición Netflix
(2006-09)
Un caso clásico
• Combinando datos de
diferentes fuentes podemos
obtener informacion
personalizada.
• Este peligro es mucho mayor
cuando combinamos los datos
con el ingente lago de datos de
la Web social.
107. • Combinando datos de
diferentes fuentes podemos
obtener informacion
personalizada.
• Este peligro es mucho mayor
cuando combinamos los datos
con el ingente lago de datos de
la Web social.
La competición Netflix
(2006-09)
Un caso clásico
La curación de contenido
amenaza la privacidad
109. Anonimización ad omnia
• Todo lo que se pueda aprender sobre un
individuo que aparece en el dataset puede ser
aprendido sin usar el dataset
Tor Dalenius (1977)
Privacidad diferencial
110. • Los datos pasados están almacenados. Cualquier
nueva técnica puede aprovecharlos
• Los datos no caducan
• Algunos sistemas de IA no explican las decisiones
• Deep Learning (redes neuronales en general)
• Al no conocer como funciona internamente el
modelo no podemos asegurar que otros
investigadores no sean capaces de romper la
privacidad.
IA como amenaza a la
privacidad
111. Controlando la IA en BD
“R” es la penalización
que afecta a la utilidad del
sistema por “modificar el
mundo”
112. Pregunta:
¿Por qué es interesante plantearse estas cuestiones?
Respuesta:
Por el futuro
• Peligro: Las decisiones tomadas
mediante aprendizaje automático tendrán
un impacto considerable
• Seguridad:
• cesión de control a IA
• Premia la desigualdad social
• Ética: Los sistemas pueden aprender
(correlación) a discriminar por sexo,
raza, condiciones económicas,
salud…
114. Joaquín Borrego Díaz
Departamento de Ciencias de la Computación e IA - Universidad de Sevilla
jborrego@us.es
https://ontoblogia.wordpress.com/
Cátedra I4S-URJC - Centro de Innovación BBVA