Este documento discute tres puntos principales sobre la evaluación del riesgo y su aplicación en el sistema penal: 1) La investigación muestra que la precisión de las estimaciones de riesgo de reincidencia es baja, especialmente para delitos violentos y graves; 2) Existe un riesgo de malentendidos entre juristas y criminólogos sobre la fiabilidad de las predicciones de peligrosidad; 3) Conceptos como sensibilidad, especificidad y valor predictivo son importantes para entender la validez y utilidad de las herramientas de evaluación de ries
Problemas en la evaluación del riesgo y su aplicación al sistema penal. Lucía Martínez
1. Problemas en la evaluación del riesgo y su
aplicación al sistema penal
Lucía Martínez Garay
Profª Titular de Derecho Penal
Universitat de València
VII Jornada de Criminología UOC
Barcelona, 9 febrero 2017
2. Tesis:
1. La investigación empírica disponible hasta el momento evidencia que el acierto
en las estimaciones de riesgo de reincidencia es bastante bajo (en términos de
riesgo absoluto), especialmente en los casos de predicción de nueva comisión de
delitos violentos y graves.
2. Existe un riesgo a mi juicio elevado de malentendidos entre juristas y
psicólogos/criminólogos, y de que a consecuencia de ello se genere un
optimismo injustificado sobre la fiabilidad de las predicciones de peligrosidad,
debido entre otras cosas a:
• la tendencia en los estudios científicos sobre la precisión de los pronósticos de
peligrosidad a presentar sus resultados de la manera más positiva posible, y a
no destacar u omitir información también relevante pero menos alentadora
• no diferenciado suficientemente entre sensibilidad/especificidad y valor predictivo
• evaluando la capacidad predictiva preferentemente a través de medidas de riesgo relativo
• la falta de formación estadística y criminológica de los juristas y los operadores
jurídicos
3. Diferencia entre detecciones y predicciones correctas, o
diferencia entre sensibilidad y valor predictivo
REINCIDENCIA OBSERVADA
TOTAL
Porcentaje de
predicciones
correctas: valor
predictivo
SÍ NO
REINCIDENCIA
PRONOSTICADA
SÍ
15
verdaderos
positivos
20
falsos positivos
35
42,6% (valor
predictivo positivo)
NO
5
falsos negativos
60
verdaderos
negativos
65
92,3% (valor
predictivo negativo)
TOTAL 20 80 100
Porcentaje de detecciones
correctas
75% Sensibilidad 75% Especificidad
4. Ejemplo 1: CAPDEVILA CAPDEVILA, M. (Coord,) et al (2015): Tasa de reincidencia
penitenciaria 2014. Centro de Estudios Jurídicos y Formación Especializada,
Generalitat de Catalunya
(http://www.ub.edu/geav/contenidos/vinculos/publicaciones/public1_6/publicac_pdf/publicac_antonio_pdf/tasa_reincidencia_2014_cast.pdf)
Conclusiones (p. 237, negrita y colores añadidos):
“Por primera vez podemos evaluar a partir de medidas empíricas los
resultados del RisCanvi como herramienta de predicción de la reincidencia
violenta. La herramienta se ha comportado de modo excelente en la
predicción de riesgo sobre los sujetos que efectivamente reincidirán
(77,15%) y aceptable para clasificar como casos de bajo riesgo sujetos que
efectivamente no reincidirán (57,26%). Aún así, el porcentaje de casos
evaluados entre los excarcelados en 2010 fue del 19,2% (sumando RisCanvi
completo y screening) y es demasiado pronto todavía para sacar
conclusiones definitivas.”
5. Comparativa entre la previsión de riesgo de reincidencia violenta
(RisCanvi) y la reincidencia violenta efectiva
Predicción de riesgo de reincidencia
violenta (RisCanvi)
Comisión de una reincidencia violenta (datos
empíricos)
Sí No Total
N % N % N %
Alto
% de fila
34
26.2
96
73.8
130
100.0
% de columna 48.6 16.6 20.1
Moderado
% de fila
20
11.7
151
88.3
171
100.0
% de columna 28.6 26.1 26.4
Bajo
% de fila
16
4.6
331
95.4
347
100.0
% de columna 22.9 57.3 53.5
Total
% de fila
70
10.8
578
89.2
648
100.0
% de columna 100.0 100.0 100.0
Fuente: Reproducción literal de la Tabla 38 contenida en CAPDEVILA CAPDEVILA et al. (2015, p. 151).
6. CAPDEVILA CAPDEVILA et al (2015), pp. 151 y s. (colores añadidos):
“Aparecen destacados en verde los casos en los que se había previsto un
riesgo de reincidencia violenta (alto o medio) y que efectivamente han
cometido una reincidencia violenta. El acierto en el pronóstico es del 77,2%.
También están en verde los casos en los que los profesionales habían
previsto un riesgo bajo de reincidencia violenta y efectivamente no la ha
habido. Suponen el 95,4%.
[…]
En cuanto a la sensibilidad de la herramienta –es decir, la capacidad para
prever como casos de riesgo alto o moderado sujetos que efectivamente
reincidirán–, es del 77,15%. Finalmente, la especificidad o capacidad de
la herramienta para dar como casos de bajo riesgo sujetos que
efectivamente no reincidirán es del 57,26%.”
7. Comparativa entre la previsión de riesgo de reincidencia
violenta (RisCanvi) y la reincidencia violenta efectiva - I
Predicción de riesgo
de reincidencia
violenta (RisCanvi)
Comisión de una reincidencia violenta (datos
empíricos)
Sí No Total
Alto 34 96 130
Valor predictivo
positivo: 17.94%Moderado 20 151 171
Bajo 16 331 347
Valor predictivo
negativo: 95.4%
Total 70 578 648
Sensibilidad:
77.15%
Especificidad:
57.26%
Fuente: Elaborada a partir de la Tabla 38 contenida en CAPDEVILA CAPDEVILA et al. (2015, p. 151),
añadiendo la última fila y la última columna y variando los colores originales de las celdas. En rojo
están los falsos negativos (16) y los falsos positivos (247).
8. Comparativa entre la previsión de riesgo de reincidencia
violenta (RisCanvi) y la reincidencia violenta efectiva - II
Predicción de riesgo de
reincidencia violenta
(RisCanvi)
Comisión de una reincidencia violenta (datos
empíricos)
Sí No Total
Alto 34 96 130
Valor predictivo
positivo: 26.15%
Moderado 20 151 171
Valor predictivo
negativo: 93.05%
Bajo 16 331 347
Total 70 578 648
Sensibilidad:
48.57%
Especificidad:
83.39%
Fuente: Elaborada a partir de la Tabla 38 contenida en CAPDEVILA CAPDEVILA et al. (2015, p. 151),
añadiendo la última fila y la última columna, variando los colores originales de las celdas y el umbral
de discriminación. En rojo están los falsos negativos (36) y los falsos positivos (96).
9. Delincuencia violenta Delincuencia sexual Delincuencia en general
Sensibilidad 0,92 (0,88 – 0,94) 0,88 (0,83 – 0,92) 0,41 (0,28 – 0,56)
Especificidad 0,36 ( 0,28 – 0,44) 0,34 (0,20 – 0,51) 0,80 (0,67 – 0,8)
Valor predictivo
positivo
0,41 (0,27 – 0,60) 0,23 (0,09 – 0,41) 0,52 (0,32 – 0,59)
Valor predictivo
negativo
0,91 (0,81 – 0,95) 0,93 (0,82 – 0,98) 0,76 (0,61 – 0,84)
Número de los que
hace falta detener
2 (2-4) 5 (2-11) 2 (2-3)
Número de los que
pueden ser liberados
10 (4-18) 14 (5-48) 3 (2-6)
Fuente: FAZEL, S., SINGH, J.P., DOLL, H., & GRANN, M. (2012). Use of risk assessment instruments to predict
violence and antisocial behaviour in 73 samples involving 24827 people: systematic review and meta-
analysis. British Medical Journal 345:e4692
Valor predictivo de los instrumentos actuariales de predicción a nivel
internacional:
10. PITA FERNÁNDEZ, S., PÉRTEGAS DÍAZ, S.: “Pruebas diagnósticas: Sensibilidad y especificidad” Unidad
de Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña
(España). Cad Aten Primaria 2003; 10: 120-124 (negrita y subrayados añadidos)
(https://www.fisterra.com/mbe/investiga/pruebas_diagnosticas/pruebas_diagnosticas.asp)
“Sensibilidad. Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la
probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La
sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad. […]
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba
diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la
especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto
(positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin
embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori
acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un
resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente
enfermo (sano)?. Así pues, resulta obvio que hasta el momento sólo hemos abordado el problema en
una dirección. Por medio de los valores predictivos completaremos esta información”
¿Por qué es importante el valor predictivo para el operador jurídico? Un
ejemplo de la medicina:
11. Si adaptamos el texto a la valoración del riesgo de reincidencia…
Enfermedad / enfermo Reincidencia / reincidente
Paciente Sujeto
Prueba Herramienta de valoración del riesgo
Resultado positivo Riesgo alto
Resultado negativo Riesgo bajo
Clínica Judicial
Médico Juez
Diagnóstico Pronóstico
12. “Sensibilidad. Es la probabilidad de clasificar correctamente a un individuo reincidente,
es decir, la probabilidad de que para un sujeto reincidente se obtenga en la herramienta
de valoración del riesgo un resultado de riesgo alto. La sensibilidad es, por lo tanto, la
capacidad del test para detectar la reincidencia. […]
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de
una herramienta de valoración del riesgo. Sin embargo, carecen de utilidad en la práctica
judicial. Tanto la sensibilidad como la especificidad proporcionan información acerca de
la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la
verdadera condición del sujeto con respecto a la reincidencia. Sin embargo, cuando a un
sujeto se le realiza alguna valoración de riesgo, el juez carece de información a priori
acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido
contrario: ante un resultado de riesgo alto (o bajo) en la prueba, ¿cuál es la probabilidad
de que el paciente realmente reincida (o no)?. Así pues, resulta obvio que hasta el
momento sólo hemos abordado el problema en una dirección. Por medio de los valores
predictivos completaremos esta información”
… obtenemos algo así:
Fuente: PITA FERNÁNDEZ, S., PÉRTEGAS DÍAZ, S. (2003): “Pruebas diagnósticas: Sensibilidad y especificidad” , cit. en las diapositivas
anteriores, sustituyendo respecto del original todas las palabras en azul, y negrita y subrayados añadidos
13. “los valores de sensibilidad y especificidad, a pesar de definir completamente la validez
de la prueba diagnóstica, presentan la desventaja de que no proporcionan información
relevante a la hora de tomar una decisión judicial ante un determinado resultado de la
valoración del riesgo. Sin embargo, tienen la ventaja adicional de que son propiedades
intrínsecas a la herramienta de valoración del riesgo, y definen su validez
independientemente de cuál sea la prevalencia de la reincidencia en la población a la
cual se aplica.
Por el contrario, el concepto de valores predictivos, a pesar de ser de enorme utilidad a
la hora de tomar decisiones judiciales y transmitir a los sujetos información sobre su
pronóstico, presenta la limitación de que dependen en gran medida de lo frecuente
que sea la reincidencia a pronosticar en la población objeto de estudio. Cuando la
prevalencia de la reincidencia es baja, un resultado de riesgo bajo permitirá descartar
la reincidencia con mayor seguridad, siendo así el valor predictivo negativo mayor. Por
el contrario, un resultado de riesgo alto no permitirá confirmar el pronóstico,
resultando en un bajo valor predictivo positivo.”
… y así:
Fuente: PITA FERNÁNDEZ, S., PÉRTEGAS DÍAZ, S. (2003): “Pruebas diagnósticas: Sensibilidad y especificidad” , cit. en las
diapositivas anteriores, sustituyendo respecto del original todas las palabras en azul, y negrita y subrayados añadidos
14. Influencia de la tasa de prevalencia (base rate) en el valor predictivo
Sensibilidad: 70% - base rate: 50%
Sensibilidad: 70% - base rate: 20%
Sí reincide No reincide Total Valor predictivo
Peligrosos 35 15 50 70%
No peligrosos 15 35 50 70%
Total 50 50 100
% detecciones correctas 70% 70%
Sí reincide No reincide Total Valor predictivo
Peligrosos 14 24 38 37%
No peligrosos 6 56 62 90%
Total 20 80 100
% detecciones correctas 70% 70%
15. Diferencia riesgo relativo-absoluto:
• Riesgo absoluto: probabilidad de que un suceso ocurra (o número de
sujetos en los que ocurre un evento en relación con la población)
• “los sujetos que el instrumento X clasifica en un nivel de riesgo bajo tienen una
probabilidad de reincidir del 4%”: de cada 100 sujetos clasificados en ese nivel de
riesgo, 4 reincidirán
• Riesgo relativo: probabilidad mayor o menor de que un suceso ocurra en
un grupo, comparado con la probabilidad de que ocurra en otro
• “los sujetos que el instrumento X clasifica en un nivel de riesgo alto tienen 10
veces más probabilidad de reincidir que los clasificados como de riesgo bajo”
⇒ Curva ROC (receiver operating characteristic curve): “ROC curve analysis
continues to be the dominant statistical technique used to test instruments”
(SINGH & PETRILA, 2013)
16. Ejemplo 2: clasificación de 1000 sujetos en cinco niveles de riesgo y
comparación con la delincuencia evidenciada
Nivel de riesgo asignado por el instrumento
(1= muy bajo; 5= muy alto)
Total
1 2 3 4 5
Reinciden 7 9 15 19 50 100
No reinciden 450 172 135 83 60 900
Total 457 181 150 102 110 1000
Ratio de VP o
sensibilidad
0.93 0.84 0.69 0.50
Ratio de FP o
1-especificidad
0.50 0.31 0.16 0.07
Fuente: adaptación de la Tabla 2 incluida en MOSSMAN, D. (1994). Assessing predictions of violence: Being
accurate about accuracy. Journal of Consulting and Clinical Psychology 62 (4), p. 785.
17. Sensibilidad, valor predictivo y número de errores en distintos puntos de
corte para el Ejemplo 2
SI
reincide
NO
reincide
total
Riesgo
ALTO 93 450 543
17,1%
VPP
Riesgo
BAJO 7 450 457
98,5%
VPN
Total
100 900 1000
93%
sensib
50%
especif
SI
reincide
NO
reincide
total
Riesgo
ALTO
50 60 110
45,5%
VPP
Riesgo
BAJO
50 840 890
94,4%
VPN
Total 100 900 1000
50%
sensib
93,3%
especif
Riesgo alto desde 2 Riesgo alto desde 5
Número total de errores: 457
- 7 falsos negativos
- 450 falsos positivos
Número total de errores: 110
- 50 falsos negativos
- 60 falsos positivos
18. La curva ROC (acrónimo de Receiver Operating Characteristic, o Característica
Operativa del Receptor) es la representación gráfica, en un sistema de coordenadas,
de la sensibilidad en el eje de abscisas frente a 1–especificidad en el eje de
ordenadas para un sistema clasificador binario según varía el umbral de
discriminación.
Para el ejemplo 2, es la representación en un sistema de coordenadas de las parejas
de valores que contienen las dos últimas filas de la tabla:
(0.93/0.50), (0.84/0.31), (0.69/0.16), (0.50/0.07)
Dibuja la curva que forman los puntos correspondientes a las diversas combinaciones
de valores de sensibilidad y de 1–especificidad que se obtienen según vayamos
situando el punto de corte entre riesgo alto y riego bajo en cada uno de los distintos
niveles de riesgo posibles que contiene un instrumento de predicción.
El área bajo la curva (AUC por sus siglas en inglés, area under the curve) es el área
que queda por debajo de la curva ROC, y su valor varía entre 0 y 1.
Qué son la curva ROC y el área bajo la curva (AUC)
19. Aproximación a la curva ROC para los datos del Ejemplo 2
Fuente: adaptación de la
Figura 1 en MOSSMAN, D.
(1994). Assessing predictions
of violence: Being accurate
about accuracy. Journal of
Consulting and Clinical
Psychology 62 (4), p. 786
Valor AUC: 0.856
20. ¿Qué información da el área bajo la curva ROC (AUC)?
• una AUC de 0.86 DICE que si escogemos al azar un sujeto que efectivamente ha
reincidido hay un 86% de probabilidades de que ese sujeto haya obtenido con ese
instrumento una puntuación de mayor riesgo que un sujeto no reincidente también
escogido al azar
• la AUC NO DICE:
• ni que el sujeto clasificado como de riesgo alto tenga un 86% de probabilidades de
reincidir
• ni que el porcentaje de detecciones ni de predicciones correctas hechas con ese
instrumento sea del 86%
• puede haber instrumentos con valores altos de AUC cuyo valor predictivo no llegue ni
siquiera en el mejor de los casos al 50%
• un mismo instrumento con una única AUC proporciona estimaciones con números de
errores muy dispares según donde se coloque el umbral de discriminación
21. Conclusiones
1. Existe riesgo de malentendidos entre juristas y psicólogos / criminólogos en
relación con la valoración del riesgo de reincidencia
• en concreto, existe el peligro de que se genere al respecto un optimismo excesivo
2. Son necesarios mucho rigor y cautela al transmitir la información, y también al
incorporarla como argumento en las decisiones sobre la condena y la gestión
penitenciaria
• los operadores jurídicos que tengan que tomar decisiones en las que uno de los factores a
considerar sea la valoración del riesgo de reincidencia o de violencia deberían tener algún
conocimiento sobre las características y el funcionamiento de estas herramientas
3. Las funciones y los fines de la Criminología y del Derecho penal son diferentes :
• para algunas decisiones puede ser aceptable utilizar las estimaciones de riesgo de
reincidencia como un elemento más en el que basar la decisión
• para otras, creo que no
22. Bibliografía
• Capdevila Capdevila, M. (coord.) et al (2015). Tasa de reincidencia penitenciaria 2014. Centro de Estudios Jurídicos y
Formación Especializada, Generalitat de Catalunya
• Fazel, S., Singh, J.P., Doll, H., & Grann, M. (2012). Use of risk assessment instruments to predict violence and
antisocial behaviour in 73 samples involving 24827 people: systematic review and meta-analysis. British Medical
Journal 345:e4692
• Helmus, L., Hanson, R.K., Thornton, D., Babchishin, K.M. & Harris, A.J.R. (2012). Absolute recidivism rates predicted
by Static-99R and Static-2002R sex offender risk assessment tools vary across samples: a meta-analysis. Criminal
Jusice and Behaviour, 39, 1148-1171
• Ioannidis (2012). Why science is not necessarily self-correcting. Perspectives on Psychological Science 7(6), 645-654
• Luque (2016). Correlación no implica causalidad. De las promesas del Big Data a los usos y abusos de la estadística.
Investigación y Ciencia, julio 2016, 88-90
• Mossman, D. (1994). Assessing predictions of violence: Being accurate about accuracy. Journal of Consulting and
Clinical Psychology 62 (4), 783-792
• Pita Fernández, S., Pértegas Díaz, S. (2003). Pruebas diagnósticas: Sensibilidad y especificidad. Unidad de
Epidemiología Clínica y Bioestadística. Complexo Hospitalario Universitario de A Coruña (España). Cad Aten
Primaria; 10: 120-124
• Singh, J.P. (2013). Predictive validity performance indicators in violence risk assessment: a methodological primer.
Behavioural Sciencies and the Law 31: 8-22
• Singh, J.P. & Petrila, J. (2013). Measuring and Interpreting the Predictive Validity of Violence Risk Assessments: An
Overview of the Special Issue. Behavioral Sciences and the Law 31, 1–7