Demostraciones probabilidad

Capítulo 2

Variables aleatorias

2.1. Introducción
En un espacio de probabilidades (Ω, A, P ) los elementos del espacio mues-
tral Ω no tienen por qué ser números. En la tirada de una moneda al aire, los
sucesos elementales, cara y cruz, no son valores numéricos. No obstante, siem-
pre podemos hacer corresponder el número 1 a la cara, y el 0 a la cruz. Esta
asignación de valores numéricos a los sucesos elementales de un espacio de prob-
abilidades es la base para deﬁnir el concepto de variable aleatoria. En efecto,
una variable aleatoria será una aplicación X deﬁnida sobre el espacio muestral Ω
tal que a cada suceso elemental ω le hace corresponder un valor numérico X(ω).
Este número puede ser real o complejo, e incluso un vector cuando las variables
aleatorias son n-dimensionales. No obstante, aquí sólo estudiaremos el caso real,
tratando con detalle las variables aleatorias unidimensionales y bidimensionales
y dejando al lector la generalización al caso n-dimensional.

Sin embargo, para estudiar las variables aleatorias no sólo hay que conocer los
valores que puede tomar sino que también es necesario conocer la probabilidad
con que toma estos valores. Por ejemplo, si la variable aleatoria X fuera el

49

© Els autors, 2002; © Edicions UPC, 2002

50 CAPÍTULO 2. VARIABLES ALEATORIAS

número de éxitos en n pruebas de Bernoulli, será preciso conocer la probabilidad
de que la variable aleatoria sea menor, igual o mayor que un determinado número
k; si la variable aleatoria X fuera la intensidad de corriente que pasa por un
circuito eléctrico, sabiendo que fluctúa entre 1 y 2 amperios, habrá que conocer
probabilidades tales como la de que la intensidad esté comprendida entre 1 y
1.2 amperios.
Por definición de probabilidad, sólo los sucesos de la σ-álgebra A tienen asig-
nada probabilidad. Esto significa que para calcular la probabilidad de que una
variable aleatoria X tome valores de un cierto intervalo real [x1 , x2 ] habrá que
traducir esta información en términos de sucesos de A. Para ello, introducimos
la siguiente notación: designaremos por [x1 ≤ X ≤ x2 ] el suceso formado por
todos los ω ∈ Ω que hacen que X(ω) tome un valor real del intervalo [x1 , x2 ], es
decir,
[x1 ≤ X ≤ x2 ] = {ω ∈ Ω : x1 ≤ X(ω) ≤ x2 }
Del mismo modo, tenemos

[X = x] = {ω ∈ Ω : X(ω) = x}

[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x}
y, en general, si M es un subconjunto de la recta real, entonces

[X ∈ M ] = {ω ∈ Ω : X(ω) ∈ M }

Para poder asignar probabilidades a todos estos sucesos debemos primero asegu-
rarnos de que son sucesos de la σ-álgebra A. Si el espacio muestral Ω es discreto
y A = P(Ω), entonces cualquier suceso es un suceso de la σ-álgebra y, por tan-
to, todos estos subconjuntos de Ω tendrán probabilidades bien asignadas. Sin
embargo, si el espacio muestral es continuo, no podemos asegurar que sucesos
tales como [X ∈ M ] sean sucesos de A, y, en consecuencia, no podemos asegurar
que tengan asignada una probabilidad. Sin embargo, se puede demostrar que si
imponemos la condición de que

[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A (2.1)

para todo x ∈ R, entonces todos los sucesos de la forma [X ∈ M ] tienen prob-
abilidad bien asignada. Es evidente que la condición (5.1) hace que no toda
aplicación de Ω en R pueda considerarse automáticamente como una variable
aleatoria. No obstante, cuando Ω sea finito o numerable y se tome A = P(Ω),
entonces toda aplicación X : Ω → R cumplirá la condición (5.1). Por tanto,
es este caso particular, cualquier función real definida sobre Ω es una variable
aleatoria.

Observación 10 Dado un espacio de probabilidades (Ω, A, P ) y una variable
aleatoria X, ésta induce sobre el espacio probabilizable (R, B), formado por la
recta real y la σ-álgebra de Borel sobre R, una probabilidad PX mediante la


2.2. DEFINICIÓN DE VARIABLE ALEATORIA 51

cual (R, B, PX ) es un espacio de probabilidades. Entonces, se llama función de
distribución de la variable aleatoria X a la función FX : R → R definida por

FX (x) = PX ((−∞, x])
= P (X −1 (−∞, x])
= P ({ω ∈ Ω : X(ω) ≤ x})
= P ([X ≤ x])

De este modo, podríamos definir una variable aleatoria como una función real
X definida sobre Ω tal que para todo número real x está definida la probabilidad
P ([X ≤ x]) y, por tanto, su función de distribución. Es aquí cuando necesitamos
que [X ≤ x] ∈ A para todo x ∈ R, o sea la condición (5.1). Además, de las
propiedades de los borelianos sobre R se deduce el hecho de que esta condición
sea la única a imponer para que podamos calcular las probabilidades de otros
sucesos tales como [x1 ≤ X ≤ x2 ] , [X = x], o [X ∈ Q].

2.2. Definición de variable aleatoria
Sea (Ω, A, P ) un espacio de probabilidades, se dice que una aplicación

X:Ω → R

es una variable aleatoria (real) si para todo x ∈ R se cumple

{ω ∈ Ω : X(ω) ≤ x} ∈ A

En tal caso, como ya hemos visto en la introducción, este suceso se escribe
abreviadamente como [X ≤ x]. Obsérvese que designamos por letras mayús-
culas X, Y, Z, ... las variables aleatorias, y por letras minúsculas x, y, z, ... sus
correspondientes valores.

Ejemplo 32 1. En el lanzamiento de una moneda al aire tenemos Ω =
{c, +}, en donde hemos simbolizado cara por c y cruz por +, y tomamos
A = P(Ω). Entonces la aplicación X "número de veces que sale cara"es
una variable aleatoria. En efecto, es claro que X(c) = 1 y X(+) = 0, y
además se cumple

 ∅∈A si x < 0
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = {+} ∈ A si 0 ≤ x < 1

Ω∈A si x ≥ 1

2. El tipo más simple de variable aleatoria es el que sirve para indicar si se
realizó un suceso. Sea (Ω, A, P ) un espacio de probabilidades y considere-
mos un suceso A ∈ A, entonces la aplicación
½
1 si ω ∈ A
IA (ω) =
0 si ω ∈ A
/



es una variable aleatoria que se llama indicador del suceso A. En efecto,
se cumple

 ∅ ∈ A si x < 0
[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} = A ∈ A si 0 ≤ x < 1

Ω ∈ A si x ≥ 1

3. Sea Ω el conjunto de resultados en la tirada de un dado y A = {∅, {2, 4, 6}, {1, 3, 5}, Ω}
el álgebra de sucesos. Definimos sobre (Ω, A) las siguientes aplicaciones:
½ ½
1 si i ∈ {1, 2, 3} 1 si i es par
X1 (i) = y X2 (i) =
2 si i ∈ {4, 5, 6} 2 si i es impar

Entonces, la aplicación X1 no es una variable aleatoria, pues

 ∅∈A si x < 1
[X1 ≤ x] = {ω ∈ Ω : X1 (ω) ≤ x} = {1, 2, 3} ∈ A si 1 ≤ x < 2
/

Ω∈A si x ≥ 2

mientras que X2 es una variable aleatoria, pues

 ∅∈A si x < 1
[X2 ≤ x] = {ω ∈ Ω : X2 (ω) ≤ x} = {2, 4, 6} ∈ A si 1 ≤ x < 2

Ω∈A si x ≥ 2

Ejemplo 33 Consideremos el experimento aleatorio de lanzar dos dados al aire.
Expresar su espacio muestral. Definimos la aplicación X "suma de los puntos
obtenidos en los dos dados", ¿es X una variable aleatoria? ¿Cuáles son los
sucesos [X = 7], [X ≤ 1], [X > 12] y [2 < X ≤ 7]?
Solución: Es claro que

Ω = {(1, 1), (1, 2), ...(1, 6), ..., (6, 1), (6, 2), ..., (6, 6)}

Definimos
X: Ω −→ R
(i, j) 7−→ i + j
Si sobre Ω consideramos la σ-álgebra dada por A = P (Ω), es fácil comprobar
que para todo x ∈ R se cumple

{(i, j) ∈ Ω : X(i, j) = i + j ≤ x} ∈ A

Tenemos

[X = 7] = {(i, j) ∈ Ω : i + j = 7}
= {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}

[X ≤ 1] = {(i, j) ∈ Ω : i + j ≤ 1} = ∅
[X > 12] = {(i, j) ∈ Ω : i + j > 12} = Ω



[2 < X ≤ 7] = {(i, j) ∈ Ω : 2 < i + j ≤ 7}
= {(1, 2), (2, 1), (1, 3), (2, 2), (3, 1), (1, 4), (2, 3), (3, 2),
(4, 1), (1, 5), (2, 4), (3, 3), (4, 2), (5, 1), (1, 6), (2, 5),
(3, 4), (4, 3), (5, 2), (6, 1)}

Ejemplo 34 Consideremos el experimento que consiste en tirar dos monedas al
aire. Representamos los sucesos ”sale cara” y ”sale cruz” mediante c y x, respec-
tivamente. Expresar su espacio muestral. Definimos la aplicación X "número
de caras obtenidas en el lanzamiento", ¿es X una variable aleatoria? ¿Cuáles
son los sucesos [X = 1,5], [X ≤ 1], [X > 1] y [0,5 < X < 1,5]?
Solución: Es claro que

Ω = {cc, cx, xc, xx}

y que X(xx) = 0, X(cx) = X(xc) = 1 y X(cc) = 2. Además, si tomamos
A = P(Ω), se cumple

 ∅∈A
 si x<0

{xx} ∈ A si 0≤x<1
{ω ∈ Ω : X(ω) ≤ x} =
 {xx, cx, xc} ∈ A
 si 1≤x<2

Ω∈A si x≥2

y, por tanto, X es una variable aleatoria. Entonces, tenemos

[X = 1,5] = {ω ∈ Ω : X(ω) = 1,5} = ∅

[X ≤ 1] = {ω ∈ Ω : X(ω) ≤ 1} = {xx, cx, xc}
[X > 1] = [X ≤ 1] = {cc}
[0,5 < X < 1,5] = {ω ∈ Ω : 0,5 < X(ω) < 1,5} = {cx, xc}

2.2.1. Operaciones con variables aleatorias
El propósito de esta sección es definir las operaciones algebraicas entre vari-
ables aleatorias y demostrar que las nuevas aplicaciones formadas son también
variables aleatorias.

Suma de variables aleatorias
La suma de dos variables aleatorias X, Y definidas sobre un mismo espacio
de probabilidades (Ω, A, P ) es otra aplicación, denotada por X + Y , que cumple

(X + Y )(ω) = X(ω) + Y (ω)

para cada ω ∈ Ω.



Teorema 9 Si X, Y son variables aleatorias sobre un espacio de probabilidades
(Ω, A, P ), X + Y también lo es.
Demostración: Sea x ∈ R y consideremos el conjunto
[
A= ([X ≤ r] ∩ [Y < x − r])
r∈Q

Como Q es numerable, A ∈ A. Es claro que

A ⊂ [X + Y < x]

Sea ω ∈ [X + Y < x], entonces

X(ω) + Y (ω) < x

Consideremos cualquier número racional r0 tal que

X(ω) < r0 < x − Y (ω)

Entonces
X(ω) < r0 y Y (ω) < x − r0
y, por tanto, ω ∈ [X ≤ r0 ] ∩ [Y < x − r0 ] ⊂ A. Como consecuencia, tenemos

A = [X + Y < x] ∈ A

para todo x ∈ R. De aquí,
· ¸
1
X +Y <x+ n ∈A
2

y, en consecuencia,
·
∞
1
¸
X + Y < x + n = [X + Y ≤ x] ∈ A
n=1
2

Producto de un número real por una variable aleatoria
El producto de un número real k por una variable aleatoria X deﬁnida
sobre un espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por
kX, que satisface
(kX)(ω) = k · X(ω)

Teorema 10 Si k ∈ R y X es una variable aleatoria sobre un espacio de prob-
abilidades (Ω, A, P ), kX también lo es.
Demostración: Consideremos tres casos:



Caso 1 k = 0
En este caso, evidentemente tenemos
½
∅ si x < 0
[kX ≤ x] =
Ω si x ≥ 0
Caso 2 k > 0
En este caso, para todo x ∈ R tenemos
h xi
[kX ≤ x] = X ≤ ∈A
k
Caso 3 k < 0
En este caso, para todo x ∈ R tenemos
h xi h xi
[kX ≤ x] = X ≥ = X< ∈A
k k
ya que
h xi [·
∞
x 1
¸
X< = X≤ − n ∈A
k n=1
k 2
pues, · ¸
x 1
X ≤ − n ∈A (n = 1, 2, 3, ...)
k 2
La demostración de estos tres casos completa la prueba del teorema.

Producto de variables aleatorias
La producto de dos variables aleatorias X, Y deﬁnidas sobre un mismo
espacio de probabilidades (Ω, A, P ) es otra aplicación, denotada por XY , que
cumple
(XY )(ω) = X(ω) · Y (ω)
Teorema 11 Si X es una variable aleatoria sobre (Ω, A, P ), también lo es X 2 .
Demostración: Es claro que si x < 0, entonces
£ 2 ¤
X ≤x =∅∈A
Supongamos ahora que x ≥ 0, entonces tenemos
£ 2 ¤ £ √ √ ¤ £ √ ¤ £ √ ¤
X ≤x = − x≤X ≤ x = X ≤ x ∩ X ≥− x ∈A
pues
£ √ ¤ £ √ ¤
X ≥− x = X<− x ∈A
y
£ √ ¤ [·
∞
√ 1
¸
X<− x = X ≤− x− n ∈A
n=1
2



Teorema 12 Si X, Y son variables aleatorias sobre un espacio de probabili-
dades (Ω, A, P ), XY también lo es.
Demostración: Aplicando el teorema 1, deducimos que X − Y y X + Y son
variables aleatorias. Por el teorema 3, deducimos que (X + Y )2 y (X − Y )2
también lo son. Por último, por los teoremas 1 y 2

(X + Y )2 − (X − Y )2
= XY
4
es también una variable aleatoria.

Cociente de variables aleatorias
El cociente de dos variables aleatorias X, Y definidas sobre un mismo espa-
cio de probabilidades (Ω, A, P ) es otra aplicación, denotada por X , que satisface
Y

X X(ω)
( )(ω) =
Y Y (ω)
¡X ¢
para todo ω ∈ Ω, supuesto que Y (ω) 6= 0; obsérvese que Dom Y = [Y 6= 0].

dades (Ω, A, P ) y [Y = 0] = ∅, entonces X también lo es.
Y
Demostración: Podemos escribir
· ¸ µ· ¸ ¶ µ· ¸ ¶
X X X
≤x = ≤ x ∩ [Y < 0] ∪ ≤ x ∩ [Y > 0]
Y Y Y
= ([X ≥ xY ] ∩ [Y < 0]) ∪ ([X ≤ xY ] ∩ [Y > 0])
= ([X − xY ≥ 0] ∩ [Y < 0]) ∪ ([X − xY ≤ 0] ∩ [Y > 0])

Cada una de estas cuatro últimas clases de sucesos son también sucesos como
puede comprobarse enseguida utilizando la técnica usada en las demostraciones
de los teoremas 1, 2 o 3.

Máximo y mínimo de variables aleatorias
Dadas dos variables aleatorias X, Y definidas sobre un espacio de prob-
abilidades (Ω, A, P ), definimos la función máximo de X, Y , denotada por
m´x{X, Y }, mediante
a

m´x{X, Y }(ω) = m´x{X(ω), Y (ω)}
a a

para todo ω ∈ Ω. Del mismo modo, se define la función mínimo de X, Y ,
denotada por m´
ın{X, Y }, mediante

m´
ın{X, Y }(ω) = m´
ın{X(ω), Y (ω)}

para todo ω ∈ Ω.



dades (Ω, A, P ), entonces m´x{X, Y } y m´
a ın{X, Y } son también variables aleato-
rias.
Demostración: El teorema se sigue de los dos hechos siguientes

[m´x{X, Y } ≤ x] = [X ≤ x] ∩ [Y ≤ x] ∈ A
a

y
[m´
ın{X, Y } ≤ x] = [X ≤ x] ∪ [Y ≤ x] ∈ A
Puede también probarse que

m´
ın{X, Y } = − m´x{−X, −Y }
a

y de aquí, demostrar que m´ es una variable aleatoria.
ın

2.2.2. Funciones de distribución. Propiedades
Si X es una variable aleatoria sobre un espacio de probabilidades (Ω, A, P ),
se llama función de distribución de X a la función real de variable real FX
deﬁnida por
FX (x) = P ([X ≤ x])
para todo x ∈ R.
Esta función se introduce para conocer cómo se reparte la probabilidad de
los valores que toma la variable aleatoria. Obsérvese que si [X ≤ x] no fuera un
suceso de A, FX (x) no estaría deﬁnida (ver la observación 1). Escribiremos F
en lugar de FX cuando no haya confusión posible, y también P (X ≤ x) en lugar
de P ([X ≤ x]).

Observación 11 Es importante saber distinguir los conceptos de variable aleato-
ria y de función de distribución. Dada una variable aleatoria, tenemos los valores
reales asignados a cada uno de los elementos del espacio muestral, o como tam-
bién se dice a menudo, tenemos una variabilidad del espacio de probabilidades.
Mientras que, dada una función de distribución, tenemos únicamente cuáles
son estos valores reales y cómo se reparten, o sea, tenemos la distribución de
estos valores. Al pasar de una variable aleatoria a su distribución se pierde la
información relacionada con los objetos que dan lugar a estos valores reales y
que se recoge en el espacio de probabilidades. Es importante observar que dos
variables aleatorias distintas pueden tener la misma función de distribución. En
estos casos, decimos que las variables aleatorias son equivalentes (ver ejemplo
4, apartado 1).

Ejemplo 35 1. Dado un espacio de probabilidades (Ω, A, P ) de manera que
Ω = {ω 1 , ω 2 }, A = P(Ω) y P viene dada por

1
P (ω 1 ) = P (ω 2 ) =
2



Consideremos dos variables aleatorias X, Y deﬁnidas por
½ ½
0 si ω = ω 1 1 si ω = ω 1
X(ω) = y Y (ω) =
1 si ω = ω 2 0 si ω = ω 2

Es claro que X 6= Y , pues

X(ω) 6= Y (ω)

para todo ω ∈ Ω. Se cumple
 
 ∅ si x < 0  ∅ si y < 0
[X ≤ x] = {ω 1 } si 0 ≤ x < 1 y [Y ≤ y] = {ω 2 } si 0 ≤ y < 1
 
Ω si x ≥ 1 Ω si y ≥ 1

y, por tanto,

 0 si x < 0
1
FX (x) = P (X ≤ x) = 2 si 0 ≤ x < 1

1 si x ≥ 1
y 
 0 si y < 0
1
FY (y) = P (Y ≤ y) = 2 si 0 ≤ y < 1

1 si y ≥ 1
es decir, las dos variables aleatorias tienen la misma función distribución.

2. Consideremos el experimento que consiste en tirar tres veces una moneda
al aire. En este caso, Ω consta de 8 sucesos elementales

Ω = {ccc, ccx, cxx, xxx, xxc, xcc, xcx, cxc}

donde por ejemplo cxc signiﬁca "salir cara, cruz y cara en las tres tiradas".
Indicamos por X "número de caras obtenidas en las tres tiradas". Es claro
que X es una variable aleatoria cuando A = P(Ω) y se cumple

X(ccc) = 3
X(ccx) = X(xcc) = X(cxc) = 2
X(cxx) = X(xxc) = X(xcx) = 1
X(xxx) = 0

y 
 ∅
 si x<0

 {xxx}
 si 0≤x<1
[X ≤ x] = {xxx, cxx, xxc, xcx} si 1≤x<2

 {xxx, cxx, ..., xcc, cxc}

 si 2≤x<3

Ω si 3≤x



Entonces la función de distribución de X viene dada por

 0
 si −∞<x<0


 1/8 si 0≤x<1
FX (x) = P (X ≤ x) = 1/2 si 1≤x<2

 7/8

 si 2≤x<3

1 si 3 ≤ x < +∞

La gráﬁca de esta función aparece en la siguiente ﬁgura

Propiedades
A continuación vamos a demostrar algunas propiedades de las funciones
distribución en general.

Teorema 15 Si F es la función distribución de una variable aleatoria X sobre
un espacio de probabilidades (Ω, A, P ), entonces se cumplen:

1. 0 ≤ F (x) ≤ 1 para todo x ∈ R

2. F es monótona no decreciente:

x1 < x2 =⇒ F (x1 ) ≤ F (x2 )

para todo x1 , x2 ∈ R

3. F (−∞) = 0 y F (+∞) = 1

4. P (a < X ≤ b) = F (b) − F (a) para todo a, b ∈ R con a ≤ b



5. F es continua por la derecha en cada punto de R

Demostración: (1) Es evidente ya que F (x) = P (X ≤ x) y 0 ≤ P (X ≤ x) ≤ 1.
(2) Si x1 < x2 , podemos escribir

[X ≤ x2 ] = [X ≤ x1 ] ∪ [x1 < X ≤ x2 ]

y entonces, tomando probabilidades en los dos miembros de la ecuación, obten-
emos
P (X ≤ x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) ≥ P (X ≤ x1 )
y por definición, deducimos

F (x2 ) ≥ F (x1 )

(3) De la definición obtenemos

F (+∞) = P (X ≤ +∞)

Ahora bien [X ≤ +∞] es el suceso seguro, ya que

X(ω) < +∞

para todo ω ∈ Ω, y por tanto, F (+∞) = 1. Como se cumple x < +∞ para todo
x ∈ R, del apartado (2) deducimos

F (x) ≤ F (+∞) = 1

Por otro lado, como que
X(ω) > −∞
para todo ω ∈ Ω, se tiene que [X > −∞] es el suceso seguro. Por definición

F (−∞) = P (X ≤ −∞) = 1 − P (X > −∞) = 0

Finalmente, como se verifica −∞ < x para todo x ∈ R, del apartado (2) deduci-
mos
0 = F (−∞) ≤ F (x)
(4) Si a = b, la fórmula es evidente. Supongamos que a < b, entonces
podemos escribir
[X ≤ b] = [X ≤ a] ∪ [a < X ≤ b]
y entonces, tomando probabilidades en los miembros de la ecuación, obtenemos

P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)

y, por definición, deducimos lo que queríamos

P (a < X ≤ b) = F (b) − F (a)



(5) Sea a cualquier número real. Para ver que F es continua por la derecha
en a debemos demostrar que se cumple

l´ F (x) = F (a)
ım
x→a+

o de forma equivalente,
1
l´ F (a +
ım ) = F (a)
n→∞ n
Deﬁnimos los siguientes sucesos
· ¸
1
An = a < X ≤ a +
n

Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
·
∞
1
¸
l´ An =
ım a<X ≤a+ =∅
n→∞
n=1
n

Entonces, del apartado (4) deducimos

1
P (An ) = F (a + ) − F (a)
n
y pasando al límite, obtenemos
1
l´ P (An ) = l´ F (a +
ım ım ) − F (a)
n→∞ n→∞ n
y por la propiedad de continuidad de la probabilidad, tenemos

l´ P (An ) = P (∅) = 0
ım
n→∞

Como consecuencia, se tiene
1
l´ F (a +
ım ) = F (a)
n→∞ n

Observación 12 La función de distribución F puede ser discontinua por la
izquierda. En efecto, si fuera continua por la izquierda en a debería cumplirse
1
l´ F (a −
ım ) = F (a)
n→∞ n
Ahora bien, consideremos la siguiente sucesión de sucesos (Bn ) deﬁnida medi-
ante · ¸
1
Bn = a − < X ≤ a
n



Es claro que es una sucesión decreciente y su límite viene dado por
·
∞
1
¸
l´ Bn =
ım a − < X ≤ a = [X = a]
n→∞
n=1
n

Entonces, del apartado (4) del teorema deducimos
1
P (Bn ) = F (a) − F (a − )
n
y pasando al límite, obtenemos
1
l´ P (Bn ) = F (a) − l´ F (a −
ım ım )
n→∞ n n→∞

l´ P (Bn ) = P (X = a)
ım
n→∞

Por tanto, tenemos
1
F (a) − l´ F (a −
ım ) = P (X = a)
n→∞ n
y, como consecuencia, si
P (X = a) 6= 0
entonces la función de distribución es discontinua por la derecha.

2.2.3. Variables aleatorias y distribuciones discretas
Se dice que una variable aleatoria X es discreta, y asimismo se llama disc-
reta a su función de distribución F , si el conjunto de valores que toma con
probabilidad no nula es finito o numerable. Esto significa que existe una suce-
sión de números reales x1 , x2 , ..., xn , ... tales que
P (X = xi ) = pi 6= 0 y P (X 6= xi ) = 0 (i = 1, 2, 3, ...)
Para una variable aleatoria discreta la función de distribución viene dada
por X
F (x) = P (X = xi )
xi ≤x

en donde la suma se realiza sobre todos aquellos valores de i para los que xi ≤ x.
Asociada a una variable aleatoria discreta, o a su correspondiente distribu-
ción discreta, aparece una función a la que se le llama función de densidad
de probabilidad, o simplemente función de densidad, que denotamos por fX
o por f cuando no haya confusión, y se define por
½
P (X = xi ) si x = xi
f (x) =
0 si x 6= xi para todo i = 1, 2, 3, ...
Como consecuencias inmediatas de la definición y de los axiomas de probabili-
dad, tenemos las siguientes propiedades de la función de densidad



1. 0 ≤ f (x) ≤ 1

2.
∞
X
f (xi ) = 1
i=1

3. X
F (x) = f (xi )
xi ≤x

Debe observarse que cualquier variable aleatoria discreta puede representarse
mediante indicadores. Si In es el indicador del suceso [X = xn ], entonces X
puede escribirse en la siguiente forma
X
X= xn In
n

En efecto, si ω ∈ [X = xk ] (k = 1, 2, 3, ...), entonces
½
1 si n = k
In (ω) =
0 si n 6= k

y, por tanto, obtenemos
X
X(ω) = xn In (ω) = xk
n

que es lo que tenía que salir.

Ejemplo 36 1. Sea X la variable aleatoria que da el número de éxitos en n
pruebas de Bernoulli. Es claro que X es una variable aleatoria discreta,
pues sólo puede tomar los valores enteros que van de 0 a n. Además, se
cumple µ ¶
n k
P (X = k) = p (1 − p)n−k (k = 0, 1, 2, ..., n)
k
siendo p la probabilidad de éxito. Entonces, la función de distribución es
X µn¶
F (x) = pk (1 − p)n−k
k
k≤x

X µn¶
[x]
= pk (1 − p)n−k
k
k=0

siendo [x] la parte entera del número real x (es decir, el mayor número
entero menor que x). Esta distribución se llama distribución binomial
de parámetros n y p.



2. Sea X una variable aleatoria discreta que puede tomar cualquier valor
entero no negativo. Entonces X tiene una distribución de Poisson de
parámetro λ > 0 si

λk −λ
P (X = k) = e (k = 0, 1, 2, ...)
k!

La función de distribución viene dada por

[x]
X λk
F (x) = e−λ
k!
k=0

3. Sea X una variable aleatoria discreta que sólo puede tomar un número
ﬁnito de valores x1 , x2 , ..., xn . Entonces X tiene una distribución uni-
forme (discreta) si

1
P (X = xk ) = (k = 1, 2, ..., n)
n

La distribución uniforme es

X nx
F (x) = P (X = xk ) =
n
xk ≤x

donde nx es el número de valores xk que son menores o iguales que x. En
la siguiente ﬁgura se muestra la distribución uniforme para n = 6



Ejemplo 37 Se sabe que X es una variable aleatoria discreta que puede tomar
cualquier valor entero no negativo. Además, se sabe que existe un número real
0 < α < 1 para el que se cumple
P (X = k) = α · P (X = k − 1)
(1) Encontrar la función de densidad de probabilidad de X. (2) Determinar la
probabilidad de que X tome valores impares.
Solución: (1) Aplicando sucesivamente la relación dada entre las probabil-
idades, se tiene
P (X = k) = α · P (X = k − 1)
= α2 · P (x = k − 2)
= ···
= αk · P (X = 0)
Sabemos que
∞
X
P (X = k) = 1
k=0



luego,
∞
X
1 = αk · P (X = 0)
k=0
∞
X
= P (X = 0) · αk
k=0
1
= P (X = 0) ·
1−α
y, por tanto,
P (X = 0) = 1 − α
y, como consecuencia,

P (X = k) = αk (1 − α) (k = 0, 1, 2, ...)

(2) Sea
A = [X = 1] ∪ [X = 3] ∪ · · · ∪ [X = 2n − 1] ∪ · · ·
entonces la probabilidad pedida es P (A). Tenemos
∞
X
P (A) = P (X = 2n − 1)
n=1
X∞
= α2n−1 (1 − α)
n=1
∞
1 − α X 2n
= α
α n=1
1 − α α2
=
α 1 − α2
α
=
1+α

2.2.4. Variables aleatorias y distribuciones absolutamente
continuas
Una variable aleatoria se llama continua si su función de distribución no
tiene discontinuidades y, por tanto, el conjunto de valores que toma con prob-
abilidad no nula es no numerable. Entre ellas, las más fáciles de estudiar son
las absolutamente continuas. Una variable aleatoria se llama absolutamente
continua si existe una función no negativa e integrable f , denominada función
de densidad de probabilidad, tal que su función de distribución puede ponerse
en la forma Z x
F (x) = f (t) dt (2.2)
−∞



para todo x ∈ R. Como consecuencia, es claro que la función de densidad ha de
cumplir también la siguiente condición
Z +∞
f (x) dx = 1
−∞

Es importante observar que la continuidad de F no implica la existencia de una
representación de la forma (5.3).

Observación 13 La clasiﬁcación de las variables aleatorias en discretas y con-
tinuas no implica que toda distribución de probabilidad haya de ser discreta o
bien continua. Las distribuciones discretas y las distribuciones continuas son
dos pequeñas clases disjuntas de distribuciones; son las más fáciles de estudiar,
sobretodo si no se está familiarizado con la teoría de la medida y de la integral
de Lebesgue. Es importante observar que hay muchas funciones de distribución
que no son discretas ni tampoco son continuas.

Teorema 16 Si f es la función de densidad de una variable aleatoria absolu-
tamente continua X y F es su función de distribución
Z x
F (x) = f (t) dt
−∞

entonces se cumplen

1. f (x) ≥ 0 para todo x ∈ R

2. F es continua

3. P (X = a) = 0 para todo a ∈ R

4. F 0 (a) = f (a), si f es continua en a ∈ R

5. Z b
P (a < X ≤ b) = f (x) dx
a

Demostración: (1) Por los apartados (3) y (4) del teorema 7, es inmediato
comprobar que f (x) ≥ 0 para todo x ∈ R.
(2) Por el apartado (5) del teorema 7, F es continua por la derecha en cada
a ∈ R. Veamos ahora que F es continua por la izquierda. En efecto, sea > 0,
entonces
Z a Z a−
F (a) − F (a − ) = f (x) dx − f (x) dx
−∞ −∞
Z a
= f (x) dx
a−
= f (θ)



en donde θ ∈ [a − , a]. Luego

l´ [F (a) − F (a − )] = 0 · f (θ) = 0
ım
→0+

de donde se deduce que F es continua por la izquierda en a.
(3) Es consecuencia de la continuidad de F . En efecto, en la observación 3
hemos obtenido
1
F (a) − l´ F (a − ) = P (X = a)
ım
n→∞ n
Ahora bien, al ser F continua se cumple
1
l´ F (a −
ım ) = F (a)
n→∞ n
Por tanto,
P (X = a) = 0
para todo a ∈ R.
(4) Por el teorema fundamental del cálculo, para todo valor de x en el cual
f es continua, F es derivable y se cumple F 0 (x) = f (x).
(5) Por el apartado (4) del teorema 7, tenemos

P (a < X ≤ b) = F (b) − F (a)
Z b
= f (x) dx
a

ya que f tiene a lo sumo un número finito de discontinuidades evitables o de
salto finito. Obsérvese que por el apartado (3), se tiene
· ¸
F (x + h) − F (x)
l´
ım − f (x) = 0
h→0 h

de donde, · ¸
P (x < X ≤ x + h)
l´
ım − f (x) = 0
h→0 h
y, en consecuencia,
P (x < X ≤ x + dx) = f (x) dx
es decir, f (x) dx se interpreta como la probabilidad infinitesimal de que la vari-
able X tome valores dentro del intervalo (x, x + dx].

Observación 14 1. Como consecuencia del apartado (4), la probabilidad es
igual al área bajo la gráfica de la función densidad f en el intervalo [a, b].
Además, como
[a, b] = {a} ∪ (a, b]
de los apartados (3) y (4) se deduce

P (a ≤ X ≤ b) = P (X = a) + P (a < X ≤ b) = F (b) − F (a)



Del mismo modo, tenemos
P (a ≤ X < b) = P (a < X < b) = F (b) − F (a)
Este hecho es diferente a la situación encontrada en el caso de una dis-
tribución discreta.
2. En general, si la variable aleatoria X no es continua (y por tanto F no
es continua por la izquierda), no se cumplen (3), (4) y las consecuencias
anteriores. En efecto, para estas variables se tiene
P (X = a) = F (a) − l´ − F (x)
ım
x→a

P (X < a) = P (X ≤ a) − P (X = a) = l´ − F (x)
ım
x→a
P (a < X < b) = l´ − F (x) − F (a)
ım
x→b
P (a < X ≤ b) = P (a < X < b) + P (X = b) = F (b) − F (a)
P (a ≤ X < b) = P (X = a) + P (a < X < b) = l´ − F (x) − l´ − F (x)
ım ım
x→b x→a
P (a ≤ X ≤ b) = F (b) − l´ − F (x)
ım
x→a
Obsérvese que todos los límites se toman por la izquierda.
Ejemplo 38 1. Una variable aleatoria absolutamente continua tiene una
distribución uniforme en un intervalo [a, b] si su función de densidad
viene dada por ½ 1
b−a si x ∈ [a, b]
f (x) =
0 si x ∈ [a, b]
/
La función de distribución vendrá dada por
Z x
F (x) = f (t) dt
−∞

Si x < a, entonces F (x) = 0 ya que f (x) = 0. Si a ≤ x < b, entonces
Z x
F (x) = f (t) dt
−∞
Z a Z x
= f (t) dt + f (t) dt
−∞ a
Z x
1 x−a
= dt =
a b−a b−a
Finalmente, si x ≥ b, entonces
Z x
F (x) = f (t) dt
−∞
Z a Z b Z x
= f (t) dt + f (t) dt + f (t) dt
−∞ a b
Z b
1
= dt = 1
a b−a



Por tanto,

 0 si x < a
x−a
F (x) = b−a si a ≤ x < b

1 si x ≥ b
En la siguiente ﬁgura se muestra la distribución uniforme en el intervalo
[2, 4]

2. Sea X una variable aleatoria absolutamente continua cuyo recorrido es
toda la recta real. Se dice que X tiene una distribución exponencial de
parámetro λ > 0 si su función de densidad viene dada por
½
λe−λx si x ≥ 0
f (x) =
0 si x < 0

Si x < 0, la función de distribución F (x) = 0 ya que f (x) = 0. Si x ≥ 0,



entonces
Z x
F (x) = f (t) dt
−∞
Z 0 Z x
= f (t) dt + f (t) dt
−∞ 0
Z x
= λe−λt dt
0
= 1 − e−λx
Luego ½
1 − e−λx si x ≥ 0
F (x) =
0 si x < 0
En la ﬁgura siguiente se muestra la distribución exponencial de parámetro
λ=2

3. Una variable aleatoria absolutamente continua tiene una distribución



normal o de Gauss si la función de densidad es
1 2 2
f (x) = √ e−(x−µ) /2σ
σ 2π
donde µ y σ > 0 son parámetros de la distribución. La gráﬁca de f es la
conocida campana de Gauss con un máximo situado en el punto x = µ
y dos inﬂexiones en los puntos x = µ ± σ. Para calcular su función de
distribución procedemos de la siguiente manera:
Z x
1 2 2
F (x) = √ e−(t−µ) /2σ dt
σ 2π −∞
haciendo el cambio siguiente
t−µ
u=
σ
tenemos
Z 0 Z x−µ
1 −u2 /2 1 σ 2
F (x) = √ e du + √ e−u /2
du
2π −∞ 2π 0

2
Ahora bien, al ser e−u /2 una función par, tenemos
Z 0 Z +∞
1 2 1 2
√ e−u /2 du = √ e−u /2 du
2π −∞ 2π 0
y sabemos que Z +∞
2 Γ(p)
u2p−1 e−au =
0 2ap
siendo Z +∞
Γ(p) = xp−1 e−x dx
0
Luego
Z +∞
2 Γ(1/2)
e−u /2
du = p
0 2 1/2
√
2π
=
2
Por tanto, tenemos
√ Z x−µ
1 2π 1 σ 2
F (x) = √ +√ e−u /2 du
2π 2 2π 0
µ ¶
1 x−µ
= +Φ
2 σ



donde Z x
1 2
Φ(x) = √ e−t /2 dt
2π 0
se llama la integral de probabilidad. En la siguiente ﬁgura se muestra la
distribución normal con parámetros µ = 0 y σ = 2

Ejemplo 39 Sea X una variable aleatoria absolutamente continua cuya función
de densidad es ½
k(1 + x2 ) si x ∈ (0, 3)
f (x) =
0 si x ∈ (0, 3)
/
Se pide: (1) hallar la constante k y la función de distribución de X; (2) deter-
minar la probabilidad de que X esté comprendido entre 1 y 2; y (3) hallar la
probabilidad de que X sea menor que 1.
Solución: (1) Al ser f una función de densidad de una variable absoluta-
mente continua debe cumplirse que
Z +∞
f (x) dx = 1
−∞



Luego,
Z +∞ Z 0 Z 3 Z +∞
f (x) dx = f (x) dx + f (x) dx + f (x) dx
−∞ −∞ 0 3
Z 3
= k (1 + x2 ) dx
0
· ¸3
x3
= k x+ = 12k
3 0

Por tanto, k = 1/12. Para hallar la función de distribución sabemos que
Z x
F (x) = f (t) dt
−∞

Luego, si x < 0, entonces F (x) = 0 ya que f (x) = 0. Si 0 < x < 3, entonces
Z x
F (x) = f (t) dt
−∞
Z 0 Z x
= f (t) dt + f (t) dt
−∞ 0
Z x
1 + t2
= dt
0 12
· ¸x µ ¶
1 t3 1 x3
= t+ = x+
12 3 0 12 3
Por tanto, obtenemos

 0 ³
 ´ si x ≤ 0
1 x3
F (x) = 12 x+ 3 si 0 < x < 3


1 si x ≥ 3

(2) Se pide la probabilidad del suceso [1 ≤ X ≤ 2]. Entonces,
Z 2
P (1 ≤ X ≤ 2) = f (x) dx
1
Z 2
1
= (1 + x2 ) dx
1 12
· ¸2
1 x3 5
= x+ =
12 3 1 18

(3) Se pide la probabilidad del suceso [X < 1]. Entonces
1 1 1
P (X < 1) = F (1) = (1 + ) =
12 3 9



2.2.5. Transformación de variables aleatorias
Sea X una variable aleatoria sobre un espacios probabilidades (Ω, A, P ) y
sea g una función de la variable real x. Entonces, Y = g(X) es una nueva función
real deﬁnida sobre Ω tal que

Y (ω) = g(X(ω))

Si queremos que Y sea una variable aleatoria debemos imponer la condición de
que
{ω ∈ Ω : Y (ω) ≤ y} ∈ A (2.3)
para todo y ∈ R. En lo sucesivo haremos la suposición de que las funciones g
son tales que (2.3) se satisface.

En esta situación el problema que se nos plantea es el de encontrar las funciones
de densidad y de distribución de Y a partir de las de X. En el caso de vari-
ables aleatorias discretas la solución a este problema viene dada por el siguiente
teorema.

Teorema 17 Sea X una variable aleatoria discreta y Y una variable aleatoria
deﬁnida por
Y = g(X)
Entonces la función de distribución de Y viene dada por
X
FY (y) = P (X = x)
g(x)≤y

Demostración: Observamos que Y es una variable aleatoria discreta, ya que
X
P (Y = y) = P (X = x)
g(x)=y



Por tanto,

FY (y) = P (Y ≤ y)
X
= P (X = x)
g(x)≤y

Ejemplo 40 Dada la variable aleatoria discreta X definida por la siguiente
tabla
xi 0 2 5 7
pi 0,3 0,2 0,4 0,1
Se pide determinar la distribución de la variable Y = 3X + 2.
Solución: Observamos que

xi 0 2 5 7
yi 2 8 17 23

Entonces,
yi 2 8 17 23
pi 0,3 0,2 0,4 0,1
La función de distribución de Y viene dada por
X
F (y) = P (X = xi )
3xi +2≤y

Por tanto 
 0
 si x<2


 0,3 si 2≤y<8
F (y) = 0,5 si 8 ≤ y < 17

 0,9

 si 17 ≤ y < 23

1 si y ≥ 23

En el caso de que las variables sean absolutamente continuas, hay dos pro-
cedimientos. Uno consiste en calcular primero la función de distribución FY
de Y = g(X) a partir de la de X y, después, si FY es derivable, determinar
0
la función de densidad fY mediante fY (y) = FY (y). La justificación de este
procedimiento se encuentra en el teorema siguiente.

Teorema 18 Sea X una variable aleatoria absolutamente continua con función
de densidad fX y sea Y la variable aleatoria definida por Y = g(X). Entonces,
la función de distribución de Y es
Z
FY (y) = fX (x) dx
D

donde D es el subconjunto de la recta real definido por g(x) ≤ y.



Demostración: Por deﬁnición, tenemos

FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (X ∈ D)

ya que de la condición
g(X(ω)) ≤ y
se deduce X(ω) ∈ D. Por tanto,
Z
P (X ∈ D) = fX (x) dx
D

y, como consecuencia, tenemos
Z
FY (y) = fX (x) dx
D

que es lo que queríamos demostrar.

Ejemplo 41 Dada la variable aleatoria absolutamente continua X cuya función
de densidad viene dada por
½
2x si x ∈ (0, 1)
f (x) =
0 si x ∈ (0, 1)
/

Consideramos las siguientes transformaciones: (1) Y = 3X + 5; (2) Y = X 2 ;
(3) Y = 2X 2 + 5. En cada una, calcular las funciones de distribución y de
densidad.
Solución: La función de distribución de X es

 0 si x < 0
F (x) = x2 si 0 ≤ x < 1

1 si x ≥ 1

(1) Consideremos la transformación Y = 3X + 5. Tenemos

FY (y) = P (Y ≤ y)
= P (3X + 5 ≤ y)
y−5
= P (X ≤ )
3
y−5
= F( )
3
Ahora bien,
y−5
0< 3 < 1 ⇐⇒ 5 < y < 8



Por tanto, 
 0 si y < 5
1
FY (y) = 9 (y − 5)2 si 5 ≤ y < 8

1 si y ≥ 8
Es claro que FY es derivable en (5, 8) y, por tanto, la función de densidad de Y
viene dada por ½ 2
fY (y) = 9 (y − 5) si y ∈ (5, 8)
0 si y ∈ (5, 8)
/

(2) Consideremos la transformación Y = X 2 . En este caso, tenemos

FY (y) = P (Y ≤ y)
= P (X 2 ≤ y)
√ √
= P (− y ≤ X ≤ y)
√ √
= F ( y) − F (− y)
√
= F ( y)

Ahora bien
√
0< y < 1 ⇐⇒ 0 < y < 1
Por tanto, 
 0 si y < 0
FY (y) = y si 0 ≤ y < 1

1 si y ≥ 1
viene dada por ½
1 si y ∈ (0, 1)
fY (y) =
0 si y ∈ (0, 1)
/

(3) Consideremos la transformación Y = 2X 2 + 5. Entonces

FY (y) = P (Y ≤ y)
= P (2X 2 + 5 ≤ y)
Ã r r !
y−5 y−5
= P − ≤X≤
2 2
Ãr ! Ã r !
y−5 y−5
= F −F −
2 2
Ãr !
y−5
= F
2

Ahora bien, q
y−5
0< 2 < 1 ⇐⇒ 5 < y < 7



Por tanto, 
 0 si y < 5
y−5
FY (y) = 2 si 5 ≤ y < 7

1 si y ≥ 7
viene dada por ½ 1
2 si y ∈ (5, 7)
fY (y) =
0 si y ∈ (5, 7)
/

Otro procedimiento consiste en determinar primero la función de densidad
fY de Y = g(X) a partir de la de X y, después, por integración, calcular la fun-
ción de distribución. Este procedimiento es más limitado que el anterior porque
se han de comprobar previamente algunas condiciones como, por ejemplo, que
la función g sea monótona y derivable. La justiﬁcación de este procedimiento se
halla en el siguiente teorema.
Teorema 19 Sea X una variable aleatoria absolutamente continua cuya fun-
ción de densidad es una función fX continua. Sea g : R → R una función
monótona y derivable, entonces Y = g(X) es una variable aleatoria del mismo
tipo cuya función de densidad viene dada por
1
fY (y) = fX (x) ·
|g 0 (x)|
para todo y ∈ R, siendo y = g(x). Además, la función de distribución de Y es
FY (y) = FX (x)
si g es creciente, y
FY (y) = 1 − FX (x)
si g es decreciente.
Demostración: Supongamos que g es creciente y derivable. Por el teorema de
la inversa derivable, g es biyectiva sobre su recorrido, g −1 es derivable en su
dominio y se cumple
1
(g −1 )0 (y) = 0
g (x)
en donde g(x) = y. Entonces, puesto que
£ ¤
[g(X) ≤ y] = X ≤ g −1 (y)
se tiene
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (X ≤ g −1 (y))
= FX (g −1 (y))
= FX (x)



ya que g(x) = y equivale a x = g −1 (y). Como fX es continua, según el apartado
(4) del teorema 8, se tiene
0
fX (x) = FX (x)
= (FY ◦ g)0 (x)
= FY (g(x)) · g 0 (x)
0

= FY (y) · g 0 (x)
0

Al ser g una función creciente, se tiene

g 0 (x) > 0

para todo x ∈ R. Por tanto,
|g 0 (x)| = g 0 (x)
y, en consecuencia, obtenemos

0 1
FY (y) = fX (x) ·
|g 0 (x)|

Por consiguiente, si la función de densidad de Y es continua, deducimos que
1
fY (y) = fX (x) ·
|g 0 (x)|

Supongamos ahora que g es decreciente, entonces
£ ¤
X ≥ g −1 (y) = [g(X) ≤ y]

y, por tanto,

FY (y) = P (Y ≤ y)
= P (g(X) ≤ y)
= P (X ≥ g −1 (y))
= 1 − P (X ≤ x)
= 1 − FX (x)

Por otro lado, tenemos
0
fX (x) = FX (x)
= (1 − FY ◦ g)0 (x)
= −FY (g(x)) · g 0 (x)
0

= −FY (y) · g 0 (x)
0

Ahora bien, como g es decreciente tenemos g 0 (x) < 0 para todo x ∈ R. Por
tanto,
|g 0 (x)| = −g 0 (x)



y, en consecuencia, obtenemos

0 1
FY (y) = fX (x) ·
|g 0 (x)|
Por consiguiente, si la función de densidad de Y es continua, deducimos que
1
fY (y) = fX (x) ·
|g 0 (x)|
En conclusión, si g es monótona, entonces
1
fY (y) = fX (x) ·
|g 0 (x)|

Ejemplo 42 Sea X una variable aleatoria absolutamente continua de la cual
sabemos que su densidad viene dada por la siguiente función
½
1 − 1 x si x ∈ (0, 2)
2
f (x) =
0 si x ∈ (0, 2)
/

Se pide calcular las funciones de densidad y de distribución de las variables (1)
Y = eX y (2) Y = e−X .
Solución: La función de distribución de X es

 0 si x < 0
2
F (x) = x − x si 0 ≤ x < 2
 4
1 si x ≥ 2

(1) Consideremos la transformación Y = eX . En este caso g(x) = ex es una
función creciente y derivable. Por tanto, según el teorema 11, tenemos

FY (y) = FX (x)

y
1
fY (y) = f (x) ·
|g 0 (x)|
De este modo, como x = ln y, obtenemos

 0 si y < 1
ln2 y
FY (y) = FX (ln y) = ln y − si 1 ≤ y < e2
 4
1 si x ≥ e2
y
1
1− 2 ln y 2 − ln y
fY (y) = =
y 2y
si 1 < y < e2 .



(2) Consideremos la transformación Y = e−X . En este caso g(x) = e−x es
una función decreciente y derivable. Por tanto, según el teorema 11, tenemos
FY (y) = 1 − FX (x)
y
1
fY (y) = f (x) ·
|g 0 (x)|
De este modo, como x = − ln y, obtenemos

 0 si y > 0
ln2 y
FY (y) = 1 − Fx (− ln y) = 1 + ln y + 4 si 1 ≥ y > e−2

1 si y ≤ e−2
y
1 + 1 ln y
2 2 + ln y
fY (y) = =
y 2y
−2
si 1 > y > e .

2.3. Variables aleatorias bidimensionales
2.3.1. Introducción
Supongamos que tenemos dos variables aleatorias X, Y sobre el mismo es-
pacio de probabilidades (Ω, A, P ). De este modo, para cada suceso elemental
ω ∈ Ω tenemos dos números reales X(ω) y Y (ω). Entonces, hay dos posibles
interpretaciones: (1) Considerar los números X(ω) y Y (ω) de forma separada,
como se ha hecho al considerar las operaciones con variables aleatorias, o bien
(2) podemos considerar este par de números como las componentes de un vector
(X(ω), Y (ω)) de R2 (o las coordenadas de un punto del plano). Es esta segunda
interpretación la que conduce al concepto de variable aleatoria bidimension-
al y, por extensión, al de variable aleatoria n-dimensional.


2.3. VARIABLES ALEATORIAS BIDIMENSIONALES 83

Al ser X, Y variables aleatorias, tenemos que

[X ≤ x] = {ω ∈ Ω : X(ω) ≤ x} ∈ A y [Y ≤ y] = {ω ∈ Ω : Y (ω) ≤ y} ∈ A

para todo x, y ∈ R. Por tanto,

[X ≤ x] ∩ [Y ≤ y] ∈ A

y, como consecuencia, estos sucesos tienen asignadas probabilidades.

Así, podemos introducir la función F definida por

FX (x, y) = P ([X ≤ x] ∩ [Y ≤ y])

para todo (x, y) ∈ R2 ; F es una función real de dos variables que se llama
función de distribución conjunta o función de distribución de la variable
aleatoria bidimensional X = (X, Y ).
En general, una variable aleatoria n-dimensional o vector aleatorio será un
n-tupla X = (X1 , X2 , ..., Xn ) formada por variables aleatorias Xi (i = 1, 2, ..., n)
sobre un mismo espacio de probabilidades (Ω, A, P ). El vector aleatorio X =
(X1 , X2 , ..., Xn ) definirá una aplicación de Ω en Rn que hace corresponder a
cada suceso elemental ω un vector (x1 , x2 , ..., xn ) de Rn , siendo xi = Xi (ω)
(i = 1, 2, ..., n). Para facilitar la escritura, en esta sección sólo trataremos el
caso n = 2. La generalización al caso n-dimensional de todos los resultados
que obtendremos no supone ninguna dificultad y podrá realizarla el lector como
ejercicio.

Observación 15 Para abreviar, en toda esta sección escribiremos [X ≤ x, Y ≤ y]
en lugar de [X ≤ x]∩[Y ≤ y], y también P (X ≤ x, Y ≤ y) en lugar de P ([X ≤ x] ∩ [Y ≤ y]).

2.3.2. Definición de variable aleatoria bidimensional
Una variable aleatoria bidimensional es cualquier par X = (X, Y ) for-
mada por variables aleatorias sobre el mismo espacio de probabilidades (Ω, A, P ).



2.3.3. Deﬁnición de función de distribución conjunta
Dada una variable aleatoria bidimensional X = (X, Y ) sobre (Ω, A, P ), se
llama función de distribución conjunta a la función real de dos variables
deﬁnida por
FX (x, y) = P (X ≤ x, Y ≤ y)
en donde
[X ≤ x, Y ≤ y] = [X ≤ x] ∩ [Y ≤ y]

Propiedades
Teorema 20 La función de distribución conjunta FX de una variable aleatoria
bidimensional X = (X, Y ) satisface las siguientes propiedades:

1. 0 ≤ FX (x, y) ≤ 1 para todo (x, y) ∈ R2

2. FX es monótona no decreciente para cada argumento

x1 < x2 =⇒ FX (x1 , y) ≤ FX (x2 , y)

y1 < y2 =⇒ FX (x, y1 ) ≤ FX (x, y2 )

3. FX (+∞, +∞) = 1 y FX (−∞, y) = FX (x, −∞) = 0

4. P (a < X ≤ b, c < Y ≤ d) = FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)

5. FX es continua por la derecha para cada argumento

Demostración: (1) Es evidente, ya que FX (x, y) = P (X ≤ x, Y ≤ y) y 0 ≤
P (X ≤ x, Y ≤ y) ≤ 1.
(2) Si x1 < x2 , podemos escribir

[X ≤ x1 ] ∩ [Y ≤ y] ⊂ [X ≤ x2 ] ∩ [Y ≤ y]

y, por tanto,

FX (x1 , y) = P ([X ≤ x1 ] ∩ [Y ≤ y]) ≤ P ([X ≤ x2 ] ∩ [Y ≤ y]) = FX (x2 , y)

Del mismo modo se prueba que FX es no decreciente respecto al segundo argu-
mento.
(3) Observamos que

[X ≤ +∞, Y ≤ +∞] = [X ≤ +∞] ∩ [Y ≤ +∞]
= Ω∩Ω=Ω

Por tanto,

FX (+∞, +∞) = P (X ≤ +∞, Y ≤ +∞) = P (Ω) = 1



Observamos también que

[X ≤ −∞, Y ≤ y] = [X ≤ −∞] ∩ [Y ≤ y]
= ∅ ∩ [Y ≤ y]
= ∅

Por tanto,
FX (−∞, y) = P (X ≤ −∞, Y ≤ y) = P (∅) = 0
Análogamente, se prueba que FX (x, −∞) = 0.
(4) Deﬁnimos los siguientes sucesos

A = [a < X ≤ b, Y ≤ d]
B = [a < X ≤ b, Y ≤ c]
C = [a < X ≤ b, c < Y ≤ d]

Es claro que B y C son incompatibles y se cumple A = B ∪ C. Por tanto,

P (A) = P (B) + P (C) (2.4)

Además, es claro también que
A = [X ≤ b, Y ≤ d] − [X ≤ a, Y ≤ d]
B = [X ≤ b, Y ≤ c] − [X ≤ a, Y ≤ c]
luego
P (A) = FX (b, d) − FX (a, d)
P (B) = FX (b, c) − FX (a, c)
Sustituyendo estas dos expresiones en (5.2), obtenemos

P (C) = P (a < X ≤ b, c < Y ≤ d)
= FX (b, d) − FX (a, d) − FX (b, c) + FX (a, c)

(5) Deﬁnimos los siguientes sucesos
£ 1
¤
An = a < X ≤ a + n , Y ≤ y
B = [X ≤ a, Y ≤ y]
£ ¤
1
Cn = X ≤ a + n , Y ≤ y



entonces
Cn = B ∪ An
siendo B y An dos sucesos incompatibles para todo n ∈ N. Por tanto,

P (Cn ) = P (B) + P (An ) (2.5)

Es claro que (An ) es una sucesión decreciente de sucesos y su límite viene dado
por
µ·
∞
1
¸ ¶
l´ An =
ım a<X ≤a+ ∩ [Y ≤ y]
n→∞
n=1
n
Ã∞ · ¸!
1
= a<X ≤a+ ∩ [Y ≤ y]
n=1
n
= ∅ ∩ [Y ≤ y]
= ∅

Entonces, como
1
P (Cn ) = FX (a + , y) y P (B) = FX (a, y)
n
de (5.4), obtenemos
1
FX (a + , y) = FX (a, y) + P (An )
n
y pasando al límite, deducimos
1
l´ FX (a +
ım , y) = FX (a, y) + l´ P (An )
ım
n→∞ n n→∞


l´ P (An ) = P (∅) = 0
ım
n→∞

Como consecuencia,
1
l´ FX (a +
ım , y) = FX (a, y)
n→∞ n
Del mismo modo, se demuestra que FX es continua por la derecha respecto al
segundo argumento.

Distribuciones marginales
Teorema 21 Sea FX la función de distribución conjunta de una variable aleato-
ria bidimensional X = (X, Y ). Entonces

l´
ım FX (x, y) = FX (x) y l´
ım FX (x, y) = FY (y)
y→+∞ x→+∞



donde FX y FY son las funciones de distribución de las variables X e Y por
separado, respectivamente. A estas dos funciones se les llama entonces dis-
tribuciones marginales de X = (X, Y ).
Demostración: Puesto que

[X ≤ x, Y ≤ +∞] = [X ≤ x] ∩ [Y ≤ +∞]
= [X ≤ x] ∩ Ω
= [X ≤ x]

por definición, obtenemos

FX (x, +∞) = FX (x)

Análogamente se prueba FX (+∞, y) = FY (y).

2.3.4. Variables aleatorias bidimensionales discretas
Una variable aleatoria bidimensional X = (X, Y ) definida en el espacio de
probabilidades (Ω, A, P ) se llama discreta si X e Y son variables aleatorias
discretas. Supongamos que X e Y toman los valores xi e yj (i, j = 1, 2, 3, ...)
con probabilidades P (X = xi ) y P (Y = yj ), respectivamente. Definimos la
función de densidad de probabilidad conjunta de la variable aleatoria
bidimensional discreta X = (X, Y ) por
½
P (X = xi , Y = yj ) si x = xi y y = yj
f (x, y) =
0 si x 6= xi o y 6= yj para todo i, j = 1, 2, 3, ...

en donde

P (X = xi , Y = yj ) = P ([X = xi ] ∩ [Y = yj ]) (i, j = 1, 2, 3, ...)

y su función de distribución conjunta viene dada entonces por
X X
F (x, y) = P (X ≤ x, Y ≤ y) = P (X = xi , Y = yj )
xi ≤x yj ≤y

Como consecuencias inmediatas de la definición y de los axiomas de probabili-
dad, tenemos las siguientes propiedades de la función de densidad conjunta

1. 0 ≤ f (xi , yj ) ≤ 1, para todo i, j = 1, 2, 3, ...
2. XX
f (xi , yj ) = 1
i j

3. X X
F (x, y) = f (xi , yj )
xi ≤x yj ≤y



Observamos que
X X XX
l´ F (x, y) =
ım P (X = xi , Y = yj ) = P (X = xi , Y = yj )
y→+∞
xi ≤x yj ≤+∞ xi ≤x yj
(2.6)
Ahora bien, por el teorema 13, sabemos que la distribución marginal viene dada
por
X
l´
ım F (x, y) = FX (x) = P (X = xi ) (2.7)
y→+∞
xi ≤x

Comparando (5.5) y (5.6), obtenemos la función de densidad de X
X
fX (x) = P (X = xi ) = P (X = xi , Y = yj )
yj

que no es más que la suma de la densidad conjunta para todos los valores que
toma la variable Y . Del mismo modo se obtiene
X
fY (y) = P (Y = yj ) = P (X = xi , Y = yj )
xi

Expresadas de este modo, las funciones fX y fY se llaman funciones de den-
sidad marginales de X = (X, Y ).

Ejemplo 43 Si tiran dos dados a la vez. Sea X la variable aleatoria "número
de puntos obtenidos por el primer dado", e Y la variable aleatoria "el número
mayor de los puntos obtenidos con los dos dados". Se pide la función de den-
sidad de la variable aleatoria bidimensional (X, Y ) y las funciones de densidad
marginales de (X, Y ).
Solución: Se trata de una variable aleatoria bidimensional discreta. Si f es
la función de densidad conjunta, entonces

f (1, 1) = P (X = 1, Y = 1) = 1/36

Además,
f (k, 1) = P (X = k, Y = 1) = 0

con k > 1, pues [X = k] ∩ [Y = 1] es el suceso imposible. Tenemos también que

f (2, 2) = P (X = 2, Y = 2) = 2/36

ya que [X = 2] ∩ [Y = 2] = {(2, 1), (2, 2)}. Y así sucesivamente, los valores de
la función de densidad se encuentran en la tabla siguiente



La función de densidad marginal de X se obtendrá sumando, para cada val-
or de X, los valores de la densidad conjunta; en otras palabras, sumando por
columnas las probabilidades de la tabla. Así, tenemos

xi 1 2 3 4 5 6
fX (xi ) 1/6 1/6 1/6 1/6 1/6 1/6

Análogamente, la función de densidad marginal para Y se obtendrá sumando
por ﬁlas las probabilidades de la tabla. Así, tenemos

yj 1 2 3 4 5 6
fY (yj ) 1/36 1/12 5/36 7/36 1/4 11/36

2.3.5. Variables aleatorias bidimensionales absolutamente
continuas
Se dice que una variable aleatoria bidimensional X = (X, Y ) es absolu-
tamente continua si existe una función real integrable de dos variables f ,
denominada función de densidad de probabilidad conjunta, tal que la
función de distribución conjunta de X puede expresarse en la forma siguiente
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞



para todo (x, y) ∈ R2 . Como consecuencia, es claro que la función de densidad
conjunta ha de cumplir también la siguiente condición
Z +∞ Z +∞
f (x, y) dx dy = 1
−∞ −∞

Teorema 22 Si f es la función de densidad conjunta de una variable aleatoria
absolutamente continua X = (X, Y ) y F es su función de distribución conjunta
Z x Z y
F (x, y) = f (u, v) du dv
−∞ −∞

entonces se cumplen

1. Si f es continua, entonces

∂ 2 F (x, y)
= f (x, y)
∂y∂x

2. f (x, y) ≥ 0 para todo (x, y) ∈ R2

3. La probabilidad de que X tome valores dentro de un recinto D del plano
viene dada por
Z Z
P ((X, Y ) ∈ D) = f (x, y) dx dy
D

Z b Z d
P (a < X ≤ b, c < Y ≤ d) = f (x, y) dx dy
a c

Demostración: (1) Consideremos A = (−∞, x) y B = (−∞, y). Para cada
u ∈ A, deﬁnimos la función gu : B → R por

gu (v) = f (u, v)

Puesto que f es continua, gu es continua y, por tanto, por el teorema funda-
mental del cálculo, Z y
gu (v) dv
−∞

es derivable y se cumple
Z y
∂
gu (v) dv = gu (y)
∂y −∞

En particular, Z y
h(u) = gu (v) dv
−∞


Demostraciones probabilidad

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Demostraciones probabilidad

Similaire à Demostraciones probabilidad (20)

Dernier

Dernier (20)

Demostraciones probabilidad