2 estadistica-inferencial

ESTADISTICA
INFERENCIAL

PROFESOR: DR. JORGE ACUÑA A.
1

LA ESTADISTICA
 Estadística descriptiva
 Método científico

 Muestreo

 Información de entrada y de salida

 Estadística inferencial
 Inferencias
 Intervalos de confianza
 Pruebas de hipótesis
 Dígitos significativos
 Diseño de experimentos
 Errores
 Distribuciones de probabilidad
 Toma de decisiones
2

BASES DE PROBABILIDAD

 Experimento – actividad con resultados inciertos y
que dependen de los elementos del sistema
 Diámetro de una pieza, tiempo de proceso,

tiempo de espera, número de piezas que se
producen por turno?
 Espacio muestral – lista completa de todos los
posibles resultados individuales de un
experimento

3

 Evento – un subconjunto del espacio muestral
 Se denota por E, F, E , E , etc.
1 2

 Unión, intersección, complementos
 Probabilidad de un evento es la posibilidad relativa de
que este ocurra al realizar el experimento
 Es un número real entre 0 y 1 (inclusive)

 Se denota por P(E), P(E ∩ F), etc.

 Interpretación – proporción de veces que el evento

ocurre en muchas repeticiones independientes del
experimento

4

 Algunas propiedades de la probabilidad
 Si S es la totalidad de ocurrencias, entonces P(S) = 1
 Si Ø es un evento, entonces P(Ø) = 0
 Si EC es el complemento de E, entonces P(EC) = 1 – P(E)
 La P(E o F)= P(E ∪ F) = P(E) + P(F) – P(E ∩ F)
 Si E y F son mutuamente excluyentes (ejemplo, E ∩ F =
Ø), entonces P(E ∪ F) = P(E) + P(F)
 Si E es un subconjunto de F (ejemplo, la ocurrencia de E
implica la ocurrencia de F), entonces P(E) ≤ P(F)
 Si o1, o2, … son resultados individuales en el espacio
muestral, entonces

5

VARIABLES ALEATORIAS
 Es una forma de cuantificar y simplificar eventos
asociados a probabilidades
 Una variable aleatoria (VA) es un número cuyo
valor está determinado por el resultado de un
experimento
 Se pueden obtener inferencias sin tener que
trabajar con el espacio muestral completo.
 VA es un número cuyo valor no conocemos
con certeza pero que podemos conocer algo
acerca de el.
 Se denota con letras latinas: X, Y, W , W , etc.
1 2
 Su conducta probabilística se describe por medio
de una distribución

6

VARIABLES ALEATORIAS
CONTINUAS Y DISCRETAS
 Dos formas básicas de VAs usadas para representar un
modelo
 Discreta – puede tomar solamente ciertos valores
separados
 El número de valores posibles puede ser finito o

infinito
 Continua – puede tomar cualquier valor en un rango
 El número de valores es siempre infinito

 El intervalo puede ser abierto o cerrado en ambos o

un lado

7

DISTRIBUCIONES
DISCRETAS
 Sea X una variable aleatoria discreta que puede
tomar valores x1, x2, … (lista finita o infinita)
 Función densidad de probabilidad (FDP)
p(xi) = P(X = xi) para i = 1, 2, ...
 La expresión “X = xi” es un evento que puede
o no ocurrir, sea que tiene una probabilidad de
ocurrencia, que es medida por la FDP
 Dado que X debe ser igual a algún valor de xi,
y dado que los valores xi’s son todos distintos,

8

DISTRIBUCIONES
DISCRETAS
 Distribución acumulada de probabilidad (DAP) –
probabilidad de que la VA sea ≤ a un valor fijo x:

 Propiedades de la DAP:
Estas cuatro propiedades
0 ≤ F(x) ≤ 1 para todo x
son también verdaderas
Como x → –∞, F(x) → 0 para variables continuas
Como x → +∞, F(x) → 1
F(x) no es decreciente en x
F(x) es una función continua de la derecha que brinca
de un valor discreto a otro
9

DISTRIBUCIONES
DISCRETAS
 Para calcular valores sumar los valores de p(xi) para
aquellos xi’s que satisfacen la condición:

 Tener cuidado con desigualdades

10

VALOR ESPERADO DE LA
MEDIA
 El conjunto de datos tiene un “centro” – el promedio
 Las variables aleatorias tienen un “centro” – valor
esperado

 Se le llama también la media o esperado de X
 Se puede indicar con notación: µ, µX
 Promedio ponderado de los posibles valores de xi,
donde los pesos son las respectivas probabilidades
de ocurrencia
 Esperado significa:
Repetir “el experimento” muchas veces, observando
muchos valores de X1, X2, …, Xn
E(X) es valorPROFESOR: DR. JORGE ACUÑA A. cuando n → ∞
al que se converge
11

VARIANZA
 Medidas de “dispersión”
 Varianza muestral
 Desviación estándar muestral
 Las VAs tiene medidas similares

 Otra notación:
 Promedio ponderado de las desviaciones cuadradas
de los posibles valores de xi de la media
 La desviación estándar de X es
 La interpretación es análoga a la de E(X)
12

DISTRIBUCIONES
CONTINUAS
 Sea X una variable aleatoria continua VA
 Rango limitado a la izquierda o derecha o

ambos
 No importa lo pequeño del rango, el

número de valores posibles de X es
siempre incontable (infinito)
 No es significativa la P(X = x) aunque x

esté en el rango. Ese valor es un
diferencial con valor cercano a 0
 Se describe la conducta de X en términos

de intervalos
13

DISTRIBUCIONES
CONTINUAS
 Función densidad de probabilidad (FDP) es
una función f(x) con las siguientes tres
propiedades:
 f(x) ≥ 0 para todos los valores reales de x

 El área total bajo la curva es f(x) es 1:

 Para cualquier valor fijo de a y b con a ≤ b,

la probabilidad de que X caiga entre a y b
es el área bajo f(x) entre a y b:

14

DISTRIBUCIONES
CONTINUAS
 Distribución acumulada de probabilidad (FAP) –
probabilidad de que la VA sea ≤ a un valor fijo x:

 Propiedades de la FAP
0 ≤ F(x) ≤ 1 para todo x
Estas cuatro propiedades
Si x → –∞, F(x) → 0 son también verdaderas
Si x → +∞, F(x) → 1 para variables discretas
F(x) no es decreciente en x
F(x) es una función continua con pendiente igual a
FDP:
PROFESOR:fDR. ) = F'(x) A.
(x JORGE ACUÑA
15

MEDIA
 Esperado o media de X es

 Promedio ponderado “continuo” de los
posibles valores de X
 Misma interpretación del caso discreto:
promedio de un número infinito de
observaciones de la variable X

16

VARIANZA
 Varianza de X es

 Desviación estándar de X es

17

DATOS EN SIMULACION
 ENTRADA
 Distribuciones de entrada

 Recolectar datos

 Ajustar distribuciones de probabilidad

 Probar H : los datos se ajustan a la
0
distribución seleccionada
 SALIDA
 Comparar dos o mas diseños o modelos

 Probar H : todos los diseños dan el mismo
0
rendimiento, o H0: uno de los diseños es mejor
que el otro u otros.
18

MUESTREO
 Análisis estadístico – estima o infiere algo acerca
de una población o proceso basado en una única
muestra extraída de ella.
 Muestra aleatoria es un conjunto de

observaciones independientes e idénticamente
distribuidas X1, X2, …, Xn
 En simulación, muestreo se aplica al hacer
varias corridas del modelo recolectando datos
 No se conocen los parámetros de la población
(o distribución) y se quiere estimarlos o inferir
algo acerca de ellos basado en una muestra
19

MUESTREO
 Parámetro poblacional  Estimado muestral
Media µ = E(X) Media x
Varianza σ2 Varianza muestral s2
Proporción P Proporción muestral p
 Parámetro – se necesita  Estadístico muestral –
trabajar con toda la puede ser calculado de
población una muestra
 Fijo pero desconocido  Varía de una muestra a
otra – es una VA, y tiene
una distribución, llamada
distribución muestral.
20

DATOS EN SIMULACION
 Los datos obtenidos de una simulación pueden ser
de dos tipos: datos de observación o datos
dependientes del tiempo.
 Datos de observación son aquellos para los cuales
el tiempo de recolección no modifica su valor.
Ejemplo: número de entidades procesadas en el
sistema se recoleta al final de la corrida.
 Datos dependientes del tiempo son aquellos cuyo
valor varía de acuerdo con el tiempo. Ejemplo:
número de entidades residentes en una cola pues al
calcular el valor se debe considerar el tiempo que
duró esperando.

21

DIGITOS SIGNIFICATIVOS
 Los valores finales de una medida de efectividad se
deben reportar en forma puntual, pero ¿con cuántas
cifras significativas?
 Si un determinado valor del tiempo de ciclo da
14.87151 minutos, ¿qué tan significativas son asl
últimas tres cifras?
 Si en tres corridas se obtienen los valores de
14.87151, 14.88155, 14.85141 es poco probable
que nos equivoquemos si reportamos 14.8 minutos.
En realidad la respuesta se da en términos de que
tan grande es la desviación estándar del conjunto
de tiempos de ciclo.

22

 Procedimiento:
1. Recolectar los n-valores de la medida de
efectividad.
2. Agrupe los valores según teorema del límite central
3. Calcule el promedio de promedios.
4. Calcule el valor de la desviación estándar s.
5. Calcule el valor de 2(s/√n)
6. Identifique el dígito mas significativo. Ejemplos:
0.5678 es el (5) 1.235 es el (1) 13.45 es el (1)
7. Reporte el valor de la variable basado en el
promedio calculado en 3), pero con un dígito menos
que el valor calculado en 5).
23

 Ejemplos:

Promedio 2(s/√n) Puntual Intervalo
14.6875 0.7585 14 10 - 20
188.8 6.8675 180 180-190
499.09 13.76 400 400-500
2529.89 3.2789 2520 2520-2530
10.1 5.277 10 10 - 20
508.67 16.243 500 500-600
1256.5 0.9876 1256 1256-1257

24

INTERVALOS DE CONFIANZA
 Un estimador puntual es un simple número, con alguna
incertidumbre o variabilidad asociada a el
 Intervalo de confianza cuantifica la imprecisión probable del
estimador puntual
 Un intervalo que contiene el parámetro poblacional
desconocido con una probabilidad alta especificada 1 –
α

 Intervalo de confianza para media poblacional µ:
tn-1,1-α/2 bajo el cual el área es
1 – α/2 en t student con
n – 1 grados de libertad

25

PRUEBA DE HIPOTESIS
 Prueba alguna conjetura sobre la población o sus
parámetros
 Nunca determina algo verdadero o falso con
certeza, solamente da evidencia para tomar una de
las dos direcciones
 Hipótesis nula (H0) – lo que va a ser probado
 Hipótesis alternativa (H1 or HA) – negación de H0
H0: µ = 6 vs. H1: µ ≠ 6
H0: σ < 10 vs. H1: σ ≥ 10
H0: µ1 = µ2 vs. H1: µ1 ≠ µ2
 Desarrolla una regla de decisión para decidir sobre
H0 o H1 basado en los datos de la muestra

26

ERRORES EN PRUEBA DE
HIPOTESIS
H0 es verdadera H1 es verdadera

Decide H0 No hay error Error tipo II
(“Acepta” H0) Probabilidad 1 – α Probabilidad β
α es seleccionado β no está controlado
– afectado por α y n

Decide H1 Error tipo I No hay error
(Rechaza H0) Probabilidad α Probabilidad – β =
potencia de la
prueba

27

VALORES DE p
 Calcular el valor de p de la prueba
 p-value (valor p) = probabilidad de obtener un

resultado mas en favor de H1 que lo obtenido en la
muestra
 Pequeño p (< 0.01) evidencia convincente en

contra de H0
 Gran p (> 0.20) indica falta de evidencia contra H0
 Conección con el método tradicional
 Si p < α, rechazar H
0

 Si p ≥ α, no rechazar H0
28

EJEMPLO 1
En un proceso de fabricación de piezas de
precisión se quiere que el valor nominal
del diámetro de una pieza sea 20,0 mm.
Se conoce que la desviación estándar de
esta característica es 3,0 mm. Se toma
una muestra de 25 piezas obteniéndose
un promedio de diámetro de 19,2 mm. ¿Se
ha cumplido con lo requerido? Use α=5%.

29

SOLUCION
Se seguirá el procedimiento planteado.
a. Planteo de la hipótesis
H0: µ = 20,0
Ha: µ ≠ 20,0
b. La hipótesis es bilateral puesto que no
se cumple con lo requerido si el promedio de la
muestra es mayor o menor que lo especificado.
c. El nivel de significación es dado, α= 5%.
d. El estadístico por usar es el siguiente:
_
x–µ
Z = ––––––
σ/√ n
30

SOLUCION
e. Las áreas de cumplimiento de la hipótesis .
f. Cálculo del estadístico citado en d.
_
x–µ 19,2 – 20,0
Z = ——— = —————— = –1,33
σ/√ n 3,0/ √ 25

g. El valor de Z calculado (–1,33) se encuentra en
el área de cumplimiento de la hipótesis nula.
h. En conclusión, se puede afirmar, con α=5%, que
estadísticamente se cumple con el valor nominal
requerido.

31

EJEMPLO 6
Una inspección de calidad efectuada sobre dos
marcas de baterías para linterna, reveló que una
muestra aleatoria de 61 unidades de la marca A
generó un promedio de vida útil de 36,5 horas con una
desviación estándar de 1,8 horas, mientras que otra
muestra aleatoria de 31 unidades de la marca B
generó un promedio de 36,8 horas con una desviación
estándar de 1,5 horas.
Con un nivel de significación del 5% se desea saber si
hay diferencia significativa entre la vida útil de ambas
marcas.

32

SOLUCION
Para probar si hay diferencia significativa entre los
promedios se debe comprobar primero la diferencia
entre las varianzas, para así seleccionar el estadístico
adecuado.
1. Hipótesis de varianzas
Siguiendo los pasos de una prueba de hipótesis se
tiene:
H0: σ2A = σ2B
Ha: σ2A ≠ σ2B
b. Como la hipótesis alternativa es de desigualdad,
entonces es bilateral. Esto significa que puede darse
una relación mayor o menor.
33

SOLUCION
c. El nivel de significancia es α= 5%.
d. El estadístico por usar es Fc = s12/ s22
(distribución F-Fisher), pues lo que se desea es medir
la relación de varianzas.
e. Las áreas de la hipótesis que se va a probar.
v1 = n1–1 = 61–1=60 v2=n2-1 = 31–1=30
De una Tabla F con α/2= 2.5% se tiene:
F 60,30,0.025 = 0,551
F 60,30,0.975 = 1,440
f. Fc= s12/ s22 = 1,82/1,52 = 1,44
g. Este valor calculado de Fc cae en el área donde se
cumple Ho, por lo tanto DR. JORGE ACUÑA Ho.
PROFESOR:
se acepta A.
34

SOLUCION
h. Se concluye que ambas varianzas, al 5% de
significancia, son iguales.
Se procede entonces a hacer la hipótesis de
promedios.
Siguiendo los pasos de prueba de hipótesis se tiene:
Ho: µ1 = µ2
Ha : µ1 ≠ µ2
b. La hipótesis es bilateral al igual que en la
hipótesis anterior.
c. El nivel de significación es del 5%
35

SOLUCION
d. Según la hipótesis anterior las varianzas son
desconocidas pero iguales, además, los tamaños de
muestra son mayores que 30. Por lo tanto el estadístico
por usar es:

x1 −x 2 −δ
t= 2 2
s1 s2
+
n1 n2

e. Las áreas de cumplimiento y rechazo.
v = n1 + n2 – 2
v = 61 + 31 – 2
v = 90

36

SOLUCION
De tablas se obtienen los valores:
t 90, 0,025 = –1,987 t90,0,975=1,987

f. El estadístico calculado es:
36,5 − 36,8 − 0 − 0,3
t= = = −0,845
2
1,8 1,5 2
0,355
+
61 31

En este caso (µ1 – µ2) = 0 pues es de suponer que
tratándose de un mismo producto las medias
poblacionales son iguales.
g. No hay evidencia estadística, con α = 5%, para
concluir que ambas medias sean diferentes.
37

CORRIDAS DE SIMULACION
 No sacar conclusiones en simulación con base en una
sola corrida. Se debe aplicar muestreo. Para ello:
1. Hacer un número inicial de corridas ni (10).
2. Calcular la desviación estándar para la medida de
efectividad mas importante del modelo.
3. Estimar el valor de h = tα/2,n-1*s/√n
4. Calcular n = ni*(h/h’)2 h’ es el valor deseado de
intervalo
5. Correr la simulación por el número de corridas
faltantes sea por n - ni , cambiando la semilla de
número aleatorios, de lo contrario se repite la salida.
Si ni≥ n entonces no hay necesidad de mas corridas.
38

CORRIDAS DE SIMULACION
 EJEMPLO:
Se han obtenido 10 corridas de una simulación que
han generado los siguientes tiempos de ciclo: 93, 113,
107, 103, 112, 103, 112, 100, 98 y 105. Se desea un
h’ de 3.
1. Calcular la desviación estándar, s = 6.59
2. Estimar h=tα/2,n-1*s/√n = 2.262*6.59/√9 = 4.97
t0.975,9= 2.262 (en tablas)
3. Calcular n = ni*(h/h’)2 = 10 * (4.97/3) 2 = 27.44 ~ 28
4. Obtener 18 corridas mas de la simulación.

39

CALENTAMIENTO DE LA
SIMULACION
 Los resultados de una simulación deben ser
obtenidos en el estado estable de la corrida.
 El momento desde el inicio de la simulación
hasta que se obtiene el estado estable se
llama período de calentamiento.
 En el estado transiente el estado las
entidades residentes inicia en cero lo cual
puede no representar la realidad. Esto hace
que el sistema aparezca funcionando mejor
de lo que realmente puede ser.

40

CALENTAMIENTO DE LA
SIMULACION
 Formas de eliminar información obtenida durante el
periodo de calentamiento:
1. Seleccionar las condiciones iniciales del sistema antes
de las corridas. Se debe conocer muy bien el sistema.
2. Descartar los datos obtenidos en la fase transiente, se
utilizan para ello el método de los promedios móviles
para identificar el inicio del estado estable de la
corrida.
3. Correr el modelo por un periodo lo suficientemente
grande a fin de que los resultados obtenidos durante la
fase transiente sean absorbidos por los datos de la
fase estable.

41

2 estadistica-inferencial

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à 2 estadistica-inferencial

Similaire à 2 estadistica-inferencial (20)

2 estadistica-inferencial