SlideShare une entreprise Scribd logo
1  sur  55
SISTEMA NACIONAL DE EDUCACIÓN SUPERIOR TECNOLOGICA
DIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR TECNOLÓGICA
        INSTITUTO TECNOLÓGICO DE LA ZONA MAYA



                  INGENIERIA EN AGRONOMIA




       APUNTES DE ESTADÍSTICA
           Turno escolarizado
                             (Clave AGM-0614)




                                Presenta:

                  MC. VICTOR FRANCISCO DÍAZ ECHEVERRÍA




                                                     ENERO 2011
UNIDAD I: Fundamentos

1.1 Estadística
La estadística se utiliza en diversas disciplinas socioeconómicas y científicas como, la industria,
la política, la ganadería, la agricultura, la medicina, la sociología, los negocios, la educación, la
sicología y la economía entre otras.
Por ejemplo para tratar de predecir el resultado de una elección nacional, los encuestadores
entrevistan a un número predeterminado de personas en todo el país y registran sus preferencias.
Sobre la base de esta información se construye una predicción. La estadística también es utilizada
en estudios de mercado, para determinar que porcentaje de los consumidores prefieren X o Y
marca de leche pasteurizada. En sociología puede utilizarse para determinar que proporción de
las casas rurales cuentan con electricidad.

1.1.1 Incertidumbre
En las actividades productivas o en los hechos cotidianos de la vida diaria, nos encontramos con
una multitud de datos que colectamos, los cuales tenemos que organizar e interpretar,
presentándolos en una forma reducida y entendible. En otras ocasiones nuestro interés es sacar
conclusiones con respecto a un conjunto de datos grandes (población) de la cual se toma una
muestra (una parte de la población). Para ello es indispensable contar con una herramienta de
trabajo que facilite la toma de datos, su análisis y las conclusiones que se pueden sacar de ellos.
Esa herramienta es la estadística.

1.1.2 Método científico
La investigación científica consiste en la búsqueda permanente de la verdad por métodos
objetivos, adecuados y precisos. La experimentación es un método científico de investigación que
consiste en hacer operaciones y practicas destinadas a demostrar, comprobar y descubrir
fenómenos o principios básicos. La experimentación en las ciencias biológicas, en particular
comprende las pruebas, ensayos, observaciones, análisis o estudio practico de todo cuanto
interesa a esta disciplina.
El desarrollo agrícola de un país se basa en las investigaciones que se realizan en ese campo,
valiéndose de la experimentación. Cualquier modalidad en las técnicas de cultivo, al introducirse
por primera vez a una región, se necesita de la experimentación para poder adaptarlo y divulgarlo
entre los agricultores. Estos se deben a que las condiciones de clima y suelo varían en cada
región, estación y año.
Para el aprovechamiento óptimo de los recursos disponibles, los experimentos se deben diseñar
de acuerdo con los principios estadísticos que permitan al investigador llegar a conclusiones
correctas acerca de un problema específico. Los investigadores y estadísticos deben planear los
experimentos conjuntamente. Para ello el estadístico debe tener un criterio práctico y el
investigador un criterio estadístico, pues la estadística es uno de los elementos básicos de la
experimentación agrícola, ya que mediante ella se puede obtener algunas conclusiones acerca de
problemas específicos de las ciencias agrícolas

1.2 Conceptos generales
La estadística es la ciencia que trata de las técnicas para colectar, organizar, presentar y analizar
datos, tanto para la deducción de conclusiones, como para tomar decisiones razonables de
acuerdo con tales análisis. La base matemática de esta herramienta descansa en la teoría de la
probabilidad.
Cuando los datos que se están analizando provienen de las ciencias biológicas y la medicina,
como es el caso de la agronomía, se utiliza el termino Bioestadística. Su principal diferencia con
las demás ciencias, es que analiza datos provenientes de seres vivos, los cuales sufren
alteraciones a lo largo del desarrollo de su vida en periodos que pueden ser muy cortos.

1.2.1 Estadística
La estadística puede dividirse en dos partes: el análisis de datos descriptivo o deductivo y el
análisis de datos inductivo o inferencial.
La estadística descriptiva o deductiva, es la parte de la estadística que trata solamente de describir
y analizar un grupo de datos sin sacar conclusiones o inferencias de los mismos o de un grupo
mayor. En esta parte esta la descripción tabular o frecuencia de los datos, las medidas de
tendencia central y de dispersión de los datos (varianza) y la probabilidad.
La estadística Inductiva o Inferencial, es la parte de la estadística que se encarga de hacer
inferencias o sacar conclusiones validas de un conjunto de datos a partir del análisis de una
muestra de esos datos. Ósea trata de tomar decisiones, cuando se tiene solo una parte de los datos
examinados. Sus principales medidas, son la hipótesis estadística, el análisis de varianza, la
regresión y la correlación de los datos.

1.2.2 Población y parámetro
Una población es cualquier colección entera de personas, animales, plantas o cosas de las cuales
podríamos recolectar datos. Es el grupo entero que nos interesa, el cual deseamos describir o
sobre cuál deseamos establecer conclusiones. Por los tanto la población es un conjunto de todas
las mediciones o datos de interés, que son factibles de muestrease. Por ejemplo en el caso de la
encuesta para determinar los resultados de una elección nacional, la población son todos los
habitantes del país mayores de 18 años y que tiene derechos e identificación para votar.
Un parámetro es un valor desconocido y por lo tanto tiene que ser estimado. Los parámetros se
utilizan para representar una determinada característica de la población. Por ejemplo la media
poblacional es un parámetro que normalmente se utiliza para indicar el valor medio de una
cantidad. Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra
tomada de la población tiene su propio valor de cualquier estadística que se utilice para estimar
este parámetro.

1.2.3 Muestra y estimador
Una muestra es un subconjunto de las mediciones seleccionadas de la población de interés. En el
caso de la elección nacional, la muestra la representan todos los ciudadanos de diferentes estados
a los cuales se le aplico la encuesta de preferencia.
La palabra estimación significa estimar, o sea darle un valor a algo. Una estimación estadística es
una indicación de valor de una cantidad desconocida basada en datos observados. Más
formalmente, una estimación es el valor particular de un estimador que es obtenido de una
muestra particular de datos y que es utilizado para indicar el valor de un parámetro.
Por ejemplo, suponga que los órganos electorales del país desean saber el valor de promedio de
los ciudadanos que votan por estado. Para ello tendrían que utilizar todos los datos de todos los
estados (miles de datos) de las personas que votaron en las últimas elecciones; es decir, la media
de la poblacional, que en este caso se llamaría parámetro. En lugar de esto, el órgano electoral
podría utilizar una estimación de la media poblacional, calculando la media de una muestra
representativa de ciudadanos. Si se encontrara que el valor fue 17,000 personas, estos 17,000
votos serian su estimación o su estimador. Es decir un estimador es un valor calculado de una
muestra y no de una población.
1.3 Ejercicios de aprendizaje
Ejercicio 1. Con un compañero de clase lee perfectamente el texto de la primera unidad y
contesta el siguiente cuestionario:

1. Describe cual es la rama de estudio de la estadística
2. Menciona mínimo cuatro disciplinas de las ciencias actuales en las que se utilice la estadística
3. Describe por que la estadística es un elemento básico de la experimentación agrícola
4. Describe por que es importante la investigación agrícola en el desarrollo de nuestro Estado
5. Cual es la diferencia entre la estadística y la bioestadística
6. Describe cual es la diferencia entre la estadística descriptiva y la estadística inferencial

7. En la siguiente descripción de una problemática agropecuaria señala los valores que describen
a una población y sus parámetros; y los valores que describen a la muestra y sus estimadores
El rancho Tres Gavilanes el mes pasado peso el total de sus 1220 borregas de pie de cría de las
cuales obtuvo una media de 42.7 kilogramos con una varianza de 3.4 y una desviación estándar
de 1.84 kilos, con los cuales se calculo un coeficiente de variación de 7.96%. En días pasados la
Asociación Estatal de Productores Ovinos solicito los valores de peso de las borregas del rancho,
dado que era imposible volverlas a pesar, se tomo al azar un grupo de 250 borregas cuya media
fue 40.9 kilogramos con una varianza de 2.8 y una desviación estándar de 1,67, de los cuales se
calculo un coeficiente de variación de 3.91%.
Indica cual es:

El tamaño de la población _____________________________________________________

Los valores de los parámetros de la población ______________________________________
___________________________________________________________________________

El tamaño de la muestra _______________________________________________________

Los valores de los estimadores de la muestra_______________________________________
___________________________________________________________________________

1.4 Ejercicios para evaluación
Tomando como base la información anterior y con investigación realizada en la biblioteca e
Internet realiza un trabajo individual (no pueden existir dos trabajos iguales) de mínimo hoja y
media tamaño carta con letra Times New Roman 12, con interlineado mínimo.
En el que se describa ejemplos prácticos de la utilización y utilidad de la estadística en la
agricultura, la ganadería y la actividad forestal. Mínimo un ejemplo por cada actividad
productiva. En ejemplo debe de indicarse cual es una población, cual es la muestra, cuales son los
parámetros y cuales son los indicadores (mínimo, 1 de agricultura, 1 de ganadería y 1 de
producción forestal).


UNIDAD II: Estadística descriptiva

2.1 Introducción
La colección o toma de datos, es la obtención de los mismos sin que hallan sido ordenados
numéricamente. Existen muchas maneras de ordenar y presentar un conjunto de datos, que
permitan su interpretación de una manera fácil de entender. Como es el caso de los cuadros,
graficas, figuras, histogramas y polígonos de frecuencia.
La caracterización de los datos también puede ser presentando varios números como resumen. En
particular nos interesa un número que localice el centro y una medida de amplitud de las
observaciones. Como es el caso de la media aritmética, la mediana, la desviación media,
varianza, desviación estándar, coeficiente de variación y rango.

1.2 Medidas de tendencia central para datos agrupados y no agrupados.
Las medidas de centralización más comunes son: la media aritmética o simplemente media, la
mediana, la moda. Cada una de ellas tiene sus ventajas e inconvenientes dependiendo de los
resultados que se pretenden obtener de los datos.

1.2.1 Media
La media es la medida de tendencia central de uso más común en la estadística. Cuando se trabaja
con poblaciones completas a las medias se les denomina parámetros. Cuando se trabaja solo una
muestra de la población se les denomina estimadores.
La formula de la media aritmética es:
X = ∑ Xi /N

X = media
∑ Xi = indica la suma de cada uno de los valores que toma la variable X
N = numero de observaciones o datos que se tiene en total

Ejemplo: Calcular la media aritmética para el tamaño de camada de cinco marranas

No de marrana         1   2   3   4    5
Tamaño de camada      8   7   6   11   10

X = ∑ Xi /N = 8 + 7 + 6 + 11 + 10 / 5 = 8.4

2.2.2 Mediana
La mediana es el valor o la media aritmética de dos de los valores medios de una colección de
datos ordenados en orden creciente o decreciente.

Ejemplo 1: La mediana de los siguientes datos 10, 8, 14, 22, 33, 19, 9, 25, 44 sería: 8, 9, 10, 14,
        *19 * 22, 25, 33, 44. O sea es el numero 19

Ejemplo 2: Cuando el número de datos es par, se determina la media de ambos valores centrales,
        como en el caso de los siguientes números: 3, 9, 5, 11, 23, 17, 18, 29, 40, 24. La
        mediana sería: 3, 5, 9, 11 *17, 18*, 23, 24, 29, 40. dado que son dos valores centrales se
        determina (17 + 18) / 2 = 17.5

2.2.3 Moda
La moda es aquel valor que se presenta con mayor frecuencia en un conjunto de datos.
Ejemplo. La moda para el siguiente conjunto de números ( 2, 4, 17, 12, 14, 23, 12, 13, 18, 12,
17) sería el 12, dado que es el valor que se representa con mayor frecuencia, en este caso aparece
3 veces.

La moda para los siguiente datos (3, 7, 23, 11, 18, 11, 44, 22, 9, 11, 22, 15, 22, 15) sería los
números 11 y 22, dado que son los valores que se representa más veces y con igual frecuencia.

2.3 Medidas de dispersión para datos agrupados y no agrupados
El grado en que los datos numéricos tienden a extenderse alrededor de un valor medio, se le
llama variación o dispersión de los datos. Dos o más conjuntos de datos pueden tener la misma
media, pero la dispersión de sus valores alrededor de su valor medio puede ser diferente.

8, 8, 9, 10, 11, 12, 12     X = 10
5, 6, 8, 10, 12, 14, 15     X = 10
1, 2, 5, 10, 15, 18, 19     X = 10

Obsérvese que existe una mayor variación en el segundo y tercer conjunto de datos que en el
primero, aunque la medias sea las mismas.
Las medidas de dispersión mas usadas son la desviación media, la varianza, la desviación
estándar, el coeficiente de variación y el rango.

2.3.1 Varianza
La varianza de un conjunto de datos es igual al promedio de las desviaciones, de los datos con
respecto a su media, elevados al cuadrado. Se denomina S2 y se calcula por:

     ∑ (X1 – X) 2
 2
S = ----------------
         N–1

Ejemplo: Para calcular la varianza del peso de un grupo de pollos de 1 semana de edad.

              Peso gr.     Desviación (X1 – X)     (X1 – X) 2
              163          163 – 161.4 = 1.6         2.56
              152          152 – 161.4 = -9.4       88.36
              178          178 – 161.4 = 16.6      275.56
              149          149 – 161.4 = -12.4     153.76
              171          171 – 161.4 = 9.6        92.16
              162          162 – 161.4 = 0.6         0.36
              168          168 – 161.4 = 6.6        43.56
              148          148 – 161.4 = -13.4     179.56
              156          156 – 161.4 = -5.4       29.16
              167          167 – 161.4 = 5.6        31.36
     Media    161.4                               ∑ 896.40

      ∑ (X1 – X) 2        896.40
S2 = ---------------- = ------------ = 99.6
          N–1              10 - 1

2.3.2 Desviación estándar o desviación típica
La desviación típica de un conjunto de datos es la raíz cuadrada de la varianza, se representa por
(S) o por (DE) y se calcula por:

      ∑ (X1 – X) 2
DE = √ ----------------       o simplemente   DE = √ S2
          N-1

Tomando los datos del ejemplo anterior, donde se calculo la varianza de 10 pollos de una semana
de edad, se tendría una desviación típica de:

DE = √ S2 = √ 99.6 = 9.98

2.3.3 Coeficiente de variación
Es una medida de dispersión relativa de un conjunto de datos, que se obtiene dividiendo la
desviación estándar (DE) del conjunto de datos entre su media aritmética, el resultado es
expresado en porcentaje y de calculad por la siguiente formula.
       DE
CV = ------- x 100
         X
El coeficiente de variación para el ejemplo anterior donde DE = 9.979 y X = 161.4 sería:

       DE             9.979
CV = ------- x 100 = ---------- x 100 = 6.18 % de variación
         X                161.4

Para el ejemplo del peso de los pollos, si se quiere describir los datos se diría, que tienen una
media de 161.4 Kg. una desviación estándar de 9.98 grs. y una variación del 6.18 %.
El coeficiente de variación es la medida de dispersión mas adecuada para compara la variabilidad
de dos conjuntos de datos, pues es una medida independiente de las unidades de medición, dado
que se mide en las unidades originales. Esto es de suma importancia en la investigación, donde se
tienen datos previos de otros experimentos, pues el CV se usa para comparar los datos obtenidos
con los CV de los experimentos anteriores.

Ejemplo: Las medias y desviación estándar para los pesos al destete e intervalos entre partos de
un grupo de 50 vacas suizas fueron:
                          X       DE
Pesos al destete         184.2 19.3
Intervalo entre partos 461.7 93.7
Calcula los coeficientes de variación y determina que característica productiva es mas variable.
CV Peso al destete          = DE / X x 100 = 19.3 / 184.2 x 100 = 10.48 %
CV Intervalo entre partos = DE / X x 100 = 93.7 / 461.7 x 100 = 20.29 %

Comparando los coeficientes de variación, es posible decir que el intervalo entre partos es una
característica mas variable que el peso el destete.

2.3.4 Rango
 Es la medida de dispersión mas simple. El rango se obtiene de la diferencia entre las
observaciones de mayor y menor valor numérico en un conjunto o serie de datos.

Ejemplos:
8, 8, 9, 10, 11, 12, 12    X = 10 Rango = 12 – 8 = 4
5, 6, 8, 10, 12, 14, 15    X = 10 Rango = 15 – 5 = 10
1, 2, 5, 10, 15, 18, 19    X = 10 Rango = 19 – 1 = 18

La ventaja de esta medida de dispersión es la facilidad con que se calcula. Su desventaja es que
intervienen solo 2 números del conjunto de datos. Por otra parte al aumentar el número de
observaciones aumenta la variabilidad. Así mismo tiene la desventaja de que no se puede utilizar
para comparar 2 grupos de observaciones, amenos que tengan el mismo tamaño.

2.4 Organización y presentación de datos
Existen muchas maneras de ordenar y presentar un conjunto de datos, que permitan su
interpretación de una manera fácil de entender. Como es el caso de los cuadros, graficas, figuras,
histogramas y polígonos de frecuencia.
Uno de los mas fáciles de usar y mas socorridos en la estadística, es el cuadro de frecuencia o
distribución de frecuencia, que permite distribuir un conjunto de datos en clases o categorías y la
determinación del numero de datos pertinentes en cada clase.

Ejemplo: Se desea representar en una tabla de distribución de frecuencia, la altura de 50 plantas
de cedro después de un año de siembra en invernadero, como indicativo de su crecimiento bajo
condiciones controladas. Los datos de crecimiento en centímetros se contemplan en el cuadro
siguiente y se detallan los pasos para la obtención de la tabla de distribución de frecuencia.

164   170    160     179    182   168   181   181   162    170
165   184    175     168    182   175   182   160   163    171
166   160    176     180    163   176   184   161   166    172
181   166    177     166    161   175   183   163   165    173
175   179    178     184    166   178   183   167   166    174

1) Se determinan los valores mayor y menor del conjunto de datos (160 y 184)
2) Se determina el Rango de los datos, restando al valor mayor el valor menor (184 – 160 = 24)
3) Se divide el rango en un número conveniente de intervalos de clase del mismo tamaño. Se
puede fijar arbitrariamente entre 4 y 12 intervalos de clase o usar la formula K = 1 + 3.332 + log
N, donde K es el numero de intervalos de clase y N el total de datos que se tienen. En este
ejemplo se toman arbitrariamente 5 intervalos de clase, los cuales quedarían de la siguiente
manera:
160 – 164 ← Intervalo de clase
165 – 169
170 – 174 (los extremos de un intervalo de clase se conocen como limites de clase, en este caso
175 – 179 son los valores 160 y 164)
180 - 184

4) Se determina el numero de datos que caen dentro de cada intervalo de clase y se calcula la
frecuencia relativa, multiplicando el valor de cada intervalo por 100 y dividido entre N (es este
caso N = 50)
Altura (cm) Numero de plantas Frecuencia relativa
  160 – 164 llllllllll = 10                    20 %
  165 – 169 lllllllllll = 11                   22 %
  170 – 174 llllll      =6                     12 %
  175 – 179 lllllllllll = 11                   22 %
  180 – 184 llllllllllll = 12                  24 %
               Total = 50                     100 %
Cálculos:
10 x 100 /50 = 20 %
11 x 100 /50 = 22 %
 6 x 100 /50 = 12 %
11 x 100 /50 = 22 %
12 x 100 /50 = 24 %

Una ves ordenados los datos y determinado el numero de observaciones por cada intervalo de
clase, estos también pueden ser presentados en diferentes tipos de graficas. Entre las mas
utilizadas se encuentran las graficas de líneas, graficas de barras y graficas de pastel o circulares
entre otras. Como se ejemplifica a continuación


           Distribuciòn de frecuencias para plantas de cedro

  14

  12

  10

   8
                                                                           Serie1
   6

   4

   2

   0
        160 – 164   165 – 169   170 – 174   175 – 179    180 – 184
Distribucion de fecuencia para plantas de cedro

                  12
                  10
                  8
      Numero de
                  6
        datos
                  4                                                                Serie1
                  2
                  0
                        160 –    165 –        170 –   175 –       180 –
                         164      169          174     179         184
                                      Intervalos de clase



            Distribucion de fecuencia para plantas de cedro




                                                                                160 – 164
                                                                                165 – 169
                                                                                170 – 174
                                                                                175 – 179
                                                                                180 – 184




2. 5 Ejercicios de aprendizaje
Ejercicio 1. En hojas blancas de manera manual, con la ayuda de la calculadora y posteriormente
en el programa computarizado Excel, realiza los siguientes ejercicios.

a) Un granjero tomo la ganancia de peso de una parvada de pavos después de 8 semanas de ceba,
cuyos datos están expresados en kilogramos. Determinar la media aritmética, medina, moda,
varianza, desviación estándar y coeficiente de variación.

3.2   4.8   5.7   4.3    6.7    4.7     4.6    5.2    3.9   5.2     3.9   3.9   4.6
4.7   3.8   5.0   3.5    4.9    4.8     4.7    5.2    4.6   3.6     5.2   5.1   4.9

b) En una granja avícola se de una muestra de dos parvadas de pollos de engorda de diferentes
razas Playmonth Rock y Sacijall, cuyos pesos al final de la engorda se dan a continuación. Se
desea determinar la media aritmética, medina, moda, varianza, desviación estándar y coeficiente
de variación. Además saber cual parvada es mas uniforme, con la finalidad de elegir una raza
para explotarse en la región.

Playmonth     1.2    1.3    1.7    2.2     1.5   1.9   1.7   1.8 2.2    2.0   1.4   1.5
Sacijall      1.5    1.9    2.0    1.8     1.9   1.6   1.9    1.8 1.0   1.7   1.6   1.8

c) Se han obtenido los pesos al destete de un lote de 50 lechones de una piara comercial, los
cuales se desean expresar en una tabla de distribución de frecuencia. Realiza dicha tabla para:
Obtener los intervalos de clase
Calcular las frecuencias relativas

5.00   5.20   5.40   5.60   5.80    6.00    6.20   6.40   6.60   6.80
7.00   7.20   7.40   5.19   5.39    5.59    5.79   5.99   6.19   6.39
6.59   6.79   6.99   7.19   7.39    7.59    5.10   5.30   5.50   5.70
5.90   6.10   6.30   6.50   6.70    6.90    7.10   7.30   5.29   5.49
5.69   5.89   6.09   6.29   6.49    6.69    6.89   7.09   7.29   7.49

Posteriormente en el programa computarizado excell, representa los datos en graficas de líneas,
barras y circulares.




UNIDAD III. Introducción a la probabilidad

3.1 Conceptos
La estadística descriptiva trabaja con todos los individuos de una población. La estadística
inferencias trabaja con muestras o subconjuntos formados por algunos individuos de esa
población. A partir del estudio de la muestra se pretende inferir (determinar) aspectos relevantes
de toda la población. Es decir el trabajo de la estadística inferencial, no solo consiste en reunir y
tabular los datos, sino que este es un proceso de interpretación de la información. Donde lo
fundamental es comprobar la validez (fiabilidad) de esas interpretaciones o inferencias
estadísticas. En tal sentido la probabilidad es el fundamento de la estadística inductiva.

3.1.1 Probabilidad
La probabilidad es la rama de las matemáticas que se ocupa de medir o determinar
cuantitativamente la posibilidad de que ocurra un determinado suceso o evento. El calculo
matemático de la probabilidad se basa en situaciones teóricas en las cuales se determina un
espacio muestreal cuyos sucesos elementales o eventos tengan todos la misma probabilidad de
ocurrir. Donde el espacio muestreal es el conjunto de todos los posibles resultados.

3.1.2 – 3.1.3 Eventos – Espacio muestral
Si un evento (E) puede tener n resultados igualmente posibles (h) de los cuales tienen el atributo
E, se dice entonces que la probabilidad de ocurrencia de E es la fracción h/n y se denota mediante
la formula:

P(E) = h/n

P = Probabilidad
E = Evento del que se quiere calcular la probabilidad
h = Numero de elementos que tiene el atributo
n = numero total de elementos o espacio muestreal

En estos casos la probabilidad de un resultado se representa con un número entre 0 y 1. Donde la
probabilidad 0 indica que el resultado nunca ocurrirá y la probabilidad 1 que el resultado ocurrirá
siempre. Matemáticamente puede representarse como 0 ≥ P(E) ≤ 1. Este tipo de probabilidad
suele llamarse probabilidad a priori, por que se puede calcular antes de realizar el evento.
También puede calcularse la probabilidad de no ocurrencia del suceso o atributo (no E).
Llamando su no ocurrencia y se representa como q y se simboliza matemáticamente como:

q=1–P

q = no ocurrencia del suceso
1 = probabilidad total
P = probabilidad del suceso

Así pues: P (E) + P (no E) = 1    o   P+q=1

Ejemplo 1: Sea E el suceso de que aparezcan los números 2 o 6 en el lanzamiento de un dado:
Espacio muestral = existen seis casos o resultados que pueden presentarse, los números 1, 2, 3, 4,
5, y 6, todos con igual posibilidad.

Evento = que se presente el 2 o el 6
Probabilidad: P (E) = h / n = 2 / 6 = 1/ 3 = 0.3333

No probabilidad: q (E) = 1 – h / n = 1 – 1/3 = 2 / 3 = 0.6666

Ejemplo 2: Cuál es la probabilidad de obtener un número impar en el lanzamiento de un dado.
Sabiendo que el dado tiene 3 números impares.

Evento: Sea E el suceso de que aparezcan los números 1, 3 o 5, de seis resultados posibles

Probabilidad: P (E) = h / n = 3 / 6 = 1/ 2 = 0.5

No probabilidad: q (E) = 1 – h / n = 1 – 1/ 2 = 0.5

3.1.4 Probabilidad como frecuencia relativa
Otra forma de estimar la probabilidad es calcularla como una medida de frecuencia relativa de
ocurrencia de un evento casual. Por ejemplo una manera de calcular la probabilidad de tener un
parto gemelar de una borrega, es consultar el registro de partos gemelares en borregas del mismo
hato.

Ejemplo 1: En un hato de borregas gestantes, de los últimos 10 partos 8 han sido gemelares. Cuál
es la probabilidad de obtener gemelos en el parto siguiente. Cual es la probabilidad de que el
parto sea simple.

Probabilidad de parto gemelar: P = h / n = 8 / 10 = 0.8

No probabilidad de parto gemelar (simple): q = 1 – h / n = 1 – 0.8 = 0.2

Ejemplo 2: En los últimos 35 partos de una granja de cerdos, 20 marranas han parido camadas
superiores a los 10 cerditos. Cuál es la probabilidad de que el siguiente parto sea superior a los 10
cerditos, Cuál es la probabilidad de que el siguiente parto sea inferior a los 10 cerditos, Cuál es la
frecuencia relativa de marranas con mas de 10 cerditos por parto.

Probabilidad: P = h / n = 20 / 35 = 0.57

No probabilidad: q = 1 – h / n = 1 – 0.57 = 0.43

Frecuencia relativa = 20 / 35 x 100 = 57.14 %

3.2 Variables aleatorias
Una población es un conjunto de individuos o elementos que estamos interesados en estudiar. Esa
población puede ser finita o infinita. El conjunto de todos los números positivos es un ejemplo de
una población infinita, mientras que el conjunto del número de plantas en un vivero es un
ejemplo de una población finita.
Expresiones tales como la vaca tiene 3 crías o las piñas pesan 2 kilos, son comunes e
informativas. Esas expresiones se refieren a rasgos productivos que no son constantes, sino que
varían de un individuo a otro y por lo tanto sirve para distinguir o describir.
Las características o rasgos que muestran variabilidad se les llaman variables. Por ejemplo el
peso al nacer, la altura de las plantas de maíz, el tamaño de la camada, entre otras. Estas variables
se representan normalmente con la letra (x, y, w, z).
Las variables de acuerdo con su cantidad numérica se pueden clasificar en:

3.2.1 Variables discretas
Es la variables que solo puede tomar un numero finito o numerable de valores. Los ejemplos de
variables discretas son, el tamaño de la camada, el número de frutos de una planta, el numero de
servicios por concepción, entre otros.

3.2.2 Variables continuas
Es la variable que teóricamente puede tomar cualquier valor entre dos valores dados. Los ejemplo
de variables continuas son los pesos al nacer, las alturas de las plantas o los animales, los
intervalos entre partos, los días de crecimiento de una planta para el cultivo, entre otras.

3.2.3 Constantes
Si una variable puede tomar solamente un valor se le llama Constante, por ejemplo la temperatura
corporal normal de los animales homeotermos o el promedio de altura de una población.

3.2.4 Variables Binomiales
 Son un caso particular de las variables discretas, pues son aquellas variables que solo pueden
tener dos resultados, Los ejemplos de la variables binomiales son la sobre vivencia (vivo o
muerto), el estado reproductivo (gestante o vacía), la preferencia (si o no)

 En general las medidas dan origen a datos continuos, mientras que las numeraciones o conteos
originan datos discretos, donde un dato es el valor que puede tomar una variable.

3.2.5 Muestras aleatorias
En algunas ocasiones las poblaciones de datos son inaccesibles o muy grandes para ser trabajadas
en su totalidad. En consecuencia se estudian muestras (subconjuntos de la población) que en caso
de ser aleatorias permite realizar estimaciones tanto de la población como de los parámetros
estadísticos de esta.
Una muestra aleatoria es una muestra elegida independientemente de todas las demás, con la
misma probabilidad que cualquier otra.

En este caso la variable aleatoria es un numero real perfectamente definido asociado a cada punto
muestreal. Es decir las variables aleatorias permiten definir la probabilidad como una función
numérica (variable real) en lugar de una función de conjuntos.

3.3 Distribuciones de probabilidad
La asociación de cada uno de los resultados posibles de un evento con su probabilidad de
ocurrencia se llama distribución de la probabilidad.

Ejemplo: Al lanzar dos dados la suma de ambos puede asumir 11 valores diferentes en 36 puntos
muéstrales
                                                      2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
En este caso vemos
                                                                                                   que la distribución de
                                                                                                   p(x) obtenida es
                                                                                                   simétrica.




     El valor de 36 representa el espacio muestreal o total de la población (N), en la cual X representa
     una variable aleatoria discreta, que en este caso puede tener 11 valores distintos (del 2 al 12),
     cada valor tiene una probabilidad de ocurrencia (p) y de no ocurrencia (q). Ambos valores
     siempre suman 1 (p + q = 1).
     Por lo tanto la distribución de probabilidad es un modelo matemático que asocia los valores de
     una variable aleatoria con su respectiva probabilidad

     Probabilidad de X = Función p + q = 1

     En caso de la producción agropecuaria, cualquier muestreo aleatorio o proceso donde se calcula
     la probabilidad, la unión de cada evento con su valor de probabilidad se llama distribución de la
     probabilidad.
     En la distribución de la probabilidad la unión de los eventos con su valor de probabilidad toma
     forma de campana.
                                                    Punto medio X
                                                            r
                                                                                   N = tamaño de la población (36 posibilidades)
                                                         P 0.160                   P = probabilidad
                                                                                   q = no probabilidad
Ocurrencia                                                                         r = tamaño de la muestra o veces que se lanza el

del evento       6                       P 0.013                    P 0.013
                                                                                   dado

                 5
                 4                                     P 0.011           P 0.011
                                    P 0.083
                 3                                                             P 0.083
                 2             P 0.05
                                                            N                        P 0.05
                 1       P 0.027                                                                   P 0.027



                           2       3      4        5   6  7     8   9         10       11       12
                                                       Suma de puntos
     Cada evento o muestra (r) tiene su valor de probabilidad (p) y de no probabilidad (q) con valores
     independientes del otro evento. El valor de mayor probabilidad es la media o punto de la
     campana. A medida que nos alejamos de la media en ambos sentidos el valor de la probabilidad
     disminuye. La suma de las probabilidades de todos los eventos (N) siempre tiene que sumar 1 o
     100%.
Por lo tanto, se la media (X) es el valor de mayor probabilidad, las pedidas de dispersión como la
varianza (S2) y desviación estándar (DE) pueden servirnos para saber cuanta probabilidad
perdemos o ganamos a medida que la muestra (r) se aleja o acerca de la media, en ambos sentidos
de la campana

Cada espacio muestral o población tiene su propia distribución de probabilidad (forma y tipo de
la campana que forman sus datos) de acuerdo con sus características de tamaño y tipo de variable,
las más comunes son:

a) Distribución binomial:
Si en cada prueba la variable o muestra (r) en un número indeterminado de eventos (0-1000) solo
puede tener dos resultados (positivo o negativo) independientes del evento anterior, con un valor
de probabilidad constante (p = 0.5) (q = 0.5) la distribución se conoce como binomial.

b) Distribución de Poisson:
Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad
(P>0<1) en un numero limitado de eventos (tiempo-espacio) la distribución se conoce como
“Distribución de Poisson”.

c) Distribución normal
Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad
(P>0<1) en un numero ilimitado de eventos independientes (> 30) la distribución se conoce como
Distribución Normal o Distribución de Z..

d) Distribución de T:
Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad
(P>0<1) en un numero ilimitado de eventos independientes (< 30) la distribución se conoce como
Distribución del T de Studen o Distribución para muestras pequeñas.

e) Distribución de Ji cuadrada:
Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad
(P>0<1) en un numero ilimitado de eventos independientes, que se comparan con valores de
probabilidad esperada o conocida, la distribución se conoce como Distribución de Ji-cuadrada.

f) Distribución de F:
Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad
(P>0<1) en un numero ilimitado de eventos independientes, cuya frecuencia es acumulativa y
puede compararse con la frecuencia acumulativa de otros eventos, la distribución se conoce como
Distribución de F.

En general cuando se conoce el tipo de distribución, el tamaño de la población (N), el tamaño de
la muestra (r o k), la probabilidad de ocurrencia (p) o de no ocurrencia (q), se puede estimar con
cierta facilidad una serie de valores de X evento de la población a los cuales se les conoce como
inferencias.
Cada distribución tiene sus formulas matemáticas para estimar los valores de probabilidad o sus
parámetros estadísticos, como la media, varianza y desviación típica, conocido como estadístico
de prueba o prueba estadística.
Esta probabilidad también puede ser estimada con el uso de tablas de probabilidad de las cuales
existe una para cada tipo de distribución, en las cuales se necesita conocer los valores antes
mencionados.
Se asume que mientras mas veces se repita un evento (tamaño de la muestra) mayor debe ser la
exactitud de su calculo de probabilidad
3.3.1 Binomial
Supongamos que un experimento aleatorio tiene las siguientes características: En cada prueba del
experimento sólo son posibles dos resultados: el suceso p (éxito) y su contrario q (fracaso).El
resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. La
probabilidad del suceso es constante y representamos por p, y no varía de una prueba a otra. La
no probabilidad es 1- p y la representamos por q. El experimento consta de un número n de
pruebas.
Todo experimento que tenga estas características diremos que sigue el modelo de la distribución
binomial. A la variable X que expresa el número de éxitos obtenidos en cada prueba del
experimento, la llamaremos variable aleatoria binomial.
La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3,
4,..., n suponiendo que se han realizado n pruebas.
La distribución binomial se suele representar por B (n, p) siendo n y p los parámetros de
dicha distribución.




Los parámetros de la distribución binomial puede calcularse por:




Sea X una variable aleatoria discreta correspondiente a una distribución binomial.




Ejemplo 1: En un vivero forestal se sabe que por cada 1000 plantas que se producen, 7 salen
infectadas de hongos patógenos. Que probabilidad existe que al escoger 50 plantas para sembrar
en un terreno libre del hongo solo una planta salga infectada.
Primero se calculo los valores de probabilidad:

Probabilidad de que las plantas estén infectadas: P = h / n = 7 / 1000 = 0.007
No probabilidad de que las plantas estén infectadas: q = 1 – h / n = 1 – 0.007 = 0.993

Solución: Se trata de una distribución binomial de parámetros B (n=50, p=0.007) y debemos
calcular la probabilidad p (X=1).

P ﴾X = 1) (n k ) p k * q n-k = (50 1 ) 0.007 1 x 0.993 49 = 0.00496

Existe 0.496 % de probabilidad de escoger una planta con hongos.
Los parámetros de esas 50 plantas se puede calcular con:
X = n * p = 50 x 0.007 = 0.35
S2 = n * p * q = 50 x 0.007 x 0.993 = 0.347
DE = √ n*p*q = √ 0.347 = 0.589
(Media, varianza y desviación estándar de plantas infectadas por cada 50)

Ejemplo 2: La probabilidad de éxito de la vacuna contra la influenza aviar es de 0.72. Calcula la
probabilidad de que una vez administrada a 15 animales:
a) ninguno sufra la enfermedad,
b) todos sufran la enfermedad,
c) dos de ellos contraigan la enfermedad
Calculo los valores de probabilidad:

Probabilidad de éxito de la vacuna = 0.72
No probabilidad de éxito de la vacuna: q = 1 – h / n = 1 – 0.72 = 0.28

Solución: Se trata de una distribución binomial de parámetros B (15, 0.72)

                                       De 15 vacunados todos sana “no infectados”

                                         De 15 vacunados todos se enferman “ninguno sana”

                                       De 15 vacunados 13 sanan y 2 se enferman


Ejemplo 3: La probabilidad de que un fruto de chile habanero este infectado con picudo es del
4%. Un productor realiza en su cultivo un muestreo aleatorio de 1000 frutos, para tratar de
determinar los indicadores de cuantos frutos infectados tendría por cada embarque de su
producto.
a) Hallar la media (χ) del número de frutos infectados en un corte de 1000 frutos
b) La varianza (S2) y la desviación estándar (DE) de la muestra.
Solución:
χ = n * p = 1000 * 0.04 = 40 frutos
S2 = n * p * q = 1000 * 0.04 * 0.96 = 38.4
DE = √ n * p * q = √ 38.4 = 6.19

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para
algunos valores de n y p que nos facilitan el trabajo.

Ejemplo 4: Cual es la probabilidad de obtener dos crías machos en una marrana que parió 6 crías.
K = 2 n = 6 p = 0.5
(Utilizar las tablas de distribución binomial que se encuentran en los anexos 1, 2 3)

3.3.2 Poisson
El modelo de distribución de Poisson sirve para calcular sucesos o variables que su ocurrencia
esta limitada a un intervalo, pudiendo ser tiempo, área o longitud.
Por ejemplo:
El número de fallas (evento) de un tractor en una semana (intervalo)
El numero de bacterias (evento) por milímetro cuadrado (intervalo).




En otras palabras se trata de calcular la probabilidad de un evento, dado que su ocurrencia esta
limitado a un intervalo.
Los parámetros estadísticos de la distribución Poisson se pueden calcular por:
Media = n * p
Varianza = n * p * q     ambas son equivalentes a λ
n = total de ensayos
p = probabilidad
q = no probabilidad

La probabilidad de Poisson puede calcularse por la formula

                      λ = media de los éxitos por intervalo (esperados)
                      x = fenómeno o variable a estimar
                      e = probabilidad de ocurrencia

En la práctica, la aproximación es muy buena cuando λ < 5, siendo n > 50
Ejemplo
En 60 ensayos con p = 0.002 a) Calcular la media y la varianza b) Calcular P(5)
a) media    λ = np = 60 x 0.002 =0.12 varianza λ = npq = 60 x 0.002 x 0.998 = 0.12
b)    p( 5) ( 0.125 x e-0.12) / 5! =1.84 x 10-7


3.3.3 Normal (o campana de Gauss-Laplace)
La distribución normal es la que mas se usa en estadística por que mucho de los fenómenos
biológicos de interés en las ciencias agropecuarias se distribuyen de esta manera. Como es el caso
de los caracteres morfológicos de personas, animales y plantas de una especie, por ejemplo las
alturas de una planta, el peso de los frutos o el peso de los animales, los diámetros o grososr de
los tallos de las plantas entre otros, o los caracteres fisiológicos, por ejemplo el efecto de una
misma dosis de un fármaco o de una misma cantidad de abono, sobre el peso de los frutos de una
planta.
Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de
densidad que corresponde a tales distribuciones viene dado por la fórmula que se expresa en la
figura siguiente.
La distribución normal queda definida por dos parámetros, su media y su desviación típica y la
representamos así

                                                Representación gráfica de esta función de densidad




                                                                                                       A-B




Muchas variables biológicas aleatorias continuas presentan una función de densidad cuya gráfica
tiene forma de campana.
La localización del centro de la curva es la media (X o µ) y la cantidad de joroba observada
depende del tamaño de la varianza (S2 o σ 2). El área bajo la curva es igual a 1 por lo que se
puede obtener el valor de la probabilidad de los eventos contenidos en ella.
La distribución normal permite calcular la probabilidad de un grupo de resultados (muestra) mas
que la probabilidad de un determinado resultado. La distribución normal se utiliza cuando el
tamaño de la muestra es mayor a 30 observaciones (n > 30).
En la práctica en vez utilizar la formula que describe la densidad de la curva, se utiliza una tabla
(de Z) para obtener las probabilidades de una distribución normal o continua. En la cual lo
esencia es saber a cuantas desviaciones estándar (DE) esta la muestra con respecto a la medía,
considerando que:




                                                   A-B




Z    es                                                                            positiva
cuado la media de                                                                 la muestra (x)
es mayor que la media general (µ)
Z es negativa cuando la media de la muestra (x) es menor que la media general (µ)
De µ a 0.05 DE en ambos lados de la campana esta el 68.0 % del área
De µ a 1.0 DE en ambos lados de la campana esta el 95.0 % del área
De µ a 1.5 DE en ambos lados de la campana esta el 99.90 % del área
Como se muestra en la figura anterior.

La distribución normal de la probabilidad de Z se conoce como distribución tipificada. Dado que
su media es igual a cero (Zo) y su DE es 1.
Por lo tanto, la manera mas fácil de encontrar una probabilidad (área) entre el intervalo A – B con
un número especifico de desviaciones estándar (DE o σ) a partir de la media general, es mediante
la utilización de la tabla de Z.
Si se conoce el valor de Z o numero de Desviaciones Estándar (DE) se puede calcular el valor de
probabilidad área de la campana y esta representa un porcentaje de la población.

Ejemplo 1: Sabemos que 0.68 del área se encuentra dentro de 1 DE a partir de la media, 0.95 del
área dentro de 2 DE y casi toda el área dentro de 3 DE.
Qué fracción del área total se encuentra entre la media (Zo) y 0.7 DE (Z = 0.7)
Solución
Buscar en la tabla de Z (anexo 4) el valor para la fracción 0.7 DE. Observe que el valor de Z,
hasta el décimo más cercano se encuentra en la columna de la izquierda. La segunda cifra
decimal de Z correspondiente al centésimo, se da en la fila superior. Así el área entre la media y
el punto situado a Z = 0.7 DE a la derecha de la tabla es 0.2580.

Similarmente el área entre la media (Z0) y Z = 1.0 es de 0.3413, por lo tanto el área que se
encuentra dentro de 1 DE en ambos lados de la media es dos veces 0.3413 o sea 0.6828
El área que se encuentra dentro de 2 DE a partir de la media es de 0.4772. Si se quiere el valor en
ambos lados de la grafica es 0.9544.
Estos números proporcionan los valores aproximados de 68 y 95 % supuestos en la regla de
distribución empírica
Para encontrar un área de Z = 0.57 DE a la derecha de la media (Z0), en la columna de la
izquierda buscamos la fila que tiene el valor 5, luego en la fila superior buscamos la columna que
tiene el valor 0.07. La unión de las filas nos da el área aproximada de 0.2157.
En algunas ocasiones se tiene que hallar áreas de Z que no parte de la media (Z0) y pueden
abarcar un solo lado de la media o ambos lados de la misma, por lo tanto la forma de calcular el
área se modifica como se ejemplifica a continuación:

Ejemplo 2. Hallar el área que se encuentra entre 1.63 DE (Z=1.63) y 1.88 DE (Z=1.88)
Solución: Primeramente se hallan en la tabla los valores de Z=1.63 y Z=1.88

Z=1.63 en la tabla tiene una probabilidad de 0.4484
Z=1.88 en la tabla tiene una probabilidad de 0.4699
Como ambos valores de Z están por encima de la media (+) al mayor valor de Z (1.88) que dio
0.4699 se le resta el menor valor de Z (1.63) que dio 0.4484, por lo tanto el valor de z que se
encuentra entre esas DE se puede calcular por:
Z = 0.4699 – 0.4484
Z = 0.0125

Ejemplo 3. Hallar el área que se encuentra entre -0.50 DE (Z= -0.50) y 1.00 DE (Z=1.00)
Solución: Primeramente se hallan en la tabla los valores de Z= -0.50 y Z=1.00
Z=0.50 en la tabla tiene una probabilidad de 0.1915
Z=1.00 en la tabla tiene una probabilidad de 0.3413
En este caso un valore de Z están por encima de la media (+) y el otro por debajo de la misma (-),
por lo tanto el valor de Z (0.50) que dio 0.1915 se suma al valor de Z (1.00) que dio 0.3413, por
lo que el valor de z que se encuentra entre esas DE se puede calcular por:
Z = 0.1915 – 0.3413
Z = 0.5320

En algunos casos no se tienen los valores de Z, pero estos se puede calcular utilizando los datos
tomados de la población y la muestra tomada de la misma, utilizando la formula:

      X - µ
Z = -------------   (pudiendo ser cualquier valor entre 0.01 y 3.0 DE)
      DE (σ)

X = media de la muestra
µ = media general
DE (σ) = desviación estándar

3.3.3.1 Distribución muestral de medias
Cuando se trata de muestras de una población los valores de µ y DE (σ) para la muestra se
pueden calcular por
                                                            N–n
µx = µ                         DE (σ) x = DE (σ)/√N * √ -----------
                                                              n-1
Ejemplo: 500 lechones tiene un peso medio de 5.02 Kg. y una DE de 0.30 Kg. Hallar la
probabilidad de que una muestra al azar de 100 lechones tanga una media comprendida entre 4.96
y 5.00 Kg. y exprésalo como % de probabilidad

Datos población                  Datos de la muestra
µ = 5.02                          X; Z1 = 4.96 y Z2 = 5.00
σ = 0.30                          DE = ¿?
N = 500                           n = 100

Solución
µx = µ      µ = 5.02
Para poder aplicar la formula de Z se necesita la DE de la muestra, y no se tiene, por lo tanto se
tiene que calcular por la formula:

                         N–n                          500 - 100
DE(σ)x = DE(σ)/√ N * √ ---------- = 0.30/ √ 500 * √ -------------- = 0.0134 * 2.010 = 0.027
                         n–1                           100 – 1

Se busca los valores de Z para 4.96 y 5.00
X - µ 4.96 – 5.02
Z (4.96) = ----------- = --------------- = - 2.22
             DE (σ)           0.027


             X - µ 5.00 – 5.02
Z (5.00 ) = ----------- = --------------- = - 0.74
                 DE(σ)       0.027

La probabilidad pedida esta entre Z = - 2.22 y Z = - 0.74
El área entre Z = -2.22 y Z = 0 es 0.4868
El área entre Z = -0.74 y Z = 0 es 0.2704
El área pedida es de 0.4868 – 0.2704 = 0.2164

Por lo tanto la probabilidad de que la muestra de 100 lechones tenga una media entre 4.96 y 5.00
es de 0.2164 en porcentaje (0.2164 x 100) es de 21.64 % de probabilidad.


3.4 Ejercicios de aprendizaje
Ejercicio 1. (25 minutos)
En equipos de trabajo, lee cuidadosamente los conceptos y ejercicios del subtema de conceptos
de probabilidad que se encuentran en los apuntes de la unidad III para determinar los siguientes
conceptos y preguntas:

a) Cual es el campo de estudio de la estadística inferencial y como influye la probabilidad en él.
b) Que es la probabilidad
c) Cual es la formula desglosada de la probabilidad y que valores puede tener
d) Cual es la formula desglosada de la probabilidad de no ocurrencia
e) Como se calcula la probabilidad como frecuencia relativa

Ejercicio 2. (25 minutos)
Con los juegos de azar proporcionados por el instructor realiza uno de los siguientes ejercicios

a) Utiliza la formulas de probabilidad para predecir y calcular (poner los valores) de la
probabilidad de ocurrencia de los siguientes eventos:
E1) La probabilidad de sacar un as en una sola extracción de un manojo de cartas
E2) La probabilidad de sacar el as de corazones rojo de un manojo de cartas
E3) La probabilidad de sacar un carta con corazón rojo de un manojo de cartas

b) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la
probabilidad de ocurrencia de los siguientes eventos:
E1) La probabilidad de que te toque tomar en un solo lanzamiento de una pirinola
E2) La probabilidad de que te toque poner en el lanzamiento de una pirinola
E3) La probabilidad de que te caiga toma todo en el lanzamiento de una pirinola
c) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la
probabilidad de ocurrencia de los siguientes eventos:
E1) La probabilidad de que te caiga un número par en un solo lanzamiento de un dado
E2) La probabilidad de que no te caiga un número par en un solo lanzamiento de un dado
E3) La probabilidad de que te caiga el número 6 en un solo lanzamiento de un dado

d) Anota la pizarra las formulas y los resultados obtenidos en cada evento calculado, explicándole
a tus compañeros como se obtuvieron (10 minutos por cada equipo de trabajo).

Ejercicio 3. (30 minutos)
En equipos de trabajo de 5 o 6 integrantes, lee cuidadosamente los conceptos y ejercicios que se
encuentran en los apuntes de la unidad III en los subtemas de variables y distribución de la
probabilidad para determinar los siguientes conceptos y preguntas:
a) Que es una variable aleatoria y como se representa
b) De acuerdo con su valor numérico que es una variable discreta
c) De acuerdo con su valor numérico que es una variable continua
d) Menciona dos ejemplos que no estén en los apuntes de variables binomiales
e) Que es una muestra aleatoria y cuando se utiliza
f) Por que una variable aleatoria permite definir la probabilidad de ocurrencia
g) Que es la distribución de la probabilidad

Ejercicio 4. (30 minutos)
Con el auxilio de los apuntes de los subtemas de distribución de la probabilidad determina cual es
el tamaño de la población o espacio muestreal que existe en el lanzamiento de dos dados
numéricos, que valores puede tomar la suma o combinación de una cara de cada dado en un
lanzamiento (la cual se conoce como variable aleatoria discreta) y cual es el valor de ocurrencia
(p) y no ocurrencia (q) de cada variable aleatoria.

Ejercicio 5. (60 minutos)
a) Con los dados proporcionados por el instructor realiza (Equipo 1: 75 lanzamientos, Equipo 2:
100 lanzamientos, Equipo 3: 125 lanzamientos y Equipo 4: 150 lanzamientos) y a anota en la
tabla cada uno de los resultados obtenidos.

Suma        veces que cayo                                                                 Total
2
3
4
5
6
7
8
9
10
11
12

b) Con los resultados de total de veces de cada variable (suma de los números) realiza un grafica
de puntos para representar la probabilidad de cada ocurrencia de cada valor.

c) Contesta las siguientes interrogantes:
Que nombre la darías el punto medio de la gráfica
Que sucede con la probabilidad a medida que se acerca o aleja el valor del punto medio
Como medirías o que valor le darías a la cercanía o lejanía de un valor de su punto medio

Ejercicio 6.
En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa
computarizado Excel, realiza los siguientes ejercicios.

a) Supongamos que en un tanque de nitrógeno líquido se tienen 15 dosis de semen en buenas
condiciones y 4 dosis caducas. Cual es la probabilidad de sacar 1 dosis de semen buena y cuales
la probabilidad de sacar una dosis de semen caduca.

b) La probabilidad de éxito (efectividad) de un nuevo insecticida orgánico a base extracto del
árbol de nin para combatir la mosca blanca es 0.83. Calcula la probabilidad de que una vez
administrada a un lote de injertos de naranja que consta de 20 plantas
a) Ninguna sufra ataques de la plaga
b) Todas las plantas sean afectadas por la plaga,
c) Solo el 50% sea afectada por la plaga
d) Determina la media del número de plantas infectadas
e) Determina la varianza del número de plantas infectadas
e) Determina la desviación estándar del número de plantas infectadas

c) Da 10 ejemplos de variables continuas, 5 ejemplos de variables discretas y 5 ejemplos de
variables binomiales.

d) Encontrar un área entre Z = 0 y Z = 1.63 DE
   Encontrar un área entre Z = 0 y Z = 1.88 DE
   Encontrar un área entre Z = 0 y Z = 2.57 DE
   Encontrar un área entre Z = 1.83 y Z = 1.98 DE
   Encontrar un área entre Z = -1.45 y Z = 1.67 DE

e) Marca John Deer asegura que el rendimiento de sus tractores de inyección electrónica fue de
25.5 Km./litro de disel, cuando realizo pruebas en las últimas 750 unidades producidas. Si los
productores del ingenio azucarero adquieren 50 unidades con el fin de optimizar el uso de
combustible en sus cultivos, ¿Qué % de los tractores crees que tengan un rendimiento de 27
Km./litro de disel.




UNIDAD IV. Estimación
4.1 Hipótesis estadística
A menudo se tiene que tomar decisiones sobre una población partiendo de información
procedente de una muestra de la misma.

Ejemplos: Si se quiere saber si un fertilizante es mejor que otro en el cultivo de chile habanero.
Si existen diferencias en el peso al destete de dos razas de cerdos.
Si el rendimiento de una Ha. de caña en Sac-Xan es igual o superior a la producción media de la
región.

Para tomar tales decisiones sin que se estudie o analice toda la población “es conveniente hacer
determinados supuestos o enunciados a cerca de las poblaciones que se estudian”.Tales supuestos
se llaman hipótesis estadísticas y pueden ser ciertas o no. Existen 2 tipos de hipótesis estadísticas:

4.1.1 Hipótesis nula (Ho)
Las hipótesis nulas afirman que no hay diferencias estadísticas de la muestra y el parámetro de la
población o que no hay diferencias entre dos muestras de los fenómenos (tratamientos) en
estudio.

4.1.2 Hipótesis alternativa (Ha)
Las hipótesis alternativas afirman que existen diferencias entre la muestra y la población o que
existen diferencias entre dos tratamientos.

Ejemplo 1: Se cree que la longitud dorsal de la abeja europea es de 30 mm. Se captura un
enjambre de abejas en Limones y se obtiene una media de 20 mm de longitud dorsal. Para saber
si las abejas que se capturaron en el municipio son europeas o africanizadas, en términos
estadísticos las hipótesis serían:

Ho: La medida de longitud dorsal obtenida de la muestra (20 mm) es igual a la medida de las
abejas europeas (30 mm)

Ha: La medida de longitud dorsal obtenida de la muestra es diferente a la medida de las abejas
europeas.

Ejemplo 2. El promedio de peso al destete del ganado Brahmán en un rancho es de 210 Kg. y el
promedio del Indobrasil es de 190 Kg. Existen diferencias entre el peso al destete de estas dos
razas o la diferencia se debe a errores de muestreo. En términos estadísticos las hipótesis serían:

Ho: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es igual al peso al destete del
ganado Brahmán (210 Kg.)

Ha: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es mayor que el del Brahmán
(210 Kg.).

El procedimiento que facilita decidir si esas hipótesis son ciertas o falsas (se aceptan o se
rechazan) o el determinar si lo observado es diferentes a los resultados esperados se llaman
“ensayos de hipótesis” o reglas de decisión. Para que un ensayo de hipótesis sea correcto, debe
diseñarse de forma que minimice los errores de decisión.
4.2 Tipos de errores
El ensayo de hipótesis esta sujeto a dos tipos de errores que son predominantes en cualquier
problema de decisión, en el que hay dos elecciones posibles. Podemos rechazar la hipótesis nula
cuando en realidad es verdadera, o podemos aceptar la hipótesis nula cuando en realidad es falsa.
Estos errores se llaman de tipo I y tipo II, respectivamente..

4.2.1 Error tipo I
Si rechaza una hipótesis cuando debería aceptarse se conoce como error tipo I

4.2.2 Error Tipo II
Si acepta una hipótesis cuando debería rechazarse se conoce como error tipo II

La probabilidad máxima en la cual se puede cometer un error tipo I en una prueba se llama nivel
de significancía del ensayo y se interpreta como la probabilidad del que el estadístico de prueba
este en la zona de rechazo de la hipótesis alterna. La forma de representarla es α. El valor de
significancia mas utilizado es el de 0.05 (α = 0.05) (P<0.05). Tal expresión significa que la
probabilidad de cometer un error tipo I es de 5% e indican que si la probabilidad de es mayor de
5% se debe aceptar la hipótesis nula.
La probabilidad de cometer un error tipo II se conoce como beta y se representa por B, y se
interpreta como la probabilidad de que el estadístico de prueba este entre la zona de aceptación de
la hipótesis alterna. El valor de significancia mas utilizada para B es el de 95% (B = 0.95) o
(P>0.05). Tal expresión significa que la probabilidad de cometer un error tipo II es de 95% e
indican que si la probabilidad de es mayor o igual a 95%, se debe aceptar la hipótesis alterna.
Asumiendo que la hipótesis nula (Ho) es verdadera, un aumento de α significa una disminución
en B. Es decir, si aumenta la probabilidad de α disminuye la de B.
La única forma de reducir al mismo tiempo ambos errores de decisión es aumentar el tamaño de
la muestra. Esto puede ser posible o no.
En la practica los valores de α se pueden encontrar tabulados en la mayoría de los libros de
estadística. Generalmente existe una tabla para cada tipo de prueba estadística. Los contenidos de
las tablas se denominan valor tabular o valor de tabla.

4.3 Procedimientos para las pruebas de hipótesis de una población
La aceptación o rechazo de la hipótesis (Ho) se basa en estadísticos de prueba. Los más usados
son: La prueba de T de Student, la prueba de Ji cuadrada y la prueba de F.
Si el valor calculado para el estadístico de prueba es mayor que el valor de tabla se rechaza la
hipótesis nula y se acepta la hipótesis alterna.

Ejemplo: Cuando Tc >Tt se rechaza Ho. O cuando         Tc<Tt se acepta Ho.

4.3.1 Para la media – 4.3.2 Para la varianza – 4.3.3 Para la proporción – 4.4 Intervalo de
confianza de una población – 4.4.1 Para la media – 4.4.2 Para la varianza – 4.4.3 Para la
proporción
Generalmente los estadísticos de prueba se utilizan para compara los estadísticos de una
población con los valores estadísticos de las muestras extraídas de la misma, con la finalidad de
determinar si la muestra pertenece o no a la población en estudio. Algunos de los procedimientos
utilizados de describen a continuación.

4.3.1.1 Prueba de T de Student
Se utiliza para comparar la media de una muestra contra un valor hipotético. Se usa para
comparar dos medias muéstrales. Se utiliza cuando el tamaño de la muestra es menor a 30
observaciones (n < 30).
La T de Student utiliza el Error Estándar (EE) en ves de la varianza (S 2) para calcular la
probabilidad de muestras pequeñas.

4.3.1.2 Comparación de una media con un valor hipotético
La prueba de T para comparar una media de una muestra con la media de una población, esta
dada por la formula:

     X -µ
T = -----------
   (EE = S2/√n)

X = media de la muestra
µ = media de la población
S2 = Varianza de la muestra
EE = Error estándar de la muestra




                                                 t




En este caso de esta interesado en preguntar si una población tiene o no una media específica.

Ejemplo1: La familiaridad con los pesos del ganado en la región nos lleva a pesar que la media de
peso a los 210 días de destete es de 180 Kg. Se pesan 25 becerros cebú y se obtiene una media de
210 Kg. con una varianza de 35 Kg. La hipótesis que se quiere probar es que la muestra de los
becerros es igual al peso promedio de la región. Es decir:
Ho: El peso de la muestra (210) es igual al valor regional (180)
Ha: El peso de la muestra es diferente al valor regional
Las hipótesis señalan que se trata de una prueba de T de dos colas
Si el valor de Tc es mayor que el valor de Tt se rechaza la hipótesis nula y se acepta la Ha.
X -µ        210 – 180        30
T = ----------- = ----------- = -------- = 4.285
    S2/√n        35/√25             7

El valor de Tt se buscar con n-1 grados de libertad (GL) y α (Anexo 5)
GL = 25 -1 = 24
α = 0.05
Se busca en la tabla de T (a dos colas) y equivale a 2.064
Dado que 4.285 es mayor que 2.064 se rechaza la Ho y se concluye que la muestra pertenece a
una población diferente a la regional.

Esta prueba garantiza que los resultados son reales y las diferencias no se deben al azar.
“Cabe mencionar que el interés fue determinar si habían o no diferencias entre los dos valores,
por eso se utilizo una prueba de dos colas (ambos lados de la media).

Ejemplo 2: Un investigador tiene razón suficiente para pensar que el aprovechamiento del silo de
maíz en borregos es del 54%. Realiza una prueba con un lote de 7 borregos y obtiene los
siguientes datos:

Borrego    % aprovechamiento
1          57.8
2          56.2
3          61.9
4          54.6
5          53.6
6          56.4
7          53.2

El investigador quiere probar la hipótesis del que el aprovechamiento de los borregos utilizados
es mejor de lo que se espera (54%)
Ha: El aprovechamiento del silo de maíz es superior al 54% (prueba de T de una cola)
Con un α = 0.05
Los datos arrojan que los borregos de la prueba tuvieron una X = 56.24, con una S 2 = 8.89
(sacados en la calculadora)

EE = S/√n = 8.89/√7 = 3.367

     56.24 -54.00
Tc = --------------- = 0.665
        3.367

La Tt se busca con 6 GL y α 0.05 tomando los valores de significancia en la base de la tabla (una
cola) el valor es 1.943.
Dado que Tc < Tt se acepta la Ho y se concluye que los borregos tuvieron un igual
aprovechamiento de la media poblacional.
4.3.1.2 Comparación de dos medias muéstrales
Supongamos que se tiene dos poblaciones con medias X 1 y X2. A continuación se toma una
muestra aleatoria de cada población para probar que ambas son iguales.
La Ho que define esta diferencia entre medias se esquematiza, Ho: X 1 = X2 y se prueba
utilizando la formula:

     χ1 - χ2
Tc = ------------       donde: S χ1 - χ2 = EE (Error Estándar de la diferencia entre las medias)
     S χ1 - χ2

En este caso ambas muestras tiene una media y varianza definida, y debe calcularse una varianza
común, denominada Error Estándar de diferencia entre las medias (EE).
El calculo de la varianza común (EE) es el primer paso a realizarse en cual quier prueba de T,
donde se comparan dos medias muéstrales. Dado que existe una serie de condicionantes de las
muestras que pueden hacer variara la formula para su calculo. La formula a utilizar depende de:.
Si las dos muestras tienen una varianza común (iguales estadísticamente hablando)
Si los valores de la varianza son conocidos o estimados
Si las dos muestras son del mismo tamaño
Si las observaciones son pareadas

4.3.1.2.1 Prueba de homogeneidad para determinar si las muestras tiene varianza común
El primer paso es determinar si las varianzas son iguales.
Una forma práctica y fácil de determinar si las dos varianzas son iguales es a través del uso de la
prueba de F, mediante el siguiente procedimiento:

Se calcula la varianza de cada muestra en la calculadora tomando el total de datos de cada
muestra y utilizando la función estadística de la misma.
Posteriormente se calcula el valor de F dividiendo la varianza mayor entre la varianza menor
(Fc= S21/S22 ) y el resultado se compara con el valor de F que se encuentra en las tablas (Ft)
proporcionadas en los anexos de estos apuntes..
El valor de F tabulada se obtiene con los grados de libertad (gl = n 1-1) de la varianza mayor en la
parte de arriba de la tabla y los grados de libertad (gl = n 2-1) de la varianza menor en la parte
lateral izquierda de la tabla (Anexos 6, 7, 8, 9 y 10).
Posteriormente se utiliza los siguientes criterios:
Si el valor de F calculada (Fc) es menor que (<) la F de tablas (Ft) las varianzas comparadas son
iguales o comunes.
Si el valor de F calculada (Fc) es mayor que (>) la F de tablas (Ft) las varianzas comparadas son
diferentes o no comunes.

4.3.1.2.2 Determinación del número de observaciones.
De acuerdo con el número de observaciones de cada muestra, se pueden presentar dos casos:
Caso 1: n1 = n2. (muestras con igual numero de observaciones tomadas en cada la población)
Caso 2: n1 ≠ n2. (muestras con desigual número de observaciones tomadas en cada población)
Con ambos factores se determina que tipos de formula utilizar para cada problema o pruebas de T
especificas, tiendo en cuanta que X1 y X2 son medias de dos poblaciones independientes, donde
se han toma una muestra de cada una y se obtiene sus medias χ1 - χ2, varianza S1 – S2 y tamaño
de muestra n1 – n2 y se desea probar la Ho: X 1 = X2, suponiendo que las poblaciones se
distribuyen normalmente y tiene un varianza común pero desconocidas, pueden encontrarse los
siguientes casos para calcular los valores de la formula:

4.3.1. 2.3 Muestras con iguales varianzas e igual numero de observaciones
Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas

      χ1 - χ2
Tc = ------------
        EE
                                           SC χ1 + SC χ2
EE = √ 2S /n 2
                        donde         2
                                     S = ---------------------
                                                 N-2
S2 = Varianza
SCX = Suma de cuadrados de X
N = Total de observaciones de las dos muestras

Para obtener el valor de Tt se utilizan el nivel de significancia deseado (α. = 0.05) y GL sacado
por N -2, es decir el total de las observaciones menos 2. La decisión de utilizar la tabla de t de
una o dos colas depende de la hipótesis plateada.

4.3.1.2.4 Muestras con iguales varianzas y desigual numero de observaciones
Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas

      χ1 - χ2
Tc = ------------
        EE
                                              SC χ1 + SC χ2
EE = √ S (1/ n1 +1/ n2) donde
         2                             2
                                      S = ---------------------
                                                   N–2

Para obtener el valor de Tt se utilizan el nivel de significancia deseado (α. = 0.05) y GL sacado
por N -2, es decir el total de las observaciones menos 2. La decisión de utilizar la tabla de t de
una o dos colas depende de la hipótesis plateada.

4.3.1.2.5 Muestras independientes de varianza desigual (Heterogéneas)
Cuando se realiza la prueba de F y las varianzas no son iguales (S 1 ≠ S2) y se quiere probar la
hipótesis de que X1 = X2, la forma de calcular Tc y Tt cambian a:

     χ1 - χ2
Tc = ------------
        EE

El EE se calcula por: EE = √ S21/n1 + S22/n2
En este caso no hay necesidad de calcular una varianza común, dado que resulto que las varianzas
son desiguales e independientes, por lo que S 21 y S22 se toman directamente de los datos
utilizando la calculadora.

Sin embargo, para obtener la Tt, se tienen que obtener los grados de libertad efectivos (GL) para
ambas muestras mediante la formula:

                 (S1/n1 + S2/n2)2
GL = ---------------------------------------------
      { (S21/n1)2/n1-1 } + { (S22/n2)2/n2-1 }

El α. = 0.05

Ejemplo 1. En un experimento con 22 plantas. Se probaron dos hormonas de crecimiento, la
Adenotropa (A) y la Corticotropa (C). 11 plantas recibieron la hormona A y 11 plantas la
hormona C. Los efectos se midieron pesando las plantas después de 15 días de aplicación.

La hipótesis planteada es que las hormonas producen iguales efectos.
Ho: No existen diferencias en el crecimiento de la plantas por efecto del tipo de hormona

Los resultados fueron los siguientes:
HormonaA 57          120     101      137            119    117    104    73      53        68   118
HormonaC 89          30      82       50             39     22     57     32      96        31   88

Cálculos necesarios
Hormona A                                                  Hormona C
χ                           97                             χ                    56
∑χ                          1067                           ∑χ                   616
∑χ2                         111971                         ∑χ2                  42244
S                           29.106                         S                    27.83
S2                          847.2                          S2                   774.8
N                           11                             N                    11
(∑χ)2/n                     (1067)2/11 = 103499            (∑χ)2/n              34496
SCχ = ∑χ2 - (∑χ)2/n         111971–103499 = 8474           SCχ= ∑χ2 - (∑χ)2/n   42444– 4496 = 7948

1. Se toman de los valores de las varianzas de la calculadora)..

S2 A = 847.2

S2 C = 774.8

2. Se realiza la prueba de homogeneidad de las varianzas

Fc = S21/S22 = 847.2 / 774.8 = 1.093
Ft = 10 GL en el numerador y 10 GL en el denominador, a un α = 0.05             Ft = 2.97
Dado que Fc (1.093) < Ft (2.097) se acepta la Ho de que las varianzas son iguales.

3. Se calcula el EE de la diferencia entre medias
En este caso la varianza común (S21 = S22) con igual numero de observaciones (n1 = n2)

EE = √ 2S2/n

        SC χ1 + SC χ2 8,474 + 7,948                  16,220
  2
S = --------------------- = ------------------- = -------------- = 811.0
           N–2                    22 – 2                 20

EE = √ 2S2/n = √2 (811.0)/22 = 12.14

4. Se calcula T

         χ1 - χ2             97 – 56                  41
Tc = ------------------- = ------------------ = -------------- = 3.38
      EE = √ 2S2/n          √2 (811.0)/22             12.14

5. Se determina Tt

Tt se busca con 20 GL (N – 2) y α = 0.05 (tabla de dos colas)
Tt = 2.086
Dado que Tc (3.38) > Tt (2.086) se rechaza la hipótesis nula y se concluye que existen
diferencias en el peso de las plantas por efecto de las hormonas. Donde la hormona A da un peso
superior a la hormona C.

4.3.1.2.6 Calculo de T con tratamientos pareados
Esta distribución se utiliza cuando los tratamientos por comparar son muy heterogéneos y hay
similitud entre las observaciones contiguas o están correlacionadas. Esta prueba trata de eliminar
errores de observaciones o fuentes de variación por falta de tiempo o espacio para hacer
determinado experimento.

Ejemplo 1. En un estudio con Leucaena se compararon dos variedades durante 9 años. En cada
año se sembraron las variedades peruana (P) y Leucocephala (L) y se obtuvieron los resultados de
forraje verde en ton/ha.
La hipótesis planteada es que la diferencia promedio de ambos variedades es igual
Ho: No existen diferencias en el rendimiento de la leucaena por efecto de la variedad (µd = 0)
Ha Existen diferencias en el rendimiento de la leucaena por efecto de la variedad (µd ≠ 0)

Resultados de dos variedades de Leucaena por 9 años
           variedades            Diferencia
Año        P           L         Di
1992       71.0        54.7      16.3
1993       73.9        60.6      13.3
1994          48.9        45.1         3.8
1995          78.9        71.0         7.9
1996          43.5        40.9         2.6
1997          47.9        45.4         2.5
1998          63.0        53.4         9.6
1999          48.4        41.2         7.2
2000          48.1        44.8         3.3

Cálculos (di)
χd                          7.38
∑χd                         66.5
∑χ2d                        687.33
Sd                          4.95
S2d                         24.49
Nd                          9
(∑d)2/n                     (66.5)2/9 = 491.36

         ∑d2 - ( ( ∑d)2 /n )          687.3 – 491.36            195.97
 2
S d = -------------------------- = ---------------------- = -------------- = 24.5
                 N–1                      9–1                       8

EE = √ S2/n = √ 24.5/9 = 1.663

       χd         7.38
Tc = --------- = ----------- = 4.48
       EE          1.663

Tt se busca con 8 GL (N – 1) y α = 0.05;     Tt = 2.306
Dado que Tc (4.48) > Tt (2.306) rechazamos la hipótesis Ho y concluimos que las variedades son
diferentes. Donde la variedad peruana es mejor que la leucocephala.

4.4 Prueba de Ji cuadrada (para intervalos de confianza de una población)
La distribución de Ji cuadrada se utiliza cuando se quiere comparar la media de una población
observada con su valor esperado de probabilidad. Muchas veces, los resultados obtenidos de
muestras no siempre concuerdan exactamente con los resultados teóricos esperados, según las
reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50
machos y 50 hembras del nacimiento de 100 becerros, es raro que se obtengan exactamente estos
resultados.
Cuando se desea determinar si las frecuencias observadas difieren significativamente de las
esperadas se utiliza el estadístico de prueba Ji cuadrada. Este estadístico da una medida de la
discrepancia existente entre las frecuencias observadas y esperadas.

                (O j - E j)2
Chi (X2) = ∑ ------------------
                    Ej
Donde O j es la frecuencia observada y E j es la esperada en la celda j. Si la X 2 = 0, la frecuencias
observadas y esperadas concuerdan exactamente; mientras que si X2>0, no coinciden
exactamente. A valores mayores de X2 mayores son las discrepancias entre las frecuencias
observadas y esperadas.

Nota: Al igual que la distribución de t, la distribución de Ji cuadrada se calcula por el número de
desviaciones independientes, es decir por los grados de libertad.
El número de grados de libertad de un estadístico se define como el tamaño de la muestra menos
el número de los parámetros de la población que deben estimarse a partir de las observaciones de
la muestra. Se simboliza Gl (Gl = t – 1) y se buscan en el anexo 11

Ejemplo 1. Se desea determinar si se cumplen las leyes de la herencia mendeliana para la
característica del cuello desnudo en un lote de 200 pollitos, resultado del cruzamiento de un gallo
cuello desnudo (Nana) y gallinas (Nana) heterocigotos (no puros). De acuerdo con las leyes
mendelianas la herencia debe de dar los resultados:
NaNa = pollo cuello desnudo
Nana = pollo cuello desnudo
nana = pollos sin cuello desnudo

Ho: No existen diferencias entre los valores observados y los esperados (Ho = 0)
Genotipo    nana Nana NANA
Observado 45        102    53
Esperado    50      100    50

        (45 – 50) 2       (102 – 100) 2 (53 – 50) 2             52      22    -32
X2 c = -------------- + ----------------- + --------------- = ----- + ------ + ------ = 0.72
           50                  100                  50          50      100      50

X2t = Gl (numero de clases – 1) y α → o sea 2 Gl (3 -1) y α = 0.05 (Anexo 11)
Cuando las clases del valor esperado son mayor de 2, se multiplica el numero de columnas por
el numero de filas a las que previamente se les resta uno, para sacar los grados de libertad (Gl
= Columnas -1 * filas -1)

Si la Xc > Xt rechazamos la Ho.
Xc (0.72) < Xt (5.99)
Conclusión:
Por lo tanto aceptamos la hipótesis nula y se concluye que las frecuencias observadas están de
acuerdo con las frecuencias esperadas de las leyes de Mendel.

En algunas ocasiones la naturaleza de los trabajos no permite tener la seguridad de los valores
esperados, por lo tanto estos deben ser calculados a través de los resultados de los valores
observados.
Ejemplo 2. Se desea determinar si el suero de inmunización del cólera porcino, es útil para curar
la presencia de la enfermedad en cerdos de traspatio. Por lo tanto, a un grupo de animales se les
inyecta el suero (grupo tratado) y al otro grupo agua destilada (grupo testigo).

EfectividadSuer          Testigo Total
           o
Sanaron    75            25          100
No Sanaron 5             45          50
Total      80            70          150

A continuación se procede a calcular las frecuencias esperadas.
La frecuencia esperada para la celda 1, se obtiene multiplicando los totales marginales y
dividiendo el resultado entre el gran total.
E1 = 100 * 80 / 150 = 53.33
Similarmente las frecuencias esperadas para las celdas 2, 3 y 4.
E2 = 100 * 70 / 150 = 46.67
E3 = 50 * 80 / 150 = 26.67
E4 = 50 * 70 / 150 = 23.33

Entonces el valor de Chi – cuadrada se calcula como:

          (O j - E j)2
X = ∑ ------------------
  2

             Ej

      (75 – 53.33) 2       (25 – 46.67) 2 (5 – 26.67) 2            (45 – 23.33) 2
  2
X = ---------------- + ----------------- + ------------------ + -------------------
         53.33               46.67                26.67                 23.33

X2 = 8.805 + 10.062 + 17.607 + 20.128 = 56.602               →      X2c = 56.602

X2 t = Chi de tabla se busca con 1 Gl (2 columnas – 1) y α = 0.05; la cual resulta = 3.84

X2c (56.602) > X2t (3.84) por lo tanto se rechaza la hipótesis nula

El porcentaje o proporciones de animales que sanaron con el suero = 75 / 80 * 100 = 93.75 %
El porcentaje de sanos en el testigo = 25 / 70 * 100 = 35.71 %

Conclusiones:
Existen diferencias entre el grupo de animales tratados (93.75 % sanaron) y el grupo de animales
testigos (35.71 %).

Nota. Si la Ho no se hubiera rechazado, sería equivalente a afirmar que la recuperación es
independiente del empleo del suero, es decir la clasificaciones son independientes.

4.5 Ejercicios de aprendizaje
En parejas realiza los siguientes ejercicios

Ejercicio 1. Contesta el siguiente cuestionario
a) Cuando se deben formular una hipótesis estadística
b) Que afirma estadísticamente una hipótesis nula
c) Que afirma estadísticamente una hipótesis alternativa

Ejercicio 2. Realiza el siguiente ejercicio
Con las conclusiones sacadas del cuestionario anterior y tomando como base los ejemplos que se
encuentran en los apuntes de la unidad IV, formula 5 hipótesis nulas y 5 hipótesis alternas, que
estén relacionadas con el área agropecuario. Desde luego no pueden ser las mismas de los
apuntes.

Ejercicio 3. Contesta el siguiente cuestionario
a) Que es un ensayo o prueba de hipótesis
b) Que tipos de errores se pueden cometer en un ensayo o prueba de hipótesis
c) Que es un error tipo I
d) Que es un error tipo II
e) Que es el nivel de significancia, como se interpreta, como se representa y que nivel se utiliza.
f) Como se conoce a la probabilidad de cometer un error tipo II, como se representa y que nivel
se utiliza
g) Donde y como se pueden encontrar los valores de alfa y beta de los diferentes tipos de ensayo
de hipótesis
h) Que es un estadístico de prueba
i) Cuales son los estadísticos de prueba mas utilizados en el ámbito agropecuario
j) Cuando se utiliza un estadístico de prueba

Ejercicio 4. Realiza el siguiente formulario
a) Cuales son las formulas de T de Studen para comparar una muestra con un valor hipotético o
poblacional
b) Cuales son las formulas de T de Studen para comparar dos medias muéstrales
c) Cuales son la formulas de T de Studen para comparar dos tratamientos pareados
d) Cuales son la formulas para comparar las medias de una población observada con un valor de
probabilidad esperado o prueba de Ji cuadrada

Ejercicio 5. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa
computarizado Excel, realiza los siguientes ejercicios.

a) El promedio de producción de leche en la región para vacas Suizo Cebú es de 4.75 litros por
vaca por día. Se tomo en un rancho de la región 30 vacas elegidas al azar a las que se alimento
con un suplemento a base de melaza, gallinaza, sorgo y sal mineral por un periodo de 30 días.
Durante todo el periodo se midió la producción de leche y se saco el promedio de producción
diaria para cada vaca.
Realiza una prueba de T de Student para probar la siguiente hipótesis.
Ha: Las suplementación mejora la producción diaria de leche en las vacas

No de vaca     1    2     3     4     5        6   7   8     9    10    11    12   13    14   15
Producción       7.5 8.0 5.0 4.0 2.0 5.0            8.9 7.6 9.1 8.0 5.2 6.3 4.2 5.0 6.1

No de vaca       16 17 18 19 20 21                  22 23 24 25 26 27 28 29 30
Producción       5.0 4.0 6.0 4.5 4.9 3.00           3.2 5.9 9.0 5.0 4.5 9.0 8.9 9.2 9.7

b) El promedio del crecimiento de las plantas de zapote en vivero es de 80 cm por año, un
productor cree que con un nuevo sistema de contenedores puede mejorar el crecimiento de las
plantas, las cuales se siembra bajo condiciones controladas. Los resultados obtenidos en cm
después de un año de siembra se muestran en el cuadro siguiente.
Crees que exista suficiente evidencia estadística para pensar que el productor tiene razón.
Platea las hipótesis que creas convenientes y pruébalas.

73      94    98    90    49   108
102     79    74    76    82   95
118     96    56    90    73   97
104     98    111   64    86   80
81      102   95    86    81   98

c) Un productor pretende comparar la producción en Kg. de una nueva variedad de fríjol
(Mantequilla) con la variedad que se siembra comúnmente en la región, de la cual se obtiene
normalmente 220 Kg. por hectárea. El productor siembra 20 hectáreas de la nueva variedad y
obtiene los siguientes resultados

Rendimiento de fríjol mantequilla / ha. .
420   460      380      410
320   380      310      300
250   320      280      260
350   420      460      400
360   250      220      260

El productor desea saber si el rendimiento de la nueva variedad es igual al rendimiento que
obtiene normalmente o si la variedad es mejor.
Plantea las hipótesis que creas convenientes para contestar las preguntas del productor.
Con los resultados que obtuviste que le recomendarías.

d) En una graja de producción porcina, la ganancia normal de peso obtenida en cerdos de engorda
es de 0.810 Kg. por animal por día alimentándolos con una dieta que contiene 14% de proteína
cruda. El encargado de la alimentación cree que aumentando el nivel de proteína cruda a 18% en
la dieta el peso aumentara. Para probar su idea alimenta un grupo de cerdos durante 3 meses y
obtiene los resultados que se muestran abajo.

0.690    0.960    0.810    0.730   0.660    0.810   0.710
0.660    0.760    0.810    0.650   0.800    1.250   1.010
0.780    0.890    0.930    0.790   0.840    0.830   0.700
0.740    0.710    0.830    0.690   0.730    0.790   0.850

La hipótesis ha probar fue:
Ha: El nivel de 18% de proteína cruda mejora la ganancia de peso
¿Crees que el encargado tiene razón?.
¿En que te basas?

e) Un investigador pecuario trabajando con cabras lecheras, desea probar un suplemento
fosfatado para la producción de leche, contra cabras sin suplementar. El efecto del suplemento se
midió como la producción de leche por cabra por día. Se utilizaron 10 animales por cada
tratamiento. Los resultados obtenidos después del experimento son los siguientes.

Testigo         Ortofosfato
1.150           1.450
1.125           1.550
1.100           1.547
1.112           1.650
1.195           1.400
1.125           1.550
1.150           1.450
1.150           1.450
1.125           1.550
1.100           1.547

Prueba la hipótesis:
Ho: el suplemento fosfatado mejora la producción de leche en cabras lecheras
Saca tus conclusiones del trabajo

g) Un investigador esta tratando de probar la eficacia de escarificación de semillas de Leucaena
con hidróxido de sodio (NaOH), para lo cual trato un lote de semillas y les hizo una prueba de
germinación, el investigador comparo sus resultados con la germinación de semillas sin tratar.

Efectividad   Testigo NaOH Total
Germinaron    745     909
No germinaron 375     223
Total

h) La eficacia de dos herbicidas (2-4 D amina y faena) se ha probado por el numero de plantas
por hectárea de que elimina o deja de eliminar. Un productor desea saber si es lo mismo usar
cualquiera de los dos herbicidas, dado que el faena vale 5 veces más que el 2 – 4 D amina.
Plantas 2-4 D amina Faena Total
Muertas 1117             405
Vivas     223            679
Total

i) Un investigador trata de averiguar cual es el mejor método de escarificación de semillas de
Leucaena, para lo cual utiliza cuatro diferentes tratamientos, ácido sulfúrico (H2SO), hidróxido
de sodio (NaOH) y calor, Se utilizo un lote de semillas por cada método y se les hizo una prueba
de germinación, el investigador comparo sus resultados con la germinación de semillas sin tratar.
Efectividad   Testigo H2SO NaOH              Calor Total
Germinaron    745     909     1117           450
No germinaron 591     375     223            679
Podridas      14      66      10             221
UNIDAD V. Regresión y correlación

5.1 Regresión
La aplicación de los conceptos de probabilidad en la producción agrícola, pecuaria y forestal,
permiten predecir la influencia de algunos factores en el comportamiento productivo de animales,
cultivos, plantas o calcular el grado de relación que existe entre esos factores y los caracteres
productivos. Las herramientas matemáticas que facilitan estos aspectos son la regresión y la
correlación.

5.1.1 Regresión lineal – 5.1.2 Regresión no lineal
Es el procedimiento que se usa para construir una ecuación de predicción para una variable
aleatoria (que puede ser x carácter productivo) como efecto de una o mas variables
independientes (obtenidas de rasgos productivos, mediciones, datos de producción etc.). Es decir
se trata de predecir el comportamiento de una variable como resultado de la observación de otra u
otras variables.

Ejemplo: En el sector de producción de caña es de sumo interés para los productores, poder
estimar los volúmenes de producción para las siguientes cosechas en sus parcelas. Sin embargo
los productores saben de antemano que no todas las parcelas producen igual, pues el rendimiento
depende de factores como la fertilización, el tipo de suelo, las labores de cultivo, el tipo de
maquinaria utilizada, entre otros. En tal sentido los productores quieren predecir como se
incrementarían sus rendimientos tomando en cuenta que van a fertilizar sus parcelas. Para realizar
las estimaciones los productores cuentan con la información de 10 parcelas distribuidas en ejidos
diferentes con distintas características de producción, que muestran el rendimiento de las parcelas
antes y después de la aplicación de fertilizante en cuestión. Dicha predicción le permitiría a cada
productor decidir si realiza la inversión en ese tipo de fertilizante o no lo aplica o se cambia a
otro, antes de comprar y aplicar el producto en cuestión, que se muestran en el cuadro siguiente.

Parcela    Producción antes de fertilizar Ton/Ha.      Producción después de fertilizar Ton/Ha.
                           (X)                                          (Y)
1                           39                                           65
2                           43                                           78
3                           21                                           52
4                           64                                           82
5                           57                                           92
6                           47                                           89
7                           28                                           73
8                           75                                           98
9                           34                                           56
10                          52                                           75

Puede observarse que el problema planteado es muy general, pues estamos interesados en una
variable aleatoria (Y) que esta relacionada con algunas variables independientes (X 1, X2, X3….).
La variable aleatoria en este caso es el rendimiento futuro de las parcelas y las variables
independientes que influyen en el rendimiento son la fertilización (X 1), el tipo de suelo (X2), las
labores de cultivo (X3), el tipo de maquinaria (X 4). En este caso nos interesa únicamente la
primera variable.
El objetivo de la regresión es medir el efecto de las variables independientes (X1, X2, X3….) para
una parcela cualquiera (en este caso nos interesa únicamente la primera variable) y colocar esos
valores en una ecuación de predicción y así poder estimar el promedio de producción de
cualquier otra parcela. Es decir se trata de construir una ecuación que permita estimar la
producción futura de cualquier parcela como efecto de la fertilización
El primer paso para solucionar este problema, es construir una grafica con los datos de los
productores, tomando los rendimientos de las parcelas después de fertilizar como eje Y, y la
producción antes de fertilizar como eje X y trazar una línea a través de los puntos de tal manera
que todos queden equidistantes de la línea trazada (línea de mejor ajuste).


                                                                Regresión lineal


                                               120


                                               100
                       Despues de fertilizar




                                               80


                                               60                                             Serie1


                                               40


                                               20


                                                0
                                                     0   20           40            60   80
                                                              Antes de fertilizar



En teoría se puede utilizar la grafica para predecir la producción de una parcela en función de la
fertilización, pues la recta representa un modelo matemático que expresa la supuesta relación
funcional entre Y y X (la producción de la parcela y la fertilización). Sin embargo la ecuación
debe expresarse matemáticamente, de tal manera que pueda utilizarse en cálculos futuros, por lo
cual debemos recordar que la ecuación matemática de una línea recta es:

Y = βo + β1X

Donde βo es el punto de intersección con el eje Y y β 1 es la pendiente o inclinación de la recta.
Cuando trazamos una línea a través de los puntos en realidad estamos trazando un modelo
matemático deterministico, por que cuando se coloca un valor de X en la ecuación, el valor de Y
queda determinado y no deja abierta la posibilidad de error. Por lo tanto los modelos
deterministicos son bastante adecuados para utilizarse como herramienta de predicción.
El segundo paso para la solución de la ecuación de la recta de mejor ajuste de Y con respecto a X,
se utiliza el procedimiento de los mínimos cuadrados, donde se estima los valores de βo y β 1,
mediante la formulas:

        SCxy
β1 = ____________
         SCx

βo = Ÿ - β1(x)

Donde para calcular la SCx y SCxy se utiliza las formulas
            (∑ X)2                                       (∑ X) (∑ Y)
         2
SCx =∑ X - --------
               n
                                    SCxy = ∑ (X)(Y) - -----------------
                                                              n

                                            i =1
Para su aplicación debe de realizarse los siguientes cálculos en la calculadora:

             X                Y             XY
             39               65            2,535
             43               78            3,354
             21               52            1,092
             64               82            5,248
             57               92            5,244
             47               89            4,183
             28               73            2,044
             75               98            7,350
             34               56            1,904
             52               75            3,900
∑X           460      ∑Y      760       ∑XY 36,85
                                            4
Media x 46            Media y 76
∑X2          23,63 ∑Y2          59,81
             4                  6
N            10       N         10
Sustituyendo los valores en la formula de SC, tendremos:
               (∑ X)2               (460)2
SCx= ∑ X - --------
           2
                        = 23,634 - -------- = 23,634 – 21160 = 2,474
                  n                  10
                       (∑ X) (∑ Y)                 (460) (760)
      i =1
SCxy = ∑ (X)(Y) - -----------------   = 36,854 - ---------------- = 36,854 – 34960 = 1,894
                           n                              10
Sustituyendo los valores en la ecuación tendríamos:
          SCxy         1,894
β1 = ________ = ________ = 0.765562 o 0.77
            SCx        2,474

Βo = Ÿ - β1(x) = 76 – (0.765566) (46) = 76 – 35.216036 = 40.7841 o 40,78
Por lo tanto la ecuación que mejor ajusta la producción de una parcela con respecto a la
fertilización sería:           Y = 40.78 + 0.77 X
Donde la valor 40.78 es la intersección con Y (sea cuando X vale 0) y 0.77 es la pendiente de la
recta que da el cambio estimado en Y por cada unidad de cambio de X.
Con esta ecuación se puede predecir la producciones futuras de una parcela fertilizada (Y)
partiendo de una producción sin fertilizar (X).
Ejemplos: Si una parcela produce actualmente 50 Ton/Ha. sin fertilizar y se fertiliza, su
producción calculada sería:
 Y = βo + β1X         Y = 40.78 + (0.77) (50) = 40.78 + 38.50 = 79.28 Ton/Ha.
Para una parcela que produce 35 Ton/Ha, sería:
Y = βo + β1X         Y = 40.78 + (0.77) (35) = 40.78 + 26.95 = 67.90 Ton/Ha.

5.2 Correlación
Alguna veces es deseable saber que tanto una variable influyen en los cambios provocados en la
otra variable o sea que tan fuerte es la relación entre las variables Y y X, que sea independiente
de sus respectivas escalas de medición.

5.2.1 Correlación lineal – 5.2.2 Coeficiente de determinación
A la relación que existe entre dos variables se le denomina coeficiente de correlación lineal entre
Y y X y se simboliza con la letra r y su valor siempre va de 0 a 1 o -1, dependiendo si se trata de
una correlación positiva (1) o negativa (-1). El valor de r = 0 indica que no hay correlación lineal
entre Y y X o sea que los valores de X no producen cambios en Y. Los valores positivos de r
(0.01 a 1) indica que existe una correlación positiva de Y y X y la recta que forman los datos van
creciendo hacia la derecha, donde el valor de r = 1 indica que existe una total correlación de Y y
X o sea que los valores de X explican 100% los cambios provocados en Y (a medida que
aumenta X, aumenta Y). Cuando el valor de r es negativo indica que los puntos que forman la
recta van decreciendo hacia la derecha, o sea que a medida que aumenta X desminuye el valor de
Y.
Para el calculo del coeficiente de correlación se utiliza la formula
        SCxy
r = ------------------.
     √(SCx) (SCy)
Para explicar el cálculo del coeficiente de correlación tomaremos los mismos datos del ejemplo
anterior, en que se quiere predecir la producción futura de una parcela de caña como efecto de la
fertilización.
         X         Y      XY
         39        65     2,535
         43        78     3,354
         21        52     1,092
         64        82     5,248
         57        92     2,244
         47        89     4,183
         28        73     2,044
         75        98     7,350
         34        56     1,904
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado
Apuntes de estadística escolarizado

Contenu connexe

Tendances

Muestreo y distrib muestrales de una media
Muestreo y distrib muestrales de una mediaMuestreo y distrib muestrales de una media
Muestreo y distrib muestrales de una mediaJuanito Vithore
 
TALLER EI 1 30 - 03 - 2022.pdf
TALLER EI 1 30 - 03 - 2022.pdfTALLER EI 1 30 - 03 - 2022.pdf
TALLER EI 1 30 - 03 - 2022.pdfAngelQuiroz32
 
Tablas de frecuencias
Tablas de frecuenciasTablas de frecuencias
Tablas de frecuenciasgrahbio14
 
Grupo 5 - Método de ingreso.pptx
Grupo 5 - Método de ingreso.pptxGrupo 5 - Método de ingreso.pptx
Grupo 5 - Método de ingreso.pptxClaudiaAltamirano27
 
Ejercicio 1 estadistica poblacional y sus tipos.
Ejercicio 1 estadistica poblacional y sus tipos.Ejercicio 1 estadistica poblacional y sus tipos.
Ejercicio 1 estadistica poblacional y sus tipos.peter_lopez_97
 
Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)Luz Hernández
 
Ejercicios de costo. planificacion
Ejercicios de costo. planificacionEjercicios de costo. planificacion
Ejercicios de costo. planificacionlucimoya
 
Estaditica
EstaditicaEstaditica
Estaditicafior
 
Ejercicios muestreo estadistica
Ejercicios muestreo estadisticaEjercicios muestreo estadistica
Ejercicios muestreo estadisticadilmer hernandez
 
Problemas de determinación de tamaño de la muestra (9)
Problemas de determinación de tamaño de la muestra (9)Problemas de determinación de tamaño de la muestra (9)
Problemas de determinación de tamaño de la muestra (9)Luz Hernández
 
Tabla de Distribución por edades
Tabla de Distribución por edadesTabla de Distribución por edades
Tabla de Distribución por edadesCPilarZB
 
Importancia de los estados financieros y su aplicación
Importancia de los estados financieros y su aplicaciónImportancia de los estados financieros y su aplicación
Importancia de los estados financieros y su aplicaciónLuis Cardozo
 
Ensayo y mapa conceptual de distribuciones muestrales
Ensayo y mapa conceptual de distribuciones muestralesEnsayo y mapa conceptual de distribuciones muestrales
Ensayo y mapa conceptual de distribuciones muestralesYelitza Suarez Villarreal
 

Tendances (20)

Escalas de Medicion
Escalas de MedicionEscalas de Medicion
Escalas de Medicion
 
248765995 ejercicio-de-macro-economia
248765995 ejercicio-de-macro-economia248765995 ejercicio-de-macro-economia
248765995 ejercicio-de-macro-economia
 
Muestreo y distrib muestrales de una media
Muestreo y distrib muestrales de una mediaMuestreo y distrib muestrales de una media
Muestreo y distrib muestrales de una media
 
TALLER EI 1 30 - 03 - 2022.pdf
TALLER EI 1 30 - 03 - 2022.pdfTALLER EI 1 30 - 03 - 2022.pdf
TALLER EI 1 30 - 03 - 2022.pdf
 
Tablas de frecuencias
Tablas de frecuenciasTablas de frecuencias
Tablas de frecuencias
 
Grupo 5 - Método de ingreso.pptx
Grupo 5 - Método de ingreso.pptxGrupo 5 - Método de ingreso.pptx
Grupo 5 - Método de ingreso.pptx
 
Ejercicio 1 estadistica poblacional y sus tipos.
Ejercicio 1 estadistica poblacional y sus tipos.Ejercicio 1 estadistica poblacional y sus tipos.
Ejercicio 1 estadistica poblacional y sus tipos.
 
Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)Propiedades de los estimadores puntuales (2)
Propiedades de los estimadores puntuales (2)
 
Ejercicios de costo. planificacion
Ejercicios de costo. planificacionEjercicios de costo. planificacion
Ejercicios de costo. planificacion
 
Estadistica
EstadisticaEstadistica
Estadistica
 
20 estadistica samuel-_mago
20 estadistica samuel-_mago20 estadistica samuel-_mago
20 estadistica samuel-_mago
 
Estaditica
EstaditicaEstaditica
Estaditica
 
Ejercicios muestreo estadistica
Ejercicios muestreo estadisticaEjercicios muestreo estadistica
Ejercicios muestreo estadistica
 
Mano de obra
Mano de obraMano de obra
Mano de obra
 
Costos segun su naturaleza
Costos segun su naturalezaCostos segun su naturaleza
Costos segun su naturaleza
 
Problemas de determinación de tamaño de la muestra (9)
Problemas de determinación de tamaño de la muestra (9)Problemas de determinación de tamaño de la muestra (9)
Problemas de determinación de tamaño de la muestra (9)
 
Tabla de Distribución por edades
Tabla de Distribución por edadesTabla de Distribución por edades
Tabla de Distribución por edades
 
Ensayos de hipótesis de una y dos colas con medias y proporciones
Ensayos de hipótesis de una y dos colas con medias y proporcionesEnsayos de hipótesis de una y dos colas con medias y proporciones
Ensayos de hipótesis de una y dos colas con medias y proporciones
 
Importancia de los estados financieros y su aplicación
Importancia de los estados financieros y su aplicaciónImportancia de los estados financieros y su aplicación
Importancia de los estados financieros y su aplicación
 
Ensayo y mapa conceptual de distribuciones muestrales
Ensayo y mapa conceptual de distribuciones muestralesEnsayo y mapa conceptual de distribuciones muestrales
Ensayo y mapa conceptual de distribuciones muestrales
 

Similaire à Apuntes de estadística escolarizado

Primer trabajo tecnologia 2021
Primer trabajo tecnologia 2021Primer trabajo tecnologia 2021
Primer trabajo tecnologia 2021marianapalacio13
 
Primer trabajo tecnologia 2021 (1)
Primer trabajo tecnologia 2021 (1)Primer trabajo tecnologia 2021 (1)
Primer trabajo tecnologia 2021 (1)marianapalacio13
 
Conceptos_basicos_de_estadistica.pdf
Conceptos_basicos_de_estadistica.pdfConceptos_basicos_de_estadistica.pdf
Conceptos_basicos_de_estadistica.pdfGladysMagalyDeLenGme
 
08 01-2021 2.1. conceptos de estadística y su clasificación
08 01-2021 2.1. conceptos de estadística y su clasificación08 01-2021 2.1. conceptos de estadística y su clasificación
08 01-2021 2.1. conceptos de estadística y su clasificación570727
 
estadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdf
estadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdfestadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdf
estadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdfSistemadeEstudiosMed
 
Bioestadistica - Conceptos
Bioestadistica - ConceptosBioestadistica - Conceptos
Bioestadistica - ConceptosDavid Poleo
 
tecnologia11-6 Juan Sebastián Gonzalez liceo
tecnologia11-6 Juan Sebastián Gonzalez liceotecnologia11-6 Juan Sebastián Gonzalez liceo
tecnologia11-6 Juan Sebastián Gonzalez liceoSebastinOrdez4
 
SARA SOFIA PERDOMO OSORIO tecnologia116.pdf
SARA SOFIA PERDOMO OSORIO tecnologia116.pdfSARA SOFIA PERDOMO OSORIO tecnologia116.pdf
SARA SOFIA PERDOMO OSORIO tecnologia116.pdfsaraperdomo10
 
tecnologiasofia.añasco.lozano.mm116.docx
tecnologiasofia.añasco.lozano.mm116.docxtecnologiasofia.añasco.lozano.mm116.docx
tecnologiasofia.añasco.lozano.mm116.docxSofiaAascolozano
 
tecnologia trabajo sobre excel avanzado método estadístico
tecnologia trabajo sobre excel avanzado método estadísticotecnologia trabajo sobre excel avanzado método estadístico
tecnologia trabajo sobre excel avanzado método estadísticojuliana280780
 
tecnologia116.docx TRABAJO COLABORTIVO PRIMNER
tecnologia116.docx TRABAJO COLABORTIVO PRIMNERtecnologia116.docx TRABAJO COLABORTIVO PRIMNER
tecnologia116.docx TRABAJO COLABORTIVO PRIMNERedepmariaordonez
 
Conceptos Básicos de la Estadística.ppt
Conceptos Básicos de la Estadística.pptConceptos Básicos de la Estadística.ppt
Conceptos Básicos de la Estadística.pptClorymar Parra
 

Similaire à Apuntes de estadística escolarizado (20)

Primer trabajo tecnologia 2021
Primer trabajo tecnologia 2021Primer trabajo tecnologia 2021
Primer trabajo tecnologia 2021
 
Primer trabajo tecnologia 2021 (1)
Primer trabajo tecnologia 2021 (1)Primer trabajo tecnologia 2021 (1)
Primer trabajo tecnologia 2021 (1)
 
Conceptos_basicos_de_estadistica.pdf
Conceptos_basicos_de_estadistica.pdfConceptos_basicos_de_estadistica.pdf
Conceptos_basicos_de_estadistica.pdf
 
Pg 33-38 taller.pdf
Pg 33-38 taller.pdfPg 33-38 taller.pdf
Pg 33-38 taller.pdf
 
08 01-2021 2.1. conceptos de estadística y su clasificación
08 01-2021 2.1. conceptos de estadística y su clasificación08 01-2021 2.1. conceptos de estadística y su clasificación
08 01-2021 2.1. conceptos de estadística y su clasificación
 
estadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdf
estadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdfestadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdf
estadistica MATERIAL PRODUCIDO EN ESTADISTICA.pdf
 
Metodos estadisticos
Metodos estadisticosMetodos estadisticos
Metodos estadisticos
 
Bioestadistica - Conceptos
Bioestadistica - ConceptosBioestadistica - Conceptos
Bioestadistica - Conceptos
 
Tarea de tecnologia
Tarea de tecnologiaTarea de tecnologia
Tarea de tecnologia
 
Tarea de tecnologia
Tarea de tecnologiaTarea de tecnologia
Tarea de tecnologia
 
tecnologia11-6 Juan Sebastián Gonzalez liceo
tecnologia11-6 Juan Sebastián Gonzalez liceotecnologia11-6 Juan Sebastián Gonzalez liceo
tecnologia11-6 Juan Sebastián Gonzalez liceo
 
SARA SOFIA PERDOMO OSORIO tecnologia116.pdf
SARA SOFIA PERDOMO OSORIO tecnologia116.pdfSARA SOFIA PERDOMO OSORIO tecnologia116.pdf
SARA SOFIA PERDOMO OSORIO tecnologia116.pdf
 
tecnologiasofia.añasco.lozano.mm116.docx
tecnologiasofia.añasco.lozano.mm116.docxtecnologiasofia.añasco.lozano.mm116.docx
tecnologiasofia.añasco.lozano.mm116.docx
 
tecnologia trabajo sobre excel avanzado método estadístico
tecnologia trabajo sobre excel avanzado método estadísticotecnologia trabajo sobre excel avanzado método estadístico
tecnologia trabajo sobre excel avanzado método estadístico
 
tecnologia116.docx TRABAJO COLABORTIVO PRIMNER
tecnologia116.docx TRABAJO COLABORTIVO PRIMNERtecnologia116.docx TRABAJO COLABORTIVO PRIMNER
tecnologia116.docx TRABAJO COLABORTIVO PRIMNER
 
La estadistica
La estadistica La estadistica
La estadistica
 
Tarea de tecnologia (1)
Tarea de tecnologia (1)Tarea de tecnologia (1)
Tarea de tecnologia (1)
 
Tarea de tecnologia (1)
Tarea de tecnologia (1)Tarea de tecnologia (1)
Tarea de tecnologia (1)
 
Conceptos.ppt
Conceptos.pptConceptos.ppt
Conceptos.ppt
 
Conceptos Básicos de la Estadística.ppt
Conceptos Básicos de la Estadística.pptConceptos Básicos de la Estadística.ppt
Conceptos Básicos de la Estadística.ppt
 

Dernier

4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTESaraNolasco4
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfssuser50d1252
 
05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdfRAMON EUSTAQUIO CARO BAYONA
 
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsxJuanpm27
 
DETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORDETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORGonella
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfDaniel Ángel Corral de la Mata, Ph.D.
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024gharce
 
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfMapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfvictorbeltuce
 
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfssuser50d1252
 
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxSIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxLudy Ventocilla Napanga
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxEribertoPerezRamirez
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
Fisiologia.Articular. 3 Kapandji.6a.Ed.pdf
Fisiologia.Articular. 3 Kapandji.6a.Ed.pdfFisiologia.Articular. 3 Kapandji.6a.Ed.pdf
Fisiologia.Articular. 3 Kapandji.6a.Ed.pdfcoloncopias5
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressionsConsueloSantana3
 

Dernier (20)

4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
 
TL/CNL – 2.ª FASE .
TL/CNL – 2.ª FASE                       .TL/CNL – 2.ª FASE                       .
TL/CNL – 2.ª FASE .
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf
 
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
3. Pedagogía de la Educación: Como objeto de la didáctica.ppsx
 
DETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORDETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIOR
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdfMapa Mental de estrategias de articulación de las areas curriculares.pdf
Mapa Mental de estrategias de articulación de las areas curriculares.pdf
 
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdfFichas de matemática DE PRIMERO DE SECUNDARIA.pdf
Fichas de matemática DE PRIMERO DE SECUNDARIA.pdf
 
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxSIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
Fisiologia.Articular. 3 Kapandji.6a.Ed.pdf
Fisiologia.Articular. 3 Kapandji.6a.Ed.pdfFisiologia.Articular. 3 Kapandji.6a.Ed.pdf
Fisiologia.Articular. 3 Kapandji.6a.Ed.pdf
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressions
 

Apuntes de estadística escolarizado

  • 1. SISTEMA NACIONAL DE EDUCACIÓN SUPERIOR TECNOLOGICA DIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR TECNOLÓGICA INSTITUTO TECNOLÓGICO DE LA ZONA MAYA INGENIERIA EN AGRONOMIA APUNTES DE ESTADÍSTICA Turno escolarizado (Clave AGM-0614) Presenta: MC. VICTOR FRANCISCO DÍAZ ECHEVERRÍA ENERO 2011 UNIDAD I: Fundamentos 1.1 Estadística
  • 2. La estadística se utiliza en diversas disciplinas socioeconómicas y científicas como, la industria, la política, la ganadería, la agricultura, la medicina, la sociología, los negocios, la educación, la sicología y la economía entre otras. Por ejemplo para tratar de predecir el resultado de una elección nacional, los encuestadores entrevistan a un número predeterminado de personas en todo el país y registran sus preferencias. Sobre la base de esta información se construye una predicción. La estadística también es utilizada en estudios de mercado, para determinar que porcentaje de los consumidores prefieren X o Y marca de leche pasteurizada. En sociología puede utilizarse para determinar que proporción de las casas rurales cuentan con electricidad. 1.1.1 Incertidumbre En las actividades productivas o en los hechos cotidianos de la vida diaria, nos encontramos con una multitud de datos que colectamos, los cuales tenemos que organizar e interpretar, presentándolos en una forma reducida y entendible. En otras ocasiones nuestro interés es sacar conclusiones con respecto a un conjunto de datos grandes (población) de la cual se toma una muestra (una parte de la población). Para ello es indispensable contar con una herramienta de trabajo que facilite la toma de datos, su análisis y las conclusiones que se pueden sacar de ellos. Esa herramienta es la estadística. 1.1.2 Método científico La investigación científica consiste en la búsqueda permanente de la verdad por métodos objetivos, adecuados y precisos. La experimentación es un método científico de investigación que consiste en hacer operaciones y practicas destinadas a demostrar, comprobar y descubrir fenómenos o principios básicos. La experimentación en las ciencias biológicas, en particular comprende las pruebas, ensayos, observaciones, análisis o estudio practico de todo cuanto interesa a esta disciplina. El desarrollo agrícola de un país se basa en las investigaciones que se realizan en ese campo, valiéndose de la experimentación. Cualquier modalidad en las técnicas de cultivo, al introducirse por primera vez a una región, se necesita de la experimentación para poder adaptarlo y divulgarlo entre los agricultores. Estos se deben a que las condiciones de clima y suelo varían en cada región, estación y año. Para el aprovechamiento óptimo de los recursos disponibles, los experimentos se deben diseñar de acuerdo con los principios estadísticos que permitan al investigador llegar a conclusiones correctas acerca de un problema específico. Los investigadores y estadísticos deben planear los experimentos conjuntamente. Para ello el estadístico debe tener un criterio práctico y el investigador un criterio estadístico, pues la estadística es uno de los elementos básicos de la experimentación agrícola, ya que mediante ella se puede obtener algunas conclusiones acerca de problemas específicos de las ciencias agrícolas 1.2 Conceptos generales La estadística es la ciencia que trata de las técnicas para colectar, organizar, presentar y analizar datos, tanto para la deducción de conclusiones, como para tomar decisiones razonables de acuerdo con tales análisis. La base matemática de esta herramienta descansa en la teoría de la probabilidad. Cuando los datos que se están analizando provienen de las ciencias biológicas y la medicina, como es el caso de la agronomía, se utiliza el termino Bioestadística. Su principal diferencia con
  • 3. las demás ciencias, es que analiza datos provenientes de seres vivos, los cuales sufren alteraciones a lo largo del desarrollo de su vida en periodos que pueden ser muy cortos. 1.2.1 Estadística La estadística puede dividirse en dos partes: el análisis de datos descriptivo o deductivo y el análisis de datos inductivo o inferencial. La estadística descriptiva o deductiva, es la parte de la estadística que trata solamente de describir y analizar un grupo de datos sin sacar conclusiones o inferencias de los mismos o de un grupo mayor. En esta parte esta la descripción tabular o frecuencia de los datos, las medidas de tendencia central y de dispersión de los datos (varianza) y la probabilidad. La estadística Inductiva o Inferencial, es la parte de la estadística que se encarga de hacer inferencias o sacar conclusiones validas de un conjunto de datos a partir del análisis de una muestra de esos datos. Ósea trata de tomar decisiones, cuando se tiene solo una parte de los datos examinados. Sus principales medidas, son la hipótesis estadística, el análisis de varianza, la regresión y la correlación de los datos. 1.2.2 Población y parámetro Una población es cualquier colección entera de personas, animales, plantas o cosas de las cuales podríamos recolectar datos. Es el grupo entero que nos interesa, el cual deseamos describir o sobre cuál deseamos establecer conclusiones. Por los tanto la población es un conjunto de todas las mediciones o datos de interés, que son factibles de muestrease. Por ejemplo en el caso de la encuesta para determinar los resultados de una elección nacional, la población son todos los habitantes del país mayores de 18 años y que tiene derechos e identificación para votar. Un parámetro es un valor desconocido y por lo tanto tiene que ser estimado. Los parámetros se utilizan para representar una determinada característica de la población. Por ejemplo la media poblacional es un parámetro que normalmente se utiliza para indicar el valor medio de una cantidad. Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra tomada de la población tiene su propio valor de cualquier estadística que se utilice para estimar este parámetro. 1.2.3 Muestra y estimador Una muestra es un subconjunto de las mediciones seleccionadas de la población de interés. En el caso de la elección nacional, la muestra la representan todos los ciudadanos de diferentes estados a los cuales se le aplico la encuesta de preferencia. La palabra estimación significa estimar, o sea darle un valor a algo. Una estimación estadística es una indicación de valor de una cantidad desconocida basada en datos observados. Más formalmente, una estimación es el valor particular de un estimador que es obtenido de una muestra particular de datos y que es utilizado para indicar el valor de un parámetro. Por ejemplo, suponga que los órganos electorales del país desean saber el valor de promedio de los ciudadanos que votan por estado. Para ello tendrían que utilizar todos los datos de todos los estados (miles de datos) de las personas que votaron en las últimas elecciones; es decir, la media de la poblacional, que en este caso se llamaría parámetro. En lugar de esto, el órgano electoral podría utilizar una estimación de la media poblacional, calculando la media de una muestra representativa de ciudadanos. Si se encontrara que el valor fue 17,000 personas, estos 17,000 votos serian su estimación o su estimador. Es decir un estimador es un valor calculado de una muestra y no de una población.
  • 4. 1.3 Ejercicios de aprendizaje Ejercicio 1. Con un compañero de clase lee perfectamente el texto de la primera unidad y contesta el siguiente cuestionario: 1. Describe cual es la rama de estudio de la estadística 2. Menciona mínimo cuatro disciplinas de las ciencias actuales en las que se utilice la estadística 3. Describe por que la estadística es un elemento básico de la experimentación agrícola 4. Describe por que es importante la investigación agrícola en el desarrollo de nuestro Estado 5. Cual es la diferencia entre la estadística y la bioestadística 6. Describe cual es la diferencia entre la estadística descriptiva y la estadística inferencial 7. En la siguiente descripción de una problemática agropecuaria señala los valores que describen a una población y sus parámetros; y los valores que describen a la muestra y sus estimadores El rancho Tres Gavilanes el mes pasado peso el total de sus 1220 borregas de pie de cría de las cuales obtuvo una media de 42.7 kilogramos con una varianza de 3.4 y una desviación estándar de 1.84 kilos, con los cuales se calculo un coeficiente de variación de 7.96%. En días pasados la Asociación Estatal de Productores Ovinos solicito los valores de peso de las borregas del rancho, dado que era imposible volverlas a pesar, se tomo al azar un grupo de 250 borregas cuya media fue 40.9 kilogramos con una varianza de 2.8 y una desviación estándar de 1,67, de los cuales se calculo un coeficiente de variación de 3.91%. Indica cual es: El tamaño de la población _____________________________________________________ Los valores de los parámetros de la población ______________________________________ ___________________________________________________________________________ El tamaño de la muestra _______________________________________________________ Los valores de los estimadores de la muestra_______________________________________ ___________________________________________________________________________ 1.4 Ejercicios para evaluación Tomando como base la información anterior y con investigación realizada en la biblioteca e Internet realiza un trabajo individual (no pueden existir dos trabajos iguales) de mínimo hoja y media tamaño carta con letra Times New Roman 12, con interlineado mínimo. En el que se describa ejemplos prácticos de la utilización y utilidad de la estadística en la agricultura, la ganadería y la actividad forestal. Mínimo un ejemplo por cada actividad productiva. En ejemplo debe de indicarse cual es una población, cual es la muestra, cuales son los parámetros y cuales son los indicadores (mínimo, 1 de agricultura, 1 de ganadería y 1 de producción forestal). UNIDAD II: Estadística descriptiva 2.1 Introducción
  • 5. La colección o toma de datos, es la obtención de los mismos sin que hallan sido ordenados numéricamente. Existen muchas maneras de ordenar y presentar un conjunto de datos, que permitan su interpretación de una manera fácil de entender. Como es el caso de los cuadros, graficas, figuras, histogramas y polígonos de frecuencia. La caracterización de los datos también puede ser presentando varios números como resumen. En particular nos interesa un número que localice el centro y una medida de amplitud de las observaciones. Como es el caso de la media aritmética, la mediana, la desviación media, varianza, desviación estándar, coeficiente de variación y rango. 1.2 Medidas de tendencia central para datos agrupados y no agrupados. Las medidas de centralización más comunes son: la media aritmética o simplemente media, la mediana, la moda. Cada una de ellas tiene sus ventajas e inconvenientes dependiendo de los resultados que se pretenden obtener de los datos. 1.2.1 Media La media es la medida de tendencia central de uso más común en la estadística. Cuando se trabaja con poblaciones completas a las medias se les denomina parámetros. Cuando se trabaja solo una muestra de la población se les denomina estimadores. La formula de la media aritmética es: X = ∑ Xi /N X = media ∑ Xi = indica la suma de cada uno de los valores que toma la variable X N = numero de observaciones o datos que se tiene en total Ejemplo: Calcular la media aritmética para el tamaño de camada de cinco marranas No de marrana 1 2 3 4 5 Tamaño de camada 8 7 6 11 10 X = ∑ Xi /N = 8 + 7 + 6 + 11 + 10 / 5 = 8.4 2.2.2 Mediana La mediana es el valor o la media aritmética de dos de los valores medios de una colección de datos ordenados en orden creciente o decreciente. Ejemplo 1: La mediana de los siguientes datos 10, 8, 14, 22, 33, 19, 9, 25, 44 sería: 8, 9, 10, 14, *19 * 22, 25, 33, 44. O sea es el numero 19 Ejemplo 2: Cuando el número de datos es par, se determina la media de ambos valores centrales, como en el caso de los siguientes números: 3, 9, 5, 11, 23, 17, 18, 29, 40, 24. La mediana sería: 3, 5, 9, 11 *17, 18*, 23, 24, 29, 40. dado que son dos valores centrales se determina (17 + 18) / 2 = 17.5 2.2.3 Moda La moda es aquel valor que se presenta con mayor frecuencia en un conjunto de datos.
  • 6. Ejemplo. La moda para el siguiente conjunto de números ( 2, 4, 17, 12, 14, 23, 12, 13, 18, 12, 17) sería el 12, dado que es el valor que se representa con mayor frecuencia, en este caso aparece 3 veces. La moda para los siguiente datos (3, 7, 23, 11, 18, 11, 44, 22, 9, 11, 22, 15, 22, 15) sería los números 11 y 22, dado que son los valores que se representa más veces y con igual frecuencia. 2.3 Medidas de dispersión para datos agrupados y no agrupados El grado en que los datos numéricos tienden a extenderse alrededor de un valor medio, se le llama variación o dispersión de los datos. Dos o más conjuntos de datos pueden tener la misma media, pero la dispersión de sus valores alrededor de su valor medio puede ser diferente. 8, 8, 9, 10, 11, 12, 12 X = 10 5, 6, 8, 10, 12, 14, 15 X = 10 1, 2, 5, 10, 15, 18, 19 X = 10 Obsérvese que existe una mayor variación en el segundo y tercer conjunto de datos que en el primero, aunque la medias sea las mismas. Las medidas de dispersión mas usadas son la desviación media, la varianza, la desviación estándar, el coeficiente de variación y el rango. 2.3.1 Varianza La varianza de un conjunto de datos es igual al promedio de las desviaciones, de los datos con respecto a su media, elevados al cuadrado. Se denomina S2 y se calcula por: ∑ (X1 – X) 2 2 S = ---------------- N–1 Ejemplo: Para calcular la varianza del peso de un grupo de pollos de 1 semana de edad. Peso gr. Desviación (X1 – X) (X1 – X) 2 163 163 – 161.4 = 1.6 2.56 152 152 – 161.4 = -9.4 88.36 178 178 – 161.4 = 16.6 275.56 149 149 – 161.4 = -12.4 153.76 171 171 – 161.4 = 9.6 92.16 162 162 – 161.4 = 0.6 0.36 168 168 – 161.4 = 6.6 43.56 148 148 – 161.4 = -13.4 179.56 156 156 – 161.4 = -5.4 29.16 167 167 – 161.4 = 5.6 31.36 Media 161.4 ∑ 896.40 ∑ (X1 – X) 2 896.40
  • 7. S2 = ---------------- = ------------ = 99.6 N–1 10 - 1 2.3.2 Desviación estándar o desviación típica La desviación típica de un conjunto de datos es la raíz cuadrada de la varianza, se representa por (S) o por (DE) y se calcula por: ∑ (X1 – X) 2 DE = √ ---------------- o simplemente DE = √ S2 N-1 Tomando los datos del ejemplo anterior, donde se calculo la varianza de 10 pollos de una semana de edad, se tendría una desviación típica de: DE = √ S2 = √ 99.6 = 9.98 2.3.3 Coeficiente de variación Es una medida de dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar (DE) del conjunto de datos entre su media aritmética, el resultado es expresado en porcentaje y de calculad por la siguiente formula. DE CV = ------- x 100 X El coeficiente de variación para el ejemplo anterior donde DE = 9.979 y X = 161.4 sería: DE 9.979 CV = ------- x 100 = ---------- x 100 = 6.18 % de variación X 161.4 Para el ejemplo del peso de los pollos, si se quiere describir los datos se diría, que tienen una media de 161.4 Kg. una desviación estándar de 9.98 grs. y una variación del 6.18 %. El coeficiente de variación es la medida de dispersión mas adecuada para compara la variabilidad de dos conjuntos de datos, pues es una medida independiente de las unidades de medición, dado que se mide en las unidades originales. Esto es de suma importancia en la investigación, donde se tienen datos previos de otros experimentos, pues el CV se usa para comparar los datos obtenidos con los CV de los experimentos anteriores. Ejemplo: Las medias y desviación estándar para los pesos al destete e intervalos entre partos de un grupo de 50 vacas suizas fueron: X DE Pesos al destete 184.2 19.3 Intervalo entre partos 461.7 93.7 Calcula los coeficientes de variación y determina que característica productiva es mas variable.
  • 8. CV Peso al destete = DE / X x 100 = 19.3 / 184.2 x 100 = 10.48 % CV Intervalo entre partos = DE / X x 100 = 93.7 / 461.7 x 100 = 20.29 % Comparando los coeficientes de variación, es posible decir que el intervalo entre partos es una característica mas variable que el peso el destete. 2.3.4 Rango Es la medida de dispersión mas simple. El rango se obtiene de la diferencia entre las observaciones de mayor y menor valor numérico en un conjunto o serie de datos. Ejemplos: 8, 8, 9, 10, 11, 12, 12 X = 10 Rango = 12 – 8 = 4 5, 6, 8, 10, 12, 14, 15 X = 10 Rango = 15 – 5 = 10 1, 2, 5, 10, 15, 18, 19 X = 10 Rango = 19 – 1 = 18 La ventaja de esta medida de dispersión es la facilidad con que se calcula. Su desventaja es que intervienen solo 2 números del conjunto de datos. Por otra parte al aumentar el número de observaciones aumenta la variabilidad. Así mismo tiene la desventaja de que no se puede utilizar para comparar 2 grupos de observaciones, amenos que tengan el mismo tamaño. 2.4 Organización y presentación de datos Existen muchas maneras de ordenar y presentar un conjunto de datos, que permitan su interpretación de una manera fácil de entender. Como es el caso de los cuadros, graficas, figuras, histogramas y polígonos de frecuencia. Uno de los mas fáciles de usar y mas socorridos en la estadística, es el cuadro de frecuencia o distribución de frecuencia, que permite distribuir un conjunto de datos en clases o categorías y la determinación del numero de datos pertinentes en cada clase. Ejemplo: Se desea representar en una tabla de distribución de frecuencia, la altura de 50 plantas de cedro después de un año de siembra en invernadero, como indicativo de su crecimiento bajo condiciones controladas. Los datos de crecimiento en centímetros se contemplan en el cuadro siguiente y se detallan los pasos para la obtención de la tabla de distribución de frecuencia. 164 170 160 179 182 168 181 181 162 170 165 184 175 168 182 175 182 160 163 171 166 160 176 180 163 176 184 161 166 172 181 166 177 166 161 175 183 163 165 173 175 179 178 184 166 178 183 167 166 174 1) Se determinan los valores mayor y menor del conjunto de datos (160 y 184) 2) Se determina el Rango de los datos, restando al valor mayor el valor menor (184 – 160 = 24) 3) Se divide el rango en un número conveniente de intervalos de clase del mismo tamaño. Se puede fijar arbitrariamente entre 4 y 12 intervalos de clase o usar la formula K = 1 + 3.332 + log N, donde K es el numero de intervalos de clase y N el total de datos que se tienen. En este ejemplo se toman arbitrariamente 5 intervalos de clase, los cuales quedarían de la siguiente manera:
  • 9. 160 – 164 ← Intervalo de clase 165 – 169 170 – 174 (los extremos de un intervalo de clase se conocen como limites de clase, en este caso 175 – 179 son los valores 160 y 164) 180 - 184 4) Se determina el numero de datos que caen dentro de cada intervalo de clase y se calcula la frecuencia relativa, multiplicando el valor de cada intervalo por 100 y dividido entre N (es este caso N = 50) Altura (cm) Numero de plantas Frecuencia relativa 160 – 164 llllllllll = 10 20 % 165 – 169 lllllllllll = 11 22 % 170 – 174 llllll =6 12 % 175 – 179 lllllllllll = 11 22 % 180 – 184 llllllllllll = 12 24 % Total = 50 100 % Cálculos: 10 x 100 /50 = 20 % 11 x 100 /50 = 22 % 6 x 100 /50 = 12 % 11 x 100 /50 = 22 % 12 x 100 /50 = 24 % Una ves ordenados los datos y determinado el numero de observaciones por cada intervalo de clase, estos también pueden ser presentados en diferentes tipos de graficas. Entre las mas utilizadas se encuentran las graficas de líneas, graficas de barras y graficas de pastel o circulares entre otras. Como se ejemplifica a continuación Distribuciòn de frecuencias para plantas de cedro 14 12 10 8 Serie1 6 4 2 0 160 – 164 165 – 169 170 – 174 175 – 179 180 – 184
  • 10. Distribucion de fecuencia para plantas de cedro 12 10 8 Numero de 6 datos 4 Serie1 2 0 160 – 165 – 170 – 175 – 180 – 164 169 174 179 184 Intervalos de clase Distribucion de fecuencia para plantas de cedro 160 – 164 165 – 169 170 – 174 175 – 179 180 – 184 2. 5 Ejercicios de aprendizaje Ejercicio 1. En hojas blancas de manera manual, con la ayuda de la calculadora y posteriormente en el programa computarizado Excel, realiza los siguientes ejercicios. a) Un granjero tomo la ganancia de peso de una parvada de pavos después de 8 semanas de ceba, cuyos datos están expresados en kilogramos. Determinar la media aritmética, medina, moda, varianza, desviación estándar y coeficiente de variación. 3.2 4.8 5.7 4.3 6.7 4.7 4.6 5.2 3.9 5.2 3.9 3.9 4.6 4.7 3.8 5.0 3.5 4.9 4.8 4.7 5.2 4.6 3.6 5.2 5.1 4.9 b) En una granja avícola se de una muestra de dos parvadas de pollos de engorda de diferentes razas Playmonth Rock y Sacijall, cuyos pesos al final de la engorda se dan a continuación. Se
  • 11. desea determinar la media aritmética, medina, moda, varianza, desviación estándar y coeficiente de variación. Además saber cual parvada es mas uniforme, con la finalidad de elegir una raza para explotarse en la región. Playmonth 1.2 1.3 1.7 2.2 1.5 1.9 1.7 1.8 2.2 2.0 1.4 1.5 Sacijall 1.5 1.9 2.0 1.8 1.9 1.6 1.9 1.8 1.0 1.7 1.6 1.8 c) Se han obtenido los pesos al destete de un lote de 50 lechones de una piara comercial, los cuales se desean expresar en una tabla de distribución de frecuencia. Realiza dicha tabla para: Obtener los intervalos de clase Calcular las frecuencias relativas 5.00 5.20 5.40 5.60 5.80 6.00 6.20 6.40 6.60 6.80 7.00 7.20 7.40 5.19 5.39 5.59 5.79 5.99 6.19 6.39 6.59 6.79 6.99 7.19 7.39 7.59 5.10 5.30 5.50 5.70 5.90 6.10 6.30 6.50 6.70 6.90 7.10 7.30 5.29 5.49 5.69 5.89 6.09 6.29 6.49 6.69 6.89 7.09 7.29 7.49 Posteriormente en el programa computarizado excell, representa los datos en graficas de líneas, barras y circulares. UNIDAD III. Introducción a la probabilidad 3.1 Conceptos
  • 12. La estadística descriptiva trabaja con todos los individuos de una población. La estadística inferencias trabaja con muestras o subconjuntos formados por algunos individuos de esa población. A partir del estudio de la muestra se pretende inferir (determinar) aspectos relevantes de toda la población. Es decir el trabajo de la estadística inferencial, no solo consiste en reunir y tabular los datos, sino que este es un proceso de interpretación de la información. Donde lo fundamental es comprobar la validez (fiabilidad) de esas interpretaciones o inferencias estadísticas. En tal sentido la probabilidad es el fundamento de la estadística inductiva. 3.1.1 Probabilidad La probabilidad es la rama de las matemáticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que ocurra un determinado suceso o evento. El calculo matemático de la probabilidad se basa en situaciones teóricas en las cuales se determina un espacio muestreal cuyos sucesos elementales o eventos tengan todos la misma probabilidad de ocurrir. Donde el espacio muestreal es el conjunto de todos los posibles resultados. 3.1.2 – 3.1.3 Eventos – Espacio muestral Si un evento (E) puede tener n resultados igualmente posibles (h) de los cuales tienen el atributo E, se dice entonces que la probabilidad de ocurrencia de E es la fracción h/n y se denota mediante la formula: P(E) = h/n P = Probabilidad E = Evento del que se quiere calcular la probabilidad h = Numero de elementos que tiene el atributo n = numero total de elementos o espacio muestreal En estos casos la probabilidad de un resultado se representa con un número entre 0 y 1. Donde la probabilidad 0 indica que el resultado nunca ocurrirá y la probabilidad 1 que el resultado ocurrirá siempre. Matemáticamente puede representarse como 0 ≥ P(E) ≤ 1. Este tipo de probabilidad suele llamarse probabilidad a priori, por que se puede calcular antes de realizar el evento. También puede calcularse la probabilidad de no ocurrencia del suceso o atributo (no E). Llamando su no ocurrencia y se representa como q y se simboliza matemáticamente como: q=1–P q = no ocurrencia del suceso 1 = probabilidad total P = probabilidad del suceso Así pues: P (E) + P (no E) = 1 o P+q=1 Ejemplo 1: Sea E el suceso de que aparezcan los números 2 o 6 en el lanzamiento de un dado: Espacio muestral = existen seis casos o resultados que pueden presentarse, los números 1, 2, 3, 4, 5, y 6, todos con igual posibilidad. Evento = que se presente el 2 o el 6
  • 13. Probabilidad: P (E) = h / n = 2 / 6 = 1/ 3 = 0.3333 No probabilidad: q (E) = 1 – h / n = 1 – 1/3 = 2 / 3 = 0.6666 Ejemplo 2: Cuál es la probabilidad de obtener un número impar en el lanzamiento de un dado. Sabiendo que el dado tiene 3 números impares. Evento: Sea E el suceso de que aparezcan los números 1, 3 o 5, de seis resultados posibles Probabilidad: P (E) = h / n = 3 / 6 = 1/ 2 = 0.5 No probabilidad: q (E) = 1 – h / n = 1 – 1/ 2 = 0.5 3.1.4 Probabilidad como frecuencia relativa Otra forma de estimar la probabilidad es calcularla como una medida de frecuencia relativa de ocurrencia de un evento casual. Por ejemplo una manera de calcular la probabilidad de tener un parto gemelar de una borrega, es consultar el registro de partos gemelares en borregas del mismo hato. Ejemplo 1: En un hato de borregas gestantes, de los últimos 10 partos 8 han sido gemelares. Cuál es la probabilidad de obtener gemelos en el parto siguiente. Cual es la probabilidad de que el parto sea simple. Probabilidad de parto gemelar: P = h / n = 8 / 10 = 0.8 No probabilidad de parto gemelar (simple): q = 1 – h / n = 1 – 0.8 = 0.2 Ejemplo 2: En los últimos 35 partos de una granja de cerdos, 20 marranas han parido camadas superiores a los 10 cerditos. Cuál es la probabilidad de que el siguiente parto sea superior a los 10 cerditos, Cuál es la probabilidad de que el siguiente parto sea inferior a los 10 cerditos, Cuál es la frecuencia relativa de marranas con mas de 10 cerditos por parto. Probabilidad: P = h / n = 20 / 35 = 0.57 No probabilidad: q = 1 – h / n = 1 – 0.57 = 0.43 Frecuencia relativa = 20 / 35 x 100 = 57.14 % 3.2 Variables aleatorias Una población es un conjunto de individuos o elementos que estamos interesados en estudiar. Esa población puede ser finita o infinita. El conjunto de todos los números positivos es un ejemplo de una población infinita, mientras que el conjunto del número de plantas en un vivero es un ejemplo de una población finita. Expresiones tales como la vaca tiene 3 crías o las piñas pesan 2 kilos, son comunes e informativas. Esas expresiones se refieren a rasgos productivos que no son constantes, sino que varían de un individuo a otro y por lo tanto sirve para distinguir o describir.
  • 14. Las características o rasgos que muestran variabilidad se les llaman variables. Por ejemplo el peso al nacer, la altura de las plantas de maíz, el tamaño de la camada, entre otras. Estas variables se representan normalmente con la letra (x, y, w, z). Las variables de acuerdo con su cantidad numérica se pueden clasificar en: 3.2.1 Variables discretas Es la variables que solo puede tomar un numero finito o numerable de valores. Los ejemplos de variables discretas son, el tamaño de la camada, el número de frutos de una planta, el numero de servicios por concepción, entre otros. 3.2.2 Variables continuas Es la variable que teóricamente puede tomar cualquier valor entre dos valores dados. Los ejemplo de variables continuas son los pesos al nacer, las alturas de las plantas o los animales, los intervalos entre partos, los días de crecimiento de una planta para el cultivo, entre otras. 3.2.3 Constantes Si una variable puede tomar solamente un valor se le llama Constante, por ejemplo la temperatura corporal normal de los animales homeotermos o el promedio de altura de una población. 3.2.4 Variables Binomiales Son un caso particular de las variables discretas, pues son aquellas variables que solo pueden tener dos resultados, Los ejemplos de la variables binomiales son la sobre vivencia (vivo o muerto), el estado reproductivo (gestante o vacía), la preferencia (si o no) En general las medidas dan origen a datos continuos, mientras que las numeraciones o conteos originan datos discretos, donde un dato es el valor que puede tomar una variable. 3.2.5 Muestras aleatorias En algunas ocasiones las poblaciones de datos son inaccesibles o muy grandes para ser trabajadas en su totalidad. En consecuencia se estudian muestras (subconjuntos de la población) que en caso de ser aleatorias permite realizar estimaciones tanto de la población como de los parámetros estadísticos de esta. Una muestra aleatoria es una muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra. En este caso la variable aleatoria es un numero real perfectamente definido asociado a cada punto muestreal. Es decir las variables aleatorias permiten definir la probabilidad como una función numérica (variable real) en lugar de una función de conjuntos. 3.3 Distribuciones de probabilidad La asociación de cada uno de los resultados posibles de un evento con su probabilidad de ocurrencia se llama distribución de la probabilidad. Ejemplo: Al lanzar dos dados la suma de ambos puede asumir 11 valores diferentes en 36 puntos muéstrales 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
  • 15. En este caso vemos que la distribución de p(x) obtenida es simétrica. El valor de 36 representa el espacio muestreal o total de la población (N), en la cual X representa una variable aleatoria discreta, que en este caso puede tener 11 valores distintos (del 2 al 12), cada valor tiene una probabilidad de ocurrencia (p) y de no ocurrencia (q). Ambos valores siempre suman 1 (p + q = 1). Por lo tanto la distribución de probabilidad es un modelo matemático que asocia los valores de una variable aleatoria con su respectiva probabilidad Probabilidad de X = Función p + q = 1 En caso de la producción agropecuaria, cualquier muestreo aleatorio o proceso donde se calcula la probabilidad, la unión de cada evento con su valor de probabilidad se llama distribución de la probabilidad. En la distribución de la probabilidad la unión de los eventos con su valor de probabilidad toma forma de campana. Punto medio X r N = tamaño de la población (36 posibilidades) P 0.160 P = probabilidad q = no probabilidad Ocurrencia r = tamaño de la muestra o veces que se lanza el del evento 6 P 0.013 P 0.013 dado 5 4 P 0.011 P 0.011 P 0.083 3 P 0.083 2 P 0.05 N P 0.05 1 P 0.027 P 0.027 2 3 4 5 6 7 8 9 10 11 12 Suma de puntos Cada evento o muestra (r) tiene su valor de probabilidad (p) y de no probabilidad (q) con valores independientes del otro evento. El valor de mayor probabilidad es la media o punto de la campana. A medida que nos alejamos de la media en ambos sentidos el valor de la probabilidad disminuye. La suma de las probabilidades de todos los eventos (N) siempre tiene que sumar 1 o 100%.
  • 16. Por lo tanto, se la media (X) es el valor de mayor probabilidad, las pedidas de dispersión como la varianza (S2) y desviación estándar (DE) pueden servirnos para saber cuanta probabilidad perdemos o ganamos a medida que la muestra (r) se aleja o acerca de la media, en ambos sentidos de la campana Cada espacio muestral o población tiene su propia distribución de probabilidad (forma y tipo de la campana que forman sus datos) de acuerdo con sus características de tamaño y tipo de variable, las más comunes son: a) Distribución binomial: Si en cada prueba la variable o muestra (r) en un número indeterminado de eventos (0-1000) solo puede tener dos resultados (positivo o negativo) independientes del evento anterior, con un valor de probabilidad constante (p = 0.5) (q = 0.5) la distribución se conoce como binomial. b) Distribución de Poisson: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero limitado de eventos (tiempo-espacio) la distribución se conoce como “Distribución de Poisson”. c) Distribución normal Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes (> 30) la distribución se conoce como Distribución Normal o Distribución de Z.. d) Distribución de T: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes (< 30) la distribución se conoce como Distribución del T de Studen o Distribución para muestras pequeñas. e) Distribución de Ji cuadrada: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes, que se comparan con valores de probabilidad esperada o conocida, la distribución se conoce como Distribución de Ji-cuadrada. f) Distribución de F: Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes, cuya frecuencia es acumulativa y puede compararse con la frecuencia acumulativa de otros eventos, la distribución se conoce como Distribución de F. En general cuando se conoce el tipo de distribución, el tamaño de la población (N), el tamaño de la muestra (r o k), la probabilidad de ocurrencia (p) o de no ocurrencia (q), se puede estimar con cierta facilidad una serie de valores de X evento de la población a los cuales se les conoce como inferencias. Cada distribución tiene sus formulas matemáticas para estimar los valores de probabilidad o sus parámetros estadísticos, como la media, varianza y desviación típica, conocido como estadístico de prueba o prueba estadística. Esta probabilidad también puede ser estimada con el uso de tablas de probabilidad de las cuales existe una para cada tipo de distribución, en las cuales se necesita conocer los valores antes mencionados. Se asume que mientras mas veces se repita un evento (tamaño de la muestra) mayor debe ser la exactitud de su calculo de probabilidad
  • 17. 3.3.1 Binomial Supongamos que un experimento aleatorio tiene las siguientes características: En cada prueba del experimento sólo son posibles dos resultados: el suceso p (éxito) y su contrario q (fracaso).El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. La probabilidad del suceso es constante y representamos por p, y no varía de una prueba a otra. La no probabilidad es 1- p y la representamos por q. El experimento consta de un número n de pruebas. Todo experimento que tenga estas características diremos que sigue el modelo de la distribución binomial. A la variable X que expresa el número de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial. La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4,..., n suponiendo que se han realizado n pruebas. La distribución binomial se suele representar por B (n, p) siendo n y p los parámetros de dicha distribución. Los parámetros de la distribución binomial puede calcularse por: Sea X una variable aleatoria discreta correspondiente a una distribución binomial. Ejemplo 1: En un vivero forestal se sabe que por cada 1000 plantas que se producen, 7 salen infectadas de hongos patógenos. Que probabilidad existe que al escoger 50 plantas para sembrar en un terreno libre del hongo solo una planta salga infectada. Primero se calculo los valores de probabilidad: Probabilidad de que las plantas estén infectadas: P = h / n = 7 / 1000 = 0.007 No probabilidad de que las plantas estén infectadas: q = 1 – h / n = 1 – 0.007 = 0.993 Solución: Se trata de una distribución binomial de parámetros B (n=50, p=0.007) y debemos calcular la probabilidad p (X=1). P ﴾X = 1) (n k ) p k * q n-k = (50 1 ) 0.007 1 x 0.993 49 = 0.00496 Existe 0.496 % de probabilidad de escoger una planta con hongos.
  • 18. Los parámetros de esas 50 plantas se puede calcular con: X = n * p = 50 x 0.007 = 0.35 S2 = n * p * q = 50 x 0.007 x 0.993 = 0.347 DE = √ n*p*q = √ 0.347 = 0.589 (Media, varianza y desviación estándar de plantas infectadas por cada 50) Ejemplo 2: La probabilidad de éxito de la vacuna contra la influenza aviar es de 0.72. Calcula la probabilidad de que una vez administrada a 15 animales: a) ninguno sufra la enfermedad, b) todos sufran la enfermedad, c) dos de ellos contraigan la enfermedad Calculo los valores de probabilidad: Probabilidad de éxito de la vacuna = 0.72 No probabilidad de éxito de la vacuna: q = 1 – h / n = 1 – 0.72 = 0.28 Solución: Se trata de una distribución binomial de parámetros B (15, 0.72) De 15 vacunados todos sana “no infectados” De 15 vacunados todos se enferman “ninguno sana” De 15 vacunados 13 sanan y 2 se enferman Ejemplo 3: La probabilidad de que un fruto de chile habanero este infectado con picudo es del 4%. Un productor realiza en su cultivo un muestreo aleatorio de 1000 frutos, para tratar de determinar los indicadores de cuantos frutos infectados tendría por cada embarque de su producto. a) Hallar la media (χ) del número de frutos infectados en un corte de 1000 frutos b) La varianza (S2) y la desviación estándar (DE) de la muestra. Solución: χ = n * p = 1000 * 0.04 = 40 frutos S2 = n * p * q = 1000 * 0.04 * 0.96 = 38.4 DE = √ n * p * q = √ 38.4 = 6.19 Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo. Ejemplo 4: Cual es la probabilidad de obtener dos crías machos en una marrana que parió 6 crías. K = 2 n = 6 p = 0.5 (Utilizar las tablas de distribución binomial que se encuentran en los anexos 1, 2 3) 3.3.2 Poisson El modelo de distribución de Poisson sirve para calcular sucesos o variables que su ocurrencia esta limitada a un intervalo, pudiendo ser tiempo, área o longitud.
  • 19. Por ejemplo: El número de fallas (evento) de un tractor en una semana (intervalo) El numero de bacterias (evento) por milímetro cuadrado (intervalo). En otras palabras se trata de calcular la probabilidad de un evento, dado que su ocurrencia esta limitado a un intervalo. Los parámetros estadísticos de la distribución Poisson se pueden calcular por: Media = n * p Varianza = n * p * q ambas son equivalentes a λ n = total de ensayos p = probabilidad q = no probabilidad La probabilidad de Poisson puede calcularse por la formula λ = media de los éxitos por intervalo (esperados) x = fenómeno o variable a estimar e = probabilidad de ocurrencia En la práctica, la aproximación es muy buena cuando λ < 5, siendo n > 50 Ejemplo En 60 ensayos con p = 0.002 a) Calcular la media y la varianza b) Calcular P(5) a) media λ = np = 60 x 0.002 =0.12 varianza λ = npq = 60 x 0.002 x 0.998 = 0.12 b) p( 5) ( 0.125 x e-0.12) / 5! =1.84 x 10-7 3.3.3 Normal (o campana de Gauss-Laplace) La distribución normal es la que mas se usa en estadística por que mucho de los fenómenos biológicos de interés en las ciencias agropecuarias se distribuyen de esta manera. Como es el caso de los caracteres morfológicos de personas, animales y plantas de una especie, por ejemplo las alturas de una planta, el peso de los frutos o el peso de los animales, los diámetros o grososr de los tallos de las plantas entre otros, o los caracteres fisiológicos, por ejemplo el efecto de una misma dosis de un fármaco o de una misma cantidad de abono, sobre el peso de los frutos de una planta. Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de densidad que corresponde a tales distribuciones viene dado por la fórmula que se expresa en la figura siguiente.
  • 20. La distribución normal queda definida por dos parámetros, su media y su desviación típica y la representamos así Representación gráfica de esta función de densidad A-B Muchas variables biológicas aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. La localización del centro de la curva es la media (X o µ) y la cantidad de joroba observada depende del tamaño de la varianza (S2 o σ 2). El área bajo la curva es igual a 1 por lo que se puede obtener el valor de la probabilidad de los eventos contenidos en ella. La distribución normal permite calcular la probabilidad de un grupo de resultados (muestra) mas que la probabilidad de un determinado resultado. La distribución normal se utiliza cuando el tamaño de la muestra es mayor a 30 observaciones (n > 30). En la práctica en vez utilizar la formula que describe la densidad de la curva, se utiliza una tabla (de Z) para obtener las probabilidades de una distribución normal o continua. En la cual lo esencia es saber a cuantas desviaciones estándar (DE) esta la muestra con respecto a la medía, considerando que: A-B Z es positiva cuado la media de la muestra (x) es mayor que la media general (µ) Z es negativa cuando la media de la muestra (x) es menor que la media general (µ) De µ a 0.05 DE en ambos lados de la campana esta el 68.0 % del área De µ a 1.0 DE en ambos lados de la campana esta el 95.0 % del área
  • 21. De µ a 1.5 DE en ambos lados de la campana esta el 99.90 % del área Como se muestra en la figura anterior. La distribución normal de la probabilidad de Z se conoce como distribución tipificada. Dado que su media es igual a cero (Zo) y su DE es 1. Por lo tanto, la manera mas fácil de encontrar una probabilidad (área) entre el intervalo A – B con un número especifico de desviaciones estándar (DE o σ) a partir de la media general, es mediante la utilización de la tabla de Z. Si se conoce el valor de Z o numero de Desviaciones Estándar (DE) se puede calcular el valor de probabilidad área de la campana y esta representa un porcentaje de la población. Ejemplo 1: Sabemos que 0.68 del área se encuentra dentro de 1 DE a partir de la media, 0.95 del área dentro de 2 DE y casi toda el área dentro de 3 DE. Qué fracción del área total se encuentra entre la media (Zo) y 0.7 DE (Z = 0.7) Solución Buscar en la tabla de Z (anexo 4) el valor para la fracción 0.7 DE. Observe que el valor de Z, hasta el décimo más cercano se encuentra en la columna de la izquierda. La segunda cifra decimal de Z correspondiente al centésimo, se da en la fila superior. Así el área entre la media y el punto situado a Z = 0.7 DE a la derecha de la tabla es 0.2580. Similarmente el área entre la media (Z0) y Z = 1.0 es de 0.3413, por lo tanto el área que se encuentra dentro de 1 DE en ambos lados de la media es dos veces 0.3413 o sea 0.6828 El área que se encuentra dentro de 2 DE a partir de la media es de 0.4772. Si se quiere el valor en ambos lados de la grafica es 0.9544. Estos números proporcionan los valores aproximados de 68 y 95 % supuestos en la regla de distribución empírica Para encontrar un área de Z = 0.57 DE a la derecha de la media (Z0), en la columna de la izquierda buscamos la fila que tiene el valor 5, luego en la fila superior buscamos la columna que tiene el valor 0.07. La unión de las filas nos da el área aproximada de 0.2157. En algunas ocasiones se tiene que hallar áreas de Z que no parte de la media (Z0) y pueden abarcar un solo lado de la media o ambos lados de la misma, por lo tanto la forma de calcular el área se modifica como se ejemplifica a continuación: Ejemplo 2. Hallar el área que se encuentra entre 1.63 DE (Z=1.63) y 1.88 DE (Z=1.88) Solución: Primeramente se hallan en la tabla los valores de Z=1.63 y Z=1.88 Z=1.63 en la tabla tiene una probabilidad de 0.4484 Z=1.88 en la tabla tiene una probabilidad de 0.4699 Como ambos valores de Z están por encima de la media (+) al mayor valor de Z (1.88) que dio 0.4699 se le resta el menor valor de Z (1.63) que dio 0.4484, por lo tanto el valor de z que se encuentra entre esas DE se puede calcular por: Z = 0.4699 – 0.4484 Z = 0.0125 Ejemplo 3. Hallar el área que se encuentra entre -0.50 DE (Z= -0.50) y 1.00 DE (Z=1.00) Solución: Primeramente se hallan en la tabla los valores de Z= -0.50 y Z=1.00
  • 22. Z=0.50 en la tabla tiene una probabilidad de 0.1915 Z=1.00 en la tabla tiene una probabilidad de 0.3413 En este caso un valore de Z están por encima de la media (+) y el otro por debajo de la misma (-), por lo tanto el valor de Z (0.50) que dio 0.1915 se suma al valor de Z (1.00) que dio 0.3413, por lo que el valor de z que se encuentra entre esas DE se puede calcular por: Z = 0.1915 – 0.3413 Z = 0.5320 En algunos casos no se tienen los valores de Z, pero estos se puede calcular utilizando los datos tomados de la población y la muestra tomada de la misma, utilizando la formula: X - µ Z = ------------- (pudiendo ser cualquier valor entre 0.01 y 3.0 DE) DE (σ) X = media de la muestra µ = media general DE (σ) = desviación estándar 3.3.3.1 Distribución muestral de medias Cuando se trata de muestras de una población los valores de µ y DE (σ) para la muestra se pueden calcular por N–n µx = µ DE (σ) x = DE (σ)/√N * √ ----------- n-1 Ejemplo: 500 lechones tiene un peso medio de 5.02 Kg. y una DE de 0.30 Kg. Hallar la probabilidad de que una muestra al azar de 100 lechones tanga una media comprendida entre 4.96 y 5.00 Kg. y exprésalo como % de probabilidad Datos población Datos de la muestra µ = 5.02 X; Z1 = 4.96 y Z2 = 5.00 σ = 0.30 DE = ¿? N = 500 n = 100 Solución µx = µ µ = 5.02 Para poder aplicar la formula de Z se necesita la DE de la muestra, y no se tiene, por lo tanto se tiene que calcular por la formula: N–n 500 - 100 DE(σ)x = DE(σ)/√ N * √ ---------- = 0.30/ √ 500 * √ -------------- = 0.0134 * 2.010 = 0.027 n–1 100 – 1 Se busca los valores de Z para 4.96 y 5.00
  • 23. X - µ 4.96 – 5.02 Z (4.96) = ----------- = --------------- = - 2.22 DE (σ) 0.027 X - µ 5.00 – 5.02 Z (5.00 ) = ----------- = --------------- = - 0.74 DE(σ) 0.027 La probabilidad pedida esta entre Z = - 2.22 y Z = - 0.74 El área entre Z = -2.22 y Z = 0 es 0.4868 El área entre Z = -0.74 y Z = 0 es 0.2704 El área pedida es de 0.4868 – 0.2704 = 0.2164 Por lo tanto la probabilidad de que la muestra de 100 lechones tenga una media entre 4.96 y 5.00 es de 0.2164 en porcentaje (0.2164 x 100) es de 21.64 % de probabilidad. 3.4 Ejercicios de aprendizaje Ejercicio 1. (25 minutos) En equipos de trabajo, lee cuidadosamente los conceptos y ejercicios del subtema de conceptos de probabilidad que se encuentran en los apuntes de la unidad III para determinar los siguientes conceptos y preguntas: a) Cual es el campo de estudio de la estadística inferencial y como influye la probabilidad en él. b) Que es la probabilidad c) Cual es la formula desglosada de la probabilidad y que valores puede tener d) Cual es la formula desglosada de la probabilidad de no ocurrencia e) Como se calcula la probabilidad como frecuencia relativa Ejercicio 2. (25 minutos) Con los juegos de azar proporcionados por el instructor realiza uno de los siguientes ejercicios a) Utiliza la formulas de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos: E1) La probabilidad de sacar un as en una sola extracción de un manojo de cartas E2) La probabilidad de sacar el as de corazones rojo de un manojo de cartas E3) La probabilidad de sacar un carta con corazón rojo de un manojo de cartas b) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos: E1) La probabilidad de que te toque tomar en un solo lanzamiento de una pirinola E2) La probabilidad de que te toque poner en el lanzamiento de una pirinola E3) La probabilidad de que te caiga toma todo en el lanzamiento de una pirinola
  • 24. c) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos: E1) La probabilidad de que te caiga un número par en un solo lanzamiento de un dado E2) La probabilidad de que no te caiga un número par en un solo lanzamiento de un dado E3) La probabilidad de que te caiga el número 6 en un solo lanzamiento de un dado d) Anota la pizarra las formulas y los resultados obtenidos en cada evento calculado, explicándole a tus compañeros como se obtuvieron (10 minutos por cada equipo de trabajo). Ejercicio 3. (30 minutos) En equipos de trabajo de 5 o 6 integrantes, lee cuidadosamente los conceptos y ejercicios que se encuentran en los apuntes de la unidad III en los subtemas de variables y distribución de la probabilidad para determinar los siguientes conceptos y preguntas: a) Que es una variable aleatoria y como se representa b) De acuerdo con su valor numérico que es una variable discreta c) De acuerdo con su valor numérico que es una variable continua d) Menciona dos ejemplos que no estén en los apuntes de variables binomiales e) Que es una muestra aleatoria y cuando se utiliza f) Por que una variable aleatoria permite definir la probabilidad de ocurrencia g) Que es la distribución de la probabilidad Ejercicio 4. (30 minutos) Con el auxilio de los apuntes de los subtemas de distribución de la probabilidad determina cual es el tamaño de la población o espacio muestreal que existe en el lanzamiento de dos dados numéricos, que valores puede tomar la suma o combinación de una cara de cada dado en un lanzamiento (la cual se conoce como variable aleatoria discreta) y cual es el valor de ocurrencia (p) y no ocurrencia (q) de cada variable aleatoria. Ejercicio 5. (60 minutos) a) Con los dados proporcionados por el instructor realiza (Equipo 1: 75 lanzamientos, Equipo 2: 100 lanzamientos, Equipo 3: 125 lanzamientos y Equipo 4: 150 lanzamientos) y a anota en la tabla cada uno de los resultados obtenidos. Suma veces que cayo Total 2 3 4 5 6 7 8 9 10 11 12 b) Con los resultados de total de veces de cada variable (suma de los números) realiza un grafica de puntos para representar la probabilidad de cada ocurrencia de cada valor. c) Contesta las siguientes interrogantes:
  • 25. Que nombre la darías el punto medio de la gráfica Que sucede con la probabilidad a medida que se acerca o aleja el valor del punto medio Como medirías o que valor le darías a la cercanía o lejanía de un valor de su punto medio Ejercicio 6. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) Supongamos que en un tanque de nitrógeno líquido se tienen 15 dosis de semen en buenas condiciones y 4 dosis caducas. Cual es la probabilidad de sacar 1 dosis de semen buena y cuales la probabilidad de sacar una dosis de semen caduca. b) La probabilidad de éxito (efectividad) de un nuevo insecticida orgánico a base extracto del árbol de nin para combatir la mosca blanca es 0.83. Calcula la probabilidad de que una vez administrada a un lote de injertos de naranja que consta de 20 plantas a) Ninguna sufra ataques de la plaga b) Todas las plantas sean afectadas por la plaga, c) Solo el 50% sea afectada por la plaga d) Determina la media del número de plantas infectadas e) Determina la varianza del número de plantas infectadas e) Determina la desviación estándar del número de plantas infectadas c) Da 10 ejemplos de variables continuas, 5 ejemplos de variables discretas y 5 ejemplos de variables binomiales. d) Encontrar un área entre Z = 0 y Z = 1.63 DE Encontrar un área entre Z = 0 y Z = 1.88 DE Encontrar un área entre Z = 0 y Z = 2.57 DE Encontrar un área entre Z = 1.83 y Z = 1.98 DE Encontrar un área entre Z = -1.45 y Z = 1.67 DE e) Marca John Deer asegura que el rendimiento de sus tractores de inyección electrónica fue de 25.5 Km./litro de disel, cuando realizo pruebas en las últimas 750 unidades producidas. Si los productores del ingenio azucarero adquieren 50 unidades con el fin de optimizar el uso de combustible en sus cultivos, ¿Qué % de los tractores crees que tengan un rendimiento de 27 Km./litro de disel. UNIDAD IV. Estimación
  • 26. 4.1 Hipótesis estadística A menudo se tiene que tomar decisiones sobre una población partiendo de información procedente de una muestra de la misma. Ejemplos: Si se quiere saber si un fertilizante es mejor que otro en el cultivo de chile habanero. Si existen diferencias en el peso al destete de dos razas de cerdos. Si el rendimiento de una Ha. de caña en Sac-Xan es igual o superior a la producción media de la región. Para tomar tales decisiones sin que se estudie o analice toda la población “es conveniente hacer determinados supuestos o enunciados a cerca de las poblaciones que se estudian”.Tales supuestos se llaman hipótesis estadísticas y pueden ser ciertas o no. Existen 2 tipos de hipótesis estadísticas: 4.1.1 Hipótesis nula (Ho) Las hipótesis nulas afirman que no hay diferencias estadísticas de la muestra y el parámetro de la población o que no hay diferencias entre dos muestras de los fenómenos (tratamientos) en estudio. 4.1.2 Hipótesis alternativa (Ha) Las hipótesis alternativas afirman que existen diferencias entre la muestra y la población o que existen diferencias entre dos tratamientos. Ejemplo 1: Se cree que la longitud dorsal de la abeja europea es de 30 mm. Se captura un enjambre de abejas en Limones y se obtiene una media de 20 mm de longitud dorsal. Para saber si las abejas que se capturaron en el municipio son europeas o africanizadas, en términos estadísticos las hipótesis serían: Ho: La medida de longitud dorsal obtenida de la muestra (20 mm) es igual a la medida de las abejas europeas (30 mm) Ha: La medida de longitud dorsal obtenida de la muestra es diferente a la medida de las abejas europeas. Ejemplo 2. El promedio de peso al destete del ganado Brahmán en un rancho es de 210 Kg. y el promedio del Indobrasil es de 190 Kg. Existen diferencias entre el peso al destete de estas dos razas o la diferencia se debe a errores de muestreo. En términos estadísticos las hipótesis serían: Ho: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es igual al peso al destete del ganado Brahmán (210 Kg.) Ha: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es mayor que el del Brahmán (210 Kg.). El procedimiento que facilita decidir si esas hipótesis son ciertas o falsas (se aceptan o se rechazan) o el determinar si lo observado es diferentes a los resultados esperados se llaman “ensayos de hipótesis” o reglas de decisión. Para que un ensayo de hipótesis sea correcto, debe diseñarse de forma que minimice los errores de decisión.
  • 27. 4.2 Tipos de errores El ensayo de hipótesis esta sujeto a dos tipos de errores que son predominantes en cualquier problema de decisión, en el que hay dos elecciones posibles. Podemos rechazar la hipótesis nula cuando en realidad es verdadera, o podemos aceptar la hipótesis nula cuando en realidad es falsa. Estos errores se llaman de tipo I y tipo II, respectivamente.. 4.2.1 Error tipo I Si rechaza una hipótesis cuando debería aceptarse se conoce como error tipo I 4.2.2 Error Tipo II Si acepta una hipótesis cuando debería rechazarse se conoce como error tipo II La probabilidad máxima en la cual se puede cometer un error tipo I en una prueba se llama nivel de significancía del ensayo y se interpreta como la probabilidad del que el estadístico de prueba este en la zona de rechazo de la hipótesis alterna. La forma de representarla es α. El valor de significancia mas utilizado es el de 0.05 (α = 0.05) (P<0.05). Tal expresión significa que la probabilidad de cometer un error tipo I es de 5% e indican que si la probabilidad de es mayor de 5% se debe aceptar la hipótesis nula. La probabilidad de cometer un error tipo II se conoce como beta y se representa por B, y se interpreta como la probabilidad de que el estadístico de prueba este entre la zona de aceptación de la hipótesis alterna. El valor de significancia mas utilizada para B es el de 95% (B = 0.95) o (P>0.05). Tal expresión significa que la probabilidad de cometer un error tipo II es de 95% e indican que si la probabilidad de es mayor o igual a 95%, se debe aceptar la hipótesis alterna. Asumiendo que la hipótesis nula (Ho) es verdadera, un aumento de α significa una disminución en B. Es decir, si aumenta la probabilidad de α disminuye la de B. La única forma de reducir al mismo tiempo ambos errores de decisión es aumentar el tamaño de la muestra. Esto puede ser posible o no. En la practica los valores de α se pueden encontrar tabulados en la mayoría de los libros de estadística. Generalmente existe una tabla para cada tipo de prueba estadística. Los contenidos de las tablas se denominan valor tabular o valor de tabla. 4.3 Procedimientos para las pruebas de hipótesis de una población La aceptación o rechazo de la hipótesis (Ho) se basa en estadísticos de prueba. Los más usados son: La prueba de T de Student, la prueba de Ji cuadrada y la prueba de F. Si el valor calculado para el estadístico de prueba es mayor que el valor de tabla se rechaza la hipótesis nula y se acepta la hipótesis alterna. Ejemplo: Cuando Tc >Tt se rechaza Ho. O cuando Tc<Tt se acepta Ho. 4.3.1 Para la media – 4.3.2 Para la varianza – 4.3.3 Para la proporción – 4.4 Intervalo de confianza de una población – 4.4.1 Para la media – 4.4.2 Para la varianza – 4.4.3 Para la proporción Generalmente los estadísticos de prueba se utilizan para compara los estadísticos de una población con los valores estadísticos de las muestras extraídas de la misma, con la finalidad de
  • 28. determinar si la muestra pertenece o no a la población en estudio. Algunos de los procedimientos utilizados de describen a continuación. 4.3.1.1 Prueba de T de Student Se utiliza para comparar la media de una muestra contra un valor hipotético. Se usa para comparar dos medias muéstrales. Se utiliza cuando el tamaño de la muestra es menor a 30 observaciones (n < 30). La T de Student utiliza el Error Estándar (EE) en ves de la varianza (S 2) para calcular la probabilidad de muestras pequeñas. 4.3.1.2 Comparación de una media con un valor hipotético La prueba de T para comparar una media de una muestra con la media de una población, esta dada por la formula: X -µ T = ----------- (EE = S2/√n) X = media de la muestra µ = media de la población S2 = Varianza de la muestra EE = Error estándar de la muestra t En este caso de esta interesado en preguntar si una población tiene o no una media específica. Ejemplo1: La familiaridad con los pesos del ganado en la región nos lleva a pesar que la media de peso a los 210 días de destete es de 180 Kg. Se pesan 25 becerros cebú y se obtiene una media de 210 Kg. con una varianza de 35 Kg. La hipótesis que se quiere probar es que la muestra de los becerros es igual al peso promedio de la región. Es decir: Ho: El peso de la muestra (210) es igual al valor regional (180) Ha: El peso de la muestra es diferente al valor regional Las hipótesis señalan que se trata de una prueba de T de dos colas Si el valor de Tc es mayor que el valor de Tt se rechaza la hipótesis nula y se acepta la Ha.
  • 29. X -µ 210 – 180 30 T = ----------- = ----------- = -------- = 4.285 S2/√n 35/√25 7 El valor de Tt se buscar con n-1 grados de libertad (GL) y α (Anexo 5) GL = 25 -1 = 24 α = 0.05 Se busca en la tabla de T (a dos colas) y equivale a 2.064 Dado que 4.285 es mayor que 2.064 se rechaza la Ho y se concluye que la muestra pertenece a una población diferente a la regional. Esta prueba garantiza que los resultados son reales y las diferencias no se deben al azar. “Cabe mencionar que el interés fue determinar si habían o no diferencias entre los dos valores, por eso se utilizo una prueba de dos colas (ambos lados de la media). Ejemplo 2: Un investigador tiene razón suficiente para pensar que el aprovechamiento del silo de maíz en borregos es del 54%. Realiza una prueba con un lote de 7 borregos y obtiene los siguientes datos: Borrego % aprovechamiento 1 57.8 2 56.2 3 61.9 4 54.6 5 53.6 6 56.4 7 53.2 El investigador quiere probar la hipótesis del que el aprovechamiento de los borregos utilizados es mejor de lo que se espera (54%) Ha: El aprovechamiento del silo de maíz es superior al 54% (prueba de T de una cola) Con un α = 0.05 Los datos arrojan que los borregos de la prueba tuvieron una X = 56.24, con una S 2 = 8.89 (sacados en la calculadora) EE = S/√n = 8.89/√7 = 3.367 56.24 -54.00 Tc = --------------- = 0.665 3.367 La Tt se busca con 6 GL y α 0.05 tomando los valores de significancia en la base de la tabla (una cola) el valor es 1.943. Dado que Tc < Tt se acepta la Ho y se concluye que los borregos tuvieron un igual aprovechamiento de la media poblacional.
  • 30. 4.3.1.2 Comparación de dos medias muéstrales Supongamos que se tiene dos poblaciones con medias X 1 y X2. A continuación se toma una muestra aleatoria de cada población para probar que ambas son iguales. La Ho que define esta diferencia entre medias se esquematiza, Ho: X 1 = X2 y se prueba utilizando la formula: χ1 - χ2 Tc = ------------ donde: S χ1 - χ2 = EE (Error Estándar de la diferencia entre las medias) S χ1 - χ2 En este caso ambas muestras tiene una media y varianza definida, y debe calcularse una varianza común, denominada Error Estándar de diferencia entre las medias (EE). El calculo de la varianza común (EE) es el primer paso a realizarse en cual quier prueba de T, donde se comparan dos medias muéstrales. Dado que existe una serie de condicionantes de las muestras que pueden hacer variara la formula para su calculo. La formula a utilizar depende de:. Si las dos muestras tienen una varianza común (iguales estadísticamente hablando) Si los valores de la varianza son conocidos o estimados Si las dos muestras son del mismo tamaño Si las observaciones son pareadas 4.3.1.2.1 Prueba de homogeneidad para determinar si las muestras tiene varianza común El primer paso es determinar si las varianzas son iguales. Una forma práctica y fácil de determinar si las dos varianzas son iguales es a través del uso de la prueba de F, mediante el siguiente procedimiento: Se calcula la varianza de cada muestra en la calculadora tomando el total de datos de cada muestra y utilizando la función estadística de la misma. Posteriormente se calcula el valor de F dividiendo la varianza mayor entre la varianza menor (Fc= S21/S22 ) y el resultado se compara con el valor de F que se encuentra en las tablas (Ft) proporcionadas en los anexos de estos apuntes.. El valor de F tabulada se obtiene con los grados de libertad (gl = n 1-1) de la varianza mayor en la parte de arriba de la tabla y los grados de libertad (gl = n 2-1) de la varianza menor en la parte lateral izquierda de la tabla (Anexos 6, 7, 8, 9 y 10). Posteriormente se utiliza los siguientes criterios: Si el valor de F calculada (Fc) es menor que (<) la F de tablas (Ft) las varianzas comparadas son iguales o comunes. Si el valor de F calculada (Fc) es mayor que (>) la F de tablas (Ft) las varianzas comparadas son diferentes o no comunes. 4.3.1.2.2 Determinación del número de observaciones. De acuerdo con el número de observaciones de cada muestra, se pueden presentar dos casos: Caso 1: n1 = n2. (muestras con igual numero de observaciones tomadas en cada la población) Caso 2: n1 ≠ n2. (muestras con desigual número de observaciones tomadas en cada población) Con ambos factores se determina que tipos de formula utilizar para cada problema o pruebas de T especificas, tiendo en cuanta que X1 y X2 son medias de dos poblaciones independientes, donde
  • 31. se han toma una muestra de cada una y se obtiene sus medias χ1 - χ2, varianza S1 – S2 y tamaño de muestra n1 – n2 y se desea probar la Ho: X 1 = X2, suponiendo que las poblaciones se distribuyen normalmente y tiene un varianza común pero desconocidas, pueden encontrarse los siguientes casos para calcular los valores de la formula: 4.3.1. 2.3 Muestras con iguales varianzas e igual numero de observaciones Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas χ1 - χ2 Tc = ------------ EE SC χ1 + SC χ2 EE = √ 2S /n 2 donde 2 S = --------------------- N-2 S2 = Varianza SCX = Suma de cuadrados de X N = Total de observaciones de las dos muestras Para obtener el valor de Tt se utilizan el nivel de significancia deseado (α. = 0.05) y GL sacado por N -2, es decir el total de las observaciones menos 2. La decisión de utilizar la tabla de t de una o dos colas depende de la hipótesis plateada. 4.3.1.2.4 Muestras con iguales varianzas y desigual numero de observaciones Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas χ1 - χ2 Tc = ------------ EE SC χ1 + SC χ2 EE = √ S (1/ n1 +1/ n2) donde 2 2 S = --------------------- N–2 Para obtener el valor de Tt se utilizan el nivel de significancia deseado (α. = 0.05) y GL sacado por N -2, es decir el total de las observaciones menos 2. La decisión de utilizar la tabla de t de una o dos colas depende de la hipótesis plateada. 4.3.1.2.5 Muestras independientes de varianza desigual (Heterogéneas) Cuando se realiza la prueba de F y las varianzas no son iguales (S 1 ≠ S2) y se quiere probar la hipótesis de que X1 = X2, la forma de calcular Tc y Tt cambian a: χ1 - χ2 Tc = ------------ EE El EE se calcula por: EE = √ S21/n1 + S22/n2
  • 32. En este caso no hay necesidad de calcular una varianza común, dado que resulto que las varianzas son desiguales e independientes, por lo que S 21 y S22 se toman directamente de los datos utilizando la calculadora. Sin embargo, para obtener la Tt, se tienen que obtener los grados de libertad efectivos (GL) para ambas muestras mediante la formula: (S1/n1 + S2/n2)2 GL = --------------------------------------------- { (S21/n1)2/n1-1 } + { (S22/n2)2/n2-1 } El α. = 0.05 Ejemplo 1. En un experimento con 22 plantas. Se probaron dos hormonas de crecimiento, la Adenotropa (A) y la Corticotropa (C). 11 plantas recibieron la hormona A y 11 plantas la hormona C. Los efectos se midieron pesando las plantas después de 15 días de aplicación. La hipótesis planteada es que las hormonas producen iguales efectos. Ho: No existen diferencias en el crecimiento de la plantas por efecto del tipo de hormona Los resultados fueron los siguientes: HormonaA 57 120 101 137 119 117 104 73 53 68 118 HormonaC 89 30 82 50 39 22 57 32 96 31 88 Cálculos necesarios Hormona A Hormona C χ 97 χ 56 ∑χ 1067 ∑χ 616 ∑χ2 111971 ∑χ2 42244 S 29.106 S 27.83 S2 847.2 S2 774.8 N 11 N 11 (∑χ)2/n (1067)2/11 = 103499 (∑χ)2/n 34496 SCχ = ∑χ2 - (∑χ)2/n 111971–103499 = 8474 SCχ= ∑χ2 - (∑χ)2/n 42444– 4496 = 7948 1. Se toman de los valores de las varianzas de la calculadora).. S2 A = 847.2 S2 C = 774.8 2. Se realiza la prueba de homogeneidad de las varianzas Fc = S21/S22 = 847.2 / 774.8 = 1.093 Ft = 10 GL en el numerador y 10 GL en el denominador, a un α = 0.05 Ft = 2.97
  • 33. Dado que Fc (1.093) < Ft (2.097) se acepta la Ho de que las varianzas son iguales. 3. Se calcula el EE de la diferencia entre medias En este caso la varianza común (S21 = S22) con igual numero de observaciones (n1 = n2) EE = √ 2S2/n SC χ1 + SC χ2 8,474 + 7,948 16,220 2 S = --------------------- = ------------------- = -------------- = 811.0 N–2 22 – 2 20 EE = √ 2S2/n = √2 (811.0)/22 = 12.14 4. Se calcula T χ1 - χ2 97 – 56 41 Tc = ------------------- = ------------------ = -------------- = 3.38 EE = √ 2S2/n √2 (811.0)/22 12.14 5. Se determina Tt Tt se busca con 20 GL (N – 2) y α = 0.05 (tabla de dos colas) Tt = 2.086 Dado que Tc (3.38) > Tt (2.086) se rechaza la hipótesis nula y se concluye que existen diferencias en el peso de las plantas por efecto de las hormonas. Donde la hormona A da un peso superior a la hormona C. 4.3.1.2.6 Calculo de T con tratamientos pareados Esta distribución se utiliza cuando los tratamientos por comparar son muy heterogéneos y hay similitud entre las observaciones contiguas o están correlacionadas. Esta prueba trata de eliminar errores de observaciones o fuentes de variación por falta de tiempo o espacio para hacer determinado experimento. Ejemplo 1. En un estudio con Leucaena se compararon dos variedades durante 9 años. En cada año se sembraron las variedades peruana (P) y Leucocephala (L) y se obtuvieron los resultados de forraje verde en ton/ha. La hipótesis planteada es que la diferencia promedio de ambos variedades es igual Ho: No existen diferencias en el rendimiento de la leucaena por efecto de la variedad (µd = 0) Ha Existen diferencias en el rendimiento de la leucaena por efecto de la variedad (µd ≠ 0) Resultados de dos variedades de Leucaena por 9 años variedades Diferencia Año P L Di 1992 71.0 54.7 16.3 1993 73.9 60.6 13.3
  • 34. 1994 48.9 45.1 3.8 1995 78.9 71.0 7.9 1996 43.5 40.9 2.6 1997 47.9 45.4 2.5 1998 63.0 53.4 9.6 1999 48.4 41.2 7.2 2000 48.1 44.8 3.3 Cálculos (di) χd 7.38 ∑χd 66.5 ∑χ2d 687.33 Sd 4.95 S2d 24.49 Nd 9 (∑d)2/n (66.5)2/9 = 491.36 ∑d2 - ( ( ∑d)2 /n ) 687.3 – 491.36 195.97 2 S d = -------------------------- = ---------------------- = -------------- = 24.5 N–1 9–1 8 EE = √ S2/n = √ 24.5/9 = 1.663 χd 7.38 Tc = --------- = ----------- = 4.48 EE 1.663 Tt se busca con 8 GL (N – 1) y α = 0.05; Tt = 2.306 Dado que Tc (4.48) > Tt (2.306) rechazamos la hipótesis Ho y concluimos que las variedades son diferentes. Donde la variedad peruana es mejor que la leucocephala. 4.4 Prueba de Ji cuadrada (para intervalos de confianza de una población) La distribución de Ji cuadrada se utiliza cuando se quiere comparar la media de una población observada con su valor esperado de probabilidad. Muchas veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 machos y 50 hembras del nacimiento de 100 becerros, es raro que se obtengan exactamente estos resultados. Cuando se desea determinar si las frecuencias observadas difieren significativamente de las esperadas se utiliza el estadístico de prueba Ji cuadrada. Este estadístico da una medida de la discrepancia existente entre las frecuencias observadas y esperadas. (O j - E j)2 Chi (X2) = ∑ ------------------ Ej
  • 35. Donde O j es la frecuencia observada y E j es la esperada en la celda j. Si la X 2 = 0, la frecuencias observadas y esperadas concuerdan exactamente; mientras que si X2>0, no coinciden exactamente. A valores mayores de X2 mayores son las discrepancias entre las frecuencias observadas y esperadas. Nota: Al igual que la distribución de t, la distribución de Ji cuadrada se calcula por el número de desviaciones independientes, es decir por los grados de libertad. El número de grados de libertad de un estadístico se define como el tamaño de la muestra menos el número de los parámetros de la población que deben estimarse a partir de las observaciones de la muestra. Se simboliza Gl (Gl = t – 1) y se buscan en el anexo 11 Ejemplo 1. Se desea determinar si se cumplen las leyes de la herencia mendeliana para la característica del cuello desnudo en un lote de 200 pollitos, resultado del cruzamiento de un gallo cuello desnudo (Nana) y gallinas (Nana) heterocigotos (no puros). De acuerdo con las leyes mendelianas la herencia debe de dar los resultados: NaNa = pollo cuello desnudo Nana = pollo cuello desnudo nana = pollos sin cuello desnudo Ho: No existen diferencias entre los valores observados y los esperados (Ho = 0) Genotipo nana Nana NANA Observado 45 102 53 Esperado 50 100 50 (45 – 50) 2 (102 – 100) 2 (53 – 50) 2 52 22 -32 X2 c = -------------- + ----------------- + --------------- = ----- + ------ + ------ = 0.72 50 100 50 50 100 50 X2t = Gl (numero de clases – 1) y α → o sea 2 Gl (3 -1) y α = 0.05 (Anexo 11) Cuando las clases del valor esperado son mayor de 2, se multiplica el numero de columnas por el numero de filas a las que previamente se les resta uno, para sacar los grados de libertad (Gl = Columnas -1 * filas -1) Si la Xc > Xt rechazamos la Ho. Xc (0.72) < Xt (5.99) Conclusión: Por lo tanto aceptamos la hipótesis nula y se concluye que las frecuencias observadas están de acuerdo con las frecuencias esperadas de las leyes de Mendel. En algunas ocasiones la naturaleza de los trabajos no permite tener la seguridad de los valores esperados, por lo tanto estos deben ser calculados a través de los resultados de los valores observados.
  • 36. Ejemplo 2. Se desea determinar si el suero de inmunización del cólera porcino, es útil para curar la presencia de la enfermedad en cerdos de traspatio. Por lo tanto, a un grupo de animales se les inyecta el suero (grupo tratado) y al otro grupo agua destilada (grupo testigo). EfectividadSuer Testigo Total o Sanaron 75 25 100 No Sanaron 5 45 50 Total 80 70 150 A continuación se procede a calcular las frecuencias esperadas. La frecuencia esperada para la celda 1, se obtiene multiplicando los totales marginales y dividiendo el resultado entre el gran total. E1 = 100 * 80 / 150 = 53.33 Similarmente las frecuencias esperadas para las celdas 2, 3 y 4. E2 = 100 * 70 / 150 = 46.67 E3 = 50 * 80 / 150 = 26.67 E4 = 50 * 70 / 150 = 23.33 Entonces el valor de Chi – cuadrada se calcula como: (O j - E j)2 X = ∑ ------------------ 2 Ej (75 – 53.33) 2 (25 – 46.67) 2 (5 – 26.67) 2 (45 – 23.33) 2 2 X = ---------------- + ----------------- + ------------------ + ------------------- 53.33 46.67 26.67 23.33 X2 = 8.805 + 10.062 + 17.607 + 20.128 = 56.602 → X2c = 56.602 X2 t = Chi de tabla se busca con 1 Gl (2 columnas – 1) y α = 0.05; la cual resulta = 3.84 X2c (56.602) > X2t (3.84) por lo tanto se rechaza la hipótesis nula El porcentaje o proporciones de animales que sanaron con el suero = 75 / 80 * 100 = 93.75 % El porcentaje de sanos en el testigo = 25 / 70 * 100 = 35.71 % Conclusiones: Existen diferencias entre el grupo de animales tratados (93.75 % sanaron) y el grupo de animales testigos (35.71 %). Nota. Si la Ho no se hubiera rechazado, sería equivalente a afirmar que la recuperación es independiente del empleo del suero, es decir la clasificaciones son independientes. 4.5 Ejercicios de aprendizaje
  • 37. En parejas realiza los siguientes ejercicios Ejercicio 1. Contesta el siguiente cuestionario a) Cuando se deben formular una hipótesis estadística b) Que afirma estadísticamente una hipótesis nula c) Que afirma estadísticamente una hipótesis alternativa Ejercicio 2. Realiza el siguiente ejercicio Con las conclusiones sacadas del cuestionario anterior y tomando como base los ejemplos que se encuentran en los apuntes de la unidad IV, formula 5 hipótesis nulas y 5 hipótesis alternas, que estén relacionadas con el área agropecuario. Desde luego no pueden ser las mismas de los apuntes. Ejercicio 3. Contesta el siguiente cuestionario a) Que es un ensayo o prueba de hipótesis b) Que tipos de errores se pueden cometer en un ensayo o prueba de hipótesis c) Que es un error tipo I d) Que es un error tipo II e) Que es el nivel de significancia, como se interpreta, como se representa y que nivel se utiliza. f) Como se conoce a la probabilidad de cometer un error tipo II, como se representa y que nivel se utiliza g) Donde y como se pueden encontrar los valores de alfa y beta de los diferentes tipos de ensayo de hipótesis h) Que es un estadístico de prueba i) Cuales son los estadísticos de prueba mas utilizados en el ámbito agropecuario j) Cuando se utiliza un estadístico de prueba Ejercicio 4. Realiza el siguiente formulario a) Cuales son las formulas de T de Studen para comparar una muestra con un valor hipotético o poblacional b) Cuales son las formulas de T de Studen para comparar dos medias muéstrales c) Cuales son la formulas de T de Studen para comparar dos tratamientos pareados d) Cuales son la formulas para comparar las medias de una población observada con un valor de probabilidad esperado o prueba de Ji cuadrada Ejercicio 5. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) El promedio de producción de leche en la región para vacas Suizo Cebú es de 4.75 litros por vaca por día. Se tomo en un rancho de la región 30 vacas elegidas al azar a las que se alimento con un suplemento a base de melaza, gallinaza, sorgo y sal mineral por un periodo de 30 días. Durante todo el periodo se midió la producción de leche y se saco el promedio de producción diaria para cada vaca. Realiza una prueba de T de Student para probar la siguiente hipótesis. Ha: Las suplementación mejora la producción diaria de leche en las vacas No de vaca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  • 38. Producción 7.5 8.0 5.0 4.0 2.0 5.0 8.9 7.6 9.1 8.0 5.2 6.3 4.2 5.0 6.1 No de vaca 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Producción 5.0 4.0 6.0 4.5 4.9 3.00 3.2 5.9 9.0 5.0 4.5 9.0 8.9 9.2 9.7 b) El promedio del crecimiento de las plantas de zapote en vivero es de 80 cm por año, un productor cree que con un nuevo sistema de contenedores puede mejorar el crecimiento de las plantas, las cuales se siembra bajo condiciones controladas. Los resultados obtenidos en cm después de un año de siembra se muestran en el cuadro siguiente. Crees que exista suficiente evidencia estadística para pensar que el productor tiene razón. Platea las hipótesis que creas convenientes y pruébalas. 73 94 98 90 49 108 102 79 74 76 82 95 118 96 56 90 73 97 104 98 111 64 86 80 81 102 95 86 81 98 c) Un productor pretende comparar la producción en Kg. de una nueva variedad de fríjol (Mantequilla) con la variedad que se siembra comúnmente en la región, de la cual se obtiene normalmente 220 Kg. por hectárea. El productor siembra 20 hectáreas de la nueva variedad y obtiene los siguientes resultados Rendimiento de fríjol mantequilla / ha. . 420 460 380 410 320 380 310 300 250 320 280 260 350 420 460 400 360 250 220 260 El productor desea saber si el rendimiento de la nueva variedad es igual al rendimiento que obtiene normalmente o si la variedad es mejor. Plantea las hipótesis que creas convenientes para contestar las preguntas del productor. Con los resultados que obtuviste que le recomendarías. d) En una graja de producción porcina, la ganancia normal de peso obtenida en cerdos de engorda es de 0.810 Kg. por animal por día alimentándolos con una dieta que contiene 14% de proteína cruda. El encargado de la alimentación cree que aumentando el nivel de proteína cruda a 18% en la dieta el peso aumentara. Para probar su idea alimenta un grupo de cerdos durante 3 meses y obtiene los resultados que se muestran abajo. 0.690 0.960 0.810 0.730 0.660 0.810 0.710 0.660 0.760 0.810 0.650 0.800 1.250 1.010 0.780 0.890 0.930 0.790 0.840 0.830 0.700 0.740 0.710 0.830 0.690 0.730 0.790 0.850 La hipótesis ha probar fue:
  • 39. Ha: El nivel de 18% de proteína cruda mejora la ganancia de peso ¿Crees que el encargado tiene razón?. ¿En que te basas? e) Un investigador pecuario trabajando con cabras lecheras, desea probar un suplemento fosfatado para la producción de leche, contra cabras sin suplementar. El efecto del suplemento se midió como la producción de leche por cabra por día. Se utilizaron 10 animales por cada tratamiento. Los resultados obtenidos después del experimento son los siguientes. Testigo Ortofosfato 1.150 1.450 1.125 1.550 1.100 1.547 1.112 1.650 1.195 1.400 1.125 1.550 1.150 1.450 1.150 1.450 1.125 1.550 1.100 1.547 Prueba la hipótesis: Ho: el suplemento fosfatado mejora la producción de leche en cabras lecheras Saca tus conclusiones del trabajo g) Un investigador esta tratando de probar la eficacia de escarificación de semillas de Leucaena con hidróxido de sodio (NaOH), para lo cual trato un lote de semillas y les hizo una prueba de germinación, el investigador comparo sus resultados con la germinación de semillas sin tratar. Efectividad Testigo NaOH Total Germinaron 745 909 No germinaron 375 223 Total h) La eficacia de dos herbicidas (2-4 D amina y faena) se ha probado por el numero de plantas por hectárea de que elimina o deja de eliminar. Un productor desea saber si es lo mismo usar cualquiera de los dos herbicidas, dado que el faena vale 5 veces más que el 2 – 4 D amina. Plantas 2-4 D amina Faena Total Muertas 1117 405 Vivas 223 679 Total i) Un investigador trata de averiguar cual es el mejor método de escarificación de semillas de Leucaena, para lo cual utiliza cuatro diferentes tratamientos, ácido sulfúrico (H2SO), hidróxido de sodio (NaOH) y calor, Se utilizo un lote de semillas por cada método y se les hizo una prueba de germinación, el investigador comparo sus resultados con la germinación de semillas sin tratar.
  • 40. Efectividad Testigo H2SO NaOH Calor Total Germinaron 745 909 1117 450 No germinaron 591 375 223 679 Podridas 14 66 10 221 UNIDAD V. Regresión y correlación 5.1 Regresión La aplicación de los conceptos de probabilidad en la producción agrícola, pecuaria y forestal, permiten predecir la influencia de algunos factores en el comportamiento productivo de animales, cultivos, plantas o calcular el grado de relación que existe entre esos factores y los caracteres productivos. Las herramientas matemáticas que facilitan estos aspectos son la regresión y la correlación. 5.1.1 Regresión lineal – 5.1.2 Regresión no lineal Es el procedimiento que se usa para construir una ecuación de predicción para una variable aleatoria (que puede ser x carácter productivo) como efecto de una o mas variables independientes (obtenidas de rasgos productivos, mediciones, datos de producción etc.). Es decir se trata de predecir el comportamiento de una variable como resultado de la observación de otra u otras variables. Ejemplo: En el sector de producción de caña es de sumo interés para los productores, poder estimar los volúmenes de producción para las siguientes cosechas en sus parcelas. Sin embargo los productores saben de antemano que no todas las parcelas producen igual, pues el rendimiento depende de factores como la fertilización, el tipo de suelo, las labores de cultivo, el tipo de maquinaria utilizada, entre otros. En tal sentido los productores quieren predecir como se incrementarían sus rendimientos tomando en cuenta que van a fertilizar sus parcelas. Para realizar las estimaciones los productores cuentan con la información de 10 parcelas distribuidas en ejidos diferentes con distintas características de producción, que muestran el rendimiento de las parcelas antes y después de la aplicación de fertilizante en cuestión. Dicha predicción le permitiría a cada productor decidir si realiza la inversión en ese tipo de fertilizante o no lo aplica o se cambia a otro, antes de comprar y aplicar el producto en cuestión, que se muestran en el cuadro siguiente. Parcela Producción antes de fertilizar Ton/Ha. Producción después de fertilizar Ton/Ha. (X) (Y) 1 39 65 2 43 78 3 21 52 4 64 82 5 57 92 6 47 89 7 28 73 8 75 98 9 34 56 10 52 75 Puede observarse que el problema planteado es muy general, pues estamos interesados en una variable aleatoria (Y) que esta relacionada con algunas variables independientes (X 1, X2, X3….).
  • 41. La variable aleatoria en este caso es el rendimiento futuro de las parcelas y las variables independientes que influyen en el rendimiento son la fertilización (X 1), el tipo de suelo (X2), las labores de cultivo (X3), el tipo de maquinaria (X 4). En este caso nos interesa únicamente la primera variable. El objetivo de la regresión es medir el efecto de las variables independientes (X1, X2, X3….) para una parcela cualquiera (en este caso nos interesa únicamente la primera variable) y colocar esos valores en una ecuación de predicción y así poder estimar el promedio de producción de cualquier otra parcela. Es decir se trata de construir una ecuación que permita estimar la producción futura de cualquier parcela como efecto de la fertilización El primer paso para solucionar este problema, es construir una grafica con los datos de los productores, tomando los rendimientos de las parcelas después de fertilizar como eje Y, y la producción antes de fertilizar como eje X y trazar una línea a través de los puntos de tal manera que todos queden equidistantes de la línea trazada (línea de mejor ajuste). Regresión lineal 120 100 Despues de fertilizar 80 60 Serie1 40 20 0 0 20 40 60 80 Antes de fertilizar En teoría se puede utilizar la grafica para predecir la producción de una parcela en función de la fertilización, pues la recta representa un modelo matemático que expresa la supuesta relación funcional entre Y y X (la producción de la parcela y la fertilización). Sin embargo la ecuación debe expresarse matemáticamente, de tal manera que pueda utilizarse en cálculos futuros, por lo cual debemos recordar que la ecuación matemática de una línea recta es: Y = βo + β1X Donde βo es el punto de intersección con el eje Y y β 1 es la pendiente o inclinación de la recta. Cuando trazamos una línea a través de los puntos en realidad estamos trazando un modelo matemático deterministico, por que cuando se coloca un valor de X en la ecuación, el valor de Y queda determinado y no deja abierta la posibilidad de error. Por lo tanto los modelos deterministicos son bastante adecuados para utilizarse como herramienta de predicción.
  • 42. El segundo paso para la solución de la ecuación de la recta de mejor ajuste de Y con respecto a X, se utiliza el procedimiento de los mínimos cuadrados, donde se estima los valores de βo y β 1, mediante la formulas: SCxy β1 = ____________ SCx βo = Ÿ - β1(x) Donde para calcular la SCx y SCxy se utiliza las formulas (∑ X)2 (∑ X) (∑ Y) 2 SCx =∑ X - -------- n SCxy = ∑ (X)(Y) - ----------------- n i =1 Para su aplicación debe de realizarse los siguientes cálculos en la calculadora: X Y XY 39 65 2,535 43 78 3,354 21 52 1,092 64 82 5,248 57 92 5,244 47 89 4,183 28 73 2,044 75 98 7,350 34 56 1,904 52 75 3,900 ∑X 460 ∑Y 760 ∑XY 36,85 4 Media x 46 Media y 76 ∑X2 23,63 ∑Y2 59,81 4 6 N 10 N 10 Sustituyendo los valores en la formula de SC, tendremos: (∑ X)2 (460)2 SCx= ∑ X - -------- 2 = 23,634 - -------- = 23,634 – 21160 = 2,474 n 10 (∑ X) (∑ Y) (460) (760) i =1 SCxy = ∑ (X)(Y) - ----------------- = 36,854 - ---------------- = 36,854 – 34960 = 1,894 n 10 Sustituyendo los valores en la ecuación tendríamos: SCxy 1,894 β1 = ________ = ________ = 0.765562 o 0.77 SCx 2,474 Βo = Ÿ - β1(x) = 76 – (0.765566) (46) = 76 – 35.216036 = 40.7841 o 40,78
  • 43. Por lo tanto la ecuación que mejor ajusta la producción de una parcela con respecto a la fertilización sería: Y = 40.78 + 0.77 X Donde la valor 40.78 es la intersección con Y (sea cuando X vale 0) y 0.77 es la pendiente de la recta que da el cambio estimado en Y por cada unidad de cambio de X. Con esta ecuación se puede predecir la producciones futuras de una parcela fertilizada (Y) partiendo de una producción sin fertilizar (X). Ejemplos: Si una parcela produce actualmente 50 Ton/Ha. sin fertilizar y se fertiliza, su producción calculada sería: Y = βo + β1X Y = 40.78 + (0.77) (50) = 40.78 + 38.50 = 79.28 Ton/Ha. Para una parcela que produce 35 Ton/Ha, sería: Y = βo + β1X Y = 40.78 + (0.77) (35) = 40.78 + 26.95 = 67.90 Ton/Ha. 5.2 Correlación Alguna veces es deseable saber que tanto una variable influyen en los cambios provocados en la otra variable o sea que tan fuerte es la relación entre las variables Y y X, que sea independiente de sus respectivas escalas de medición. 5.2.1 Correlación lineal – 5.2.2 Coeficiente de determinación A la relación que existe entre dos variables se le denomina coeficiente de correlación lineal entre Y y X y se simboliza con la letra r y su valor siempre va de 0 a 1 o -1, dependiendo si se trata de una correlación positiva (1) o negativa (-1). El valor de r = 0 indica que no hay correlación lineal entre Y y X o sea que los valores de X no producen cambios en Y. Los valores positivos de r (0.01 a 1) indica que existe una correlación positiva de Y y X y la recta que forman los datos van creciendo hacia la derecha, donde el valor de r = 1 indica que existe una total correlación de Y y X o sea que los valores de X explican 100% los cambios provocados en Y (a medida que aumenta X, aumenta Y). Cuando el valor de r es negativo indica que los puntos que forman la recta van decreciendo hacia la derecha, o sea que a medida que aumenta X desminuye el valor de Y. Para el calculo del coeficiente de correlación se utiliza la formula SCxy r = ------------------. √(SCx) (SCy) Para explicar el cálculo del coeficiente de correlación tomaremos los mismos datos del ejemplo anterior, en que se quiere predecir la producción futura de una parcela de caña como efecto de la fertilización. X Y XY 39 65 2,535 43 78 3,354 21 52 1,092 64 82 5,248 57 92 2,244 47 89 4,183 28 73 2,044 75 98 7,350 34 56 1,904