Estadistica Capítulo 1 y 2 .pptx

Capítulo 1. Datos: Tipos
y Presentación

Introducción
Los estudios científicos involucran:
 Recopilación sistemática
 Organización
 Análisis
 Presentación
Del conocimiento

Introducción
Muchas investigaciones en ciencias biológicas son cuantitativas,
donde el conocimiento está en forma de observaciones numéricas
llamadas datos.

Introducción
Para la correcta presentación y análisis de datos se requiere considerar:
 Tipo de datos obtenidos
 Diseño de la colecta de datos
 Preguntas que haremos a los datos
Cuando se llega a conclusiones a partir de estos datos se debe
considerar:
 Límites de los datos
 Límites del método de colecta de datos
 Límites del análisis de datos utilizados
Para poder considerar esto se deben entender ciertos
conceptos…

Estadística
Del latín “Statum” (Estado), por la
importancia histórica que los
gobiernos han dado a la colecta de
datos demográficos para uso de
reclutamiento militar y recaudación
de impuestos.
Estadística ≠ Datos
Estadística: La colecta ordenada, análisis e
interpretación de los datos con el objetivo de realizar
evaluaciones objetivas de las conclusiones basadas en
los datos

Bioestadística
La estadística aplicada a problemas
biológicos algunas veces llamada biometría
(lo que significa literalmente “mediciones
biológicas”).
Muchas veces en biología nos encontramos los siguientes dos casos:
• Muy pocos datos colectados, que no permiten llegar a
conclusiones confiables.
• Mucho esfuerzo en colectar datos que no sirven para el análisis
del experimento.
He ahí la Importancia de conocer principios y procedimientos
estadísticos antes de colectar datos

Estadística descriptiva vs Inferencial
La estadística
descriptiva organiza y
resume los datos de
manera ordenada e
informativa.
La estadística
inferencial permite
inferir características
del todo a partir de
una parte.
Ej.
Alturas de
adolescentes de 13
años
Descriptiva: Altura
promedio de un
distrito escolar para
cada sexo
Inferencial:
Estimar alturas de todo
el estado, ¿Son más
altos los niños que las
niñas de estad edad en
ese estado?

1.1 Tipos de datos biológicos
Variable: una característica
que puede diferir de una
entidad biológica a otra
Ej. tamaño, peso, color,
composición química
Que procedimientos descriptivos e
inferenciales podemos usar depende de
que tipo de datos tenemos

Datos en una escala de razón
 Altura de la planta
 Número de hojas

Datos en una escala de razón
36 cm 37 cm 38 cm 39 cm 40 cm
8 hojas 10 hojas
9 hojas 11 hojas
30 cm
60 cm
Existe un punto 0 en estas
escalas, y este punto 0 tiene un
significado físico
Las medias de escala de
razón tienen un intervalo
constante y un punto
cero verdadero
Algunos ejemplos son medidas
de peso (mg, lb, etc.), volumen
(c3, pies3, etc.), capacidad (ml,
qt, etc.), razones (cm/seg,
m/h, mg/min, etc.) y longitudes
de tiempo (hr, años, etc.).

Datos en una escala de intervalo
Ej. Hrs, el 0
(medianoche)
es arbitrario
Escalas con un intervalo constante
pero sin un cero verdadero
Ej. °C
20°C 25°C
5°C 10°C
°K sería una escala de
razón ya que su 0 es
real y no arbitrario
Orientación con
brújula, 0° ósea
el norte, es
arbitrario

Datos en una escala ordinal
Hombre A: 90 kg
Bombre B: 80 kg
Hombre A pesa más que
el Hombre B
En este caso tenemos diferencias relativas
en vez de diferencias cuantitativas
Un animal más corto, más oscuro, más
rápido, más activo
Un fósil más antiguo que otro
Tipos de tamaño de célula
relativo uno al otro (1,2,3,4,5)
Que tan fácil fue para un ratón
salir de un laberinto (A,B,C)
Datos en escala ordinal
contienen menos
información que datos en
escala de razón o intervalos
y es imposible compararlos,
sin embargo hay
procedimientos aplicables a
ellos

Datos en categorías nominales
Cuando la variable se clasifica
cualitativamente en lugar de con
medidas
En estos casos la variable
se puede denominar
atributo y lidiamos con
datos nominales o
categóricos
Rhomborrhina
resplendens
Muchas veces en
biología estos son
fenotipos
Ejemplos de datos nominales:
• Hombre o Mujer
• Zurdo o Diestro
• Muerto o Vivo
• Con fertilizante o sin fertilizante
• Categorías
taxonómicas
Theropoda
Ornithopoda
Los métodos estadísticos útiles para
datos de razón, intervalo y ordinales no
suelen ser aplicables a nominales por lo
que es importante reconocerlos

Datos continuos y discretos
35 cm 36 cm
∞
35.07 cm ó 35.988 cm
Una variable continua es
aquella en la que existen
valores posibles entre
cualquier par de
valores.
Número de hojas:
27 hojas ✓
28 hojas ✓
27.9 hojas x
Una variable discreta o
merística presenta
valores separables
sucesivos, son números
enteros
Variables de razón, intervalo y
ordinales pueden ser continuas o
discretas, las nominales son solo
discretas

1.2 Exactitud y cifras significativas
Exactitud: Que tan cercana es una
medición al valor verdadero de la
variable
Precisión: Que tan cercanas
son mediciones repetidas de
la misma

Error humano puede existir en el registro de
datos, aunque aquí asumiremos que no
ocurren
La exactitud se puede expresar cómo un
reporte numérico
8 cm
8.3 cm
8.32 cm
Mayor
Exactitud del
equipo
utilizado
Una medición de 8 cm por
convención representa una
medición en el rango de
7.50000… a 8.49999
8.3= 8.25000…a 8.34999
8.32= 8.31500…a 8.32499
El valor reportado es
el punto medio del
rango que se implica
con la medición
El valor de 8 cm implica que se
determina la longitud dentro de un
rango de 1cm
8.3 cm de 0.1 cm
8.32 cm de 0.01 cm
Estos dígitos denotan la
exactitud y se llaman cifras
significativas

Cuando se trabaja con valores exactos de
variables discretas, las consideraciones
anteriores no aplican.
Sin embargo pueden existir casos en que
las cifras significativas y la exactitud
implícita entran en juego
Un entomólogo dice que en un bosque
determinado hay 72,000 polillas, que es un
estimado
72,000 implica un rango de exactitud de 1000 (71,500…a 72,500)
Se utiliza notación científica para denotar exactitud en estos casos:
7.2 x 104 (= 72,000) implica exactitud de 0.1 x 104 (=1000) (71,500…a 72,500)
7.20x104 implica exactitud de 0.01 x 104 (=100) (71,950…a 72,050)

Las calculadoras y las computadoras
generalmente producen resultados con cifras
más significativas que los justificados por los
datos.
Es una buena práctica -para evitar el error de
redondeo- retener muchas cifras significativas
hasta el último paso en una secuencia de
cálculos, y se realiza el redondeo en el
resultado del paso final obteniendo el número
apropiado de cifras significativas.

1.3 Distribuciones de frecuencia Al recopilar y resumir grandes cantidades
de datos es útil registrarlos en una tabla
de frecuencias.
A la distribución del número total de
observaciones en categorías se denomina
una distribución de frecuencia
Ejemplo 1.1
Ubicación de nidos de gorriones: Tabla de frecuencias
de datos nominales
Sitio de Nido
Número de
Nidos
A. Lianas 56
B. Aleros de Construcciones 60
C. Ramas bajas de árboles 46
D. Cavidades de árboles y
edificios 49

Figura 1.2. Gráfica de barras de los datos de nidos de gorriones del
ejemplo 1.1. Un ejemplo de gráfico de barras para datos nominales
0
10
20
30
40
50
60
70
80
0 1 2 3
Número
de
Nidos
Sitio de NIdo
La ubicación de los nidos de gorriones
1.3 Distribuciones de frecuencia
Pueden ser presentadas gráficamente
como una gráfica de barras
La escala de frecuencias
debe empezar en 0

Si, por ejemplo, el eje vertical presentara valores de 45 a 60 en lugar de
0 a 60, los resultados aparecerían como en la Figura 1.3.
Figura 1.3. Gráfica de barras de los datos de nidos de gorriones del ejemplo 1.1, dibujado
con el eje vertical a partir de 45
45
47
49
51
53
55
57
59
61
A Vids B Aleros de
Construcciones
C Ramas de árboles
bajas
D Cavidades de
árboles y edificios
Número
de
Nidos
Sitio de NIdo
La ubicación de los nidos de gorriones

Un ejemplo de tabulación de frecuencia de datos ordinales son los
números de peces sol recolectados en cinco categorías dependiendo de la
coloración de la piel
Ejemplo 1.2 Número de peces
luna, tabulados según la cantidad
de pigmentación negra: una tabla
de frecuencias de datos ordinales
Clase de
pigmentación
Cantidad de
pigmentación
Número de Peces
0 Sin pigmentación negra 13
1 Ligeramente moteado 68
2 Moderadamente moteado 44
3 Muy moteado 21
4 Pigmentación negra sólida 8

Figura 1.4. Gráfica de barras de los datos de la pigmentación del pez sol
del ejemplo 1.2. Un ejemplo de gráfica de barras para datos ordinales
0
10
20
30
40
50
60
70
0 1 2 3 4
Número
de
peces
Clase de pigmentación
Pigmentación de Peces
Las distribuciones
de frecuencia y
gráficas se pueden
realizar para datos
ordinales de la
misma forma que
para nominales

Ejemplo 1.3 Frecuencia de ocurrencia de varios tañamos de camadas de
zorros: Una tabla de frecuencias de datos discretos en escala de razón
Tamaño de
la camada
Frecuencia
3 10
4 27
5 22
6 4
7 1
Para datos de escala de intervalo y
de razón, podemos hacer una
distinción de procedimiento entre
datos discretos y continuos.
Para datos discretos se usarán
frecuencias de tamaños de camada
en zorros.

Figura 1.5. Gráfica de barras de los datos de las camadas de zorros del
ejemplo 1.3. Un ejemplo de gráfica de barras para datos discretos en
escala razón
0
5
10
15
20
25
30
3 4 5 6 7
Número
de
camadas
Tamaño de la camada
Tamaño de las camadas de zorros

Ejemplo 1.4a Número de pulgones observados por planta de trébol: Tabla
de frecuencias de datos de escala de razón
Número de pulgones
en una planta
Número de plantas
observadas
Número de pulgones
en una planta
Número de plantas
observadas
0 3 20 17
1 1 21 18
2 1 22 23
3 1 23 17
4 2 24 19
5 3 25 18
6 5 26 19
7 7 27 21
8 8 28 18
9 11 29 13
10 10 30 10
11 11 31 14
12 13 32 9
13 12 33 10
14 16 34 8
15 13 35 5
16 14 36 4
17 16 37 1
18 15 38 2
19 14 39 1
40 0
41 1
Número total de observaciones = 424
En algunos casos los datos
discretos producen tablas de
frecuencia largas
En este caso se agrupan en
categorías de tamaño

Ejemplo 1.4b Número de pulgones observados por planta de trébol: Tabla
de frecuencias agrupadas de datos discretos escala de razón del ejemplo
1.4a
Número de
pulgones
en una planta
Número de plantas
observadas
0-3 6
4-7 17
8-11 40
12-15 54
16-19 59
20-23 75
24-27 77
28-31 55
32-35 32
36-39 8
40-43 1
Número total de observaciones = 424
Agrupar en categorías de tamaño
implica una pérdida de
información y no se utiliza para
realizar cálculos, sino para hacer
más legibles las tablas y las
gráficas

Figura 1.6. Gráfica de barras de los datos de pulgones . Un ejemplo de
gráfica de barras para datos de tipo discreto en escala de razón
0
10
20
30
40
50
60
70
80
0-3 4-7 8-11 12-15 16-19 20-23 24-27 28-31 32-35 36-39 40-43
Número
de
plantas
observadas
Número de pulgones
observados en una planta
Número de pulgones observados por planta de trébol
Hay ciertas reglas
sobre cuantas
categorías utilizar,
aunque estas son solo
guías y queda al buen
juicio, generalmente
de 10-20 grupos son
útiles en trabajo
biológico
Las categorías se
deben definir con un
intervalo igual en
este caso cada 4
categorías

Ya que los datos continuos a diferencia de los discretos pueden
tomar una infinidad de valores, uno siempre hace una
distribución de frecuencia tabulada por categorías
Por ejemplo:
Si nuestra variable fuera un peso medido a los
0.1 mg de exactitud, en una tabla los pesos
medidos como 48.6 mg se interpretarían como
los pesos entre 48.5500…y 48.6499 mg (que
en una tabla de frecuencia se escribirían
como 48.55-48.65)

Ejemplo 1.5.
Determinación de la cantidad de
fósforo en hojas: Una tabla de
frecuencias de datos contínuos.
Fósforo
(mg/g de hoja
Frecuencia
(Número de
determinaciones)
Frecuencia acumulativa
Comenzando con
valores bajos
Comenzando con
valores altos
8.15-8.25 2 2 130
8.25-8.35 6 8 128
8.35-8.45 8 16 122
8.45-8.55 11 27 114
8.55-8.65 17 44 103
8.65-8,75 17 61 86
8.75-8.85 24 85 69
8.85-8.95 18 103 45
8.95.9.05 13 116 27
9.05-9.15 10 126 14
9.15-9.25 4 130 4
Frecuenca total = 130 = n

0
5
10
15
20
25
30
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
Fósforo ( mg/g de hoja)
Histograma de datos de fósforo en hojas
Figura 1.7. Histograma de datos de fósforo en hojas del ejemplo 1.5. Un
ejemplo de un histograma para datos contínuos
En este caso uno hace
un histograma, una
gráfica de barras
basada en datos
continuos
Se indica el punto
medio del rango en
lugar del rango
completo y las barras
a menudo se dibujan
tocándose para
denotar la
continuidad de los
datos
Tambien se puede
hacer un polígono de
frecuencia

Figura 1.8. Polígono de frecuencia para datos de fósforo en hojas del
ejemplo 1.5
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
0
5
10
15
20
25
30
0 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
Relativa
Frecuencia
Fósforo (mg/g de hoja)
Polígono de frecuencia
Un polígono de
frecuencia se hace
colocando un punto o
símbolo en el punto
medio de las clases y
se conectan con líneas
rectas.
Se pueden trazar
también frecuencias
relativas, que es la
frecuencia en relación
al total, en este caso
130 ej. 2/130
Usar las frecuencias
relativas permite
comparar diferentes
distribuciones o
graficarlas juntas

Los polígonos de frecuencia se usan también para
distribuciones discretas, sin embargo para datos ordinales
puede argumentarse que no se usen ya que el polígono
implica que se trata de un intervalo constante entre dos
puntos y en ordinales no se conocen con exactitud. Para
escala nominal no se utilizan los polígonos.

acumulada
Figura 1.5. Gráfica de barras de los datos de las camadas de zorros del
ejemplo 1.3.
De una distribución de
frecuencias da cierta
información, en este caso
¿Cuántas camadas se zorros de
cuatro se observaron? 27
Pero al preguntarse por ejemplo
¿Cuántas de cuatro o más se
observaron? ¿Cuántas camadas
de cinco o menos? Se utilizan las
frecuencias acumuladas
Las frecuencias se suman, en el
primer caso para todas las
categorías de 4 en adelante y en
el segundo de 5 hacia abajo
dando 54 y 59
Tamaño de
la camada
Frecuencia
3 10
4 27
5 22
6 4
7 1

acumulada
Fósforo
(mg/g de hoja
Frecuencia
(Número de
determinaciones)
Frecuencia acumulativa
Comenzando con
valores bajos
Comenzando con
valores altos
8.15-8.25 2 2 130
8.25-8.35 6 8 128
8.35-8.45 8 16 122
8.45-8.55 11 27 114
8.55-8.65 17 44 103
8.65-8,75 17 61 86
8.75-8.85 24 85 69
8.85-8.95 18 103 45
8.95.9.05 13 116 27
9.05-9.15 10 126 14
9.15-9.25 4 130 4
Frecuenca total = 130 = n
Las distribuciones de
frecuencia
acumulada son
útiles para
determinar
medianas,
percentiles, y otros
cuantiles, como se
discutirá en las
Secciones 3.2 y 4.2.

Figura 1.9. Polígono de frecuencia
acumulada para datos de fósforo
en hojas del ejemplo 1.5, con
acumulación
comenzando desde los valores más
bajos hasta los más altos de la
variable.
Estos datos no se
grafican en gráficas de
barras, sino en polígonos
de frecuencia
acumulativa (a veces
llamadas ojivas).
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
0
20
40
60
80
100
120
140
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
relativa
acumulada
Frecuencia
acumulada
Polígono de frecuencia acumulada

Figura 1.10. Polígono de
frecuencia acumulada para
datos de fósforo en hojas del
ejemplo 1.5, con acumulación
comenzando desde los valores
más altos hasta los más bajos
de la variable.
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
0
20
40
60
80
100
120
140
8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9 9.1 9.2
Frecuencia
acumulativa
relativa
Frecuencia
Acumulativa
Polígono de frecuencia acumulativas
La dirección de acumulación no es
importante, normalmente no es
necesario graficar ambas
La frecuencia acumulada relativa
ayuda a comparar y a conocer los
porcentajes de valores en un rango

Capítulo 2. Poblaciones
y muestras

Introducción
El objetivo principal del análisis estadístico es:
Inferir las características de un grupo de datos mediante
el análisis de una pequeña muestra del grupo.
Para poder realizar esta generalización desde una parte
al todo se requieren ciertos conceptos:
• Población
• Muestra
• Parámetro
• Estadística
• Muestreo aleatorio

2.1 Poblaciones
Un grupo de medidas (no organismos) sobre los cuales se
desea sacar conclusiones.

2.2 Muestras de poblaciones
Las poblaciones suelen ser muy grandes, entonces obtener
todas las medidas no es viable
Se toma un subconjunto del total (muestra)
Población
Peso
En biología se pueden tomar muestras
de una población que no existe
físicamente, estas se nombran como
Imaginarias, hipotéticas o potenciales

2.3 Muestreo aleatorio
Para que una muestra sea representativa de una población se
asume en los procesos estadísticos que las muestras se
obtienen aleatoriamente
Cada miembro de la población tiene
posibilidad igual e independiente
de ser seleccionado
25%
25%
25% 25%

2.3 Muestreo aleatorio
A veces es posible asignar a cada
miembro de una población un número
único y obtener una muestra eligiendo
un conjunto de tales números al azar.
Es cómo tener a toda una población en
un sombrero y sacar una muestra
mientras tienes los ojos vendados.
Ej. Guía telefónica
Muestra de 200
273 pag
3 columnas por pagina
98 nombres por columna
Se seleccionan número al
azar de las tablas para cada
parámetro
Muchas veces en
biología esto no
es posible así que
el muestreo
aleatorio se hace
conociendo la
biología de cada
organismo

2.4 Parámetros y estadísticos
También es útil describir que tan dispersas se encuentran las mediciones
alrededor del “promedio”, estas mediciones se denominan medidas de
variabilidad o medidas de dispersión (ej. rango, desviación estándar)
Generalmente en algún lugar de la mitad del rango de una población
de medidas hay una preponderancia.
Por esto mediciones del “promedio” de la población representan
información descriptiva útil. Estas medidas se llaman medidas de
tendencia central o medidas de ubicación ( ej. mediana, promedio)

Una cantidad tal como una medida de tendencia central o
una medida de dispersión se llama parámetro cuando
describe o caracteriza a una población.
Sin embargo, ya que uno casi nunca tiene información de la
población completa y se utilizan las muestras tomadas
aleatoriamente para estimar un parámetro.
Una estimación de un parámetro de población se denomina
estadístico.

Los estadísticos que se calculan varían de una muestra a otra para muestras
tomadas de la misma población. Ya que uno usa estadísticos de muestra como
estimaciones de parámetros de la población, le corresponde al investigador
llegar a las "mejores" estimaciones posibles.
Para saber qué propiedades son deseables en una estimación "buena“ se deben
hacer tres consideraciones:
Primero, se desea que si tomamos una cantidad indefinidamente grande de
muestras de una población, el promedio a largo plazo de las estadísticas
obtenidas sea igual al parámetro a ser estimado.
Si para algunas muestras se sobreestima con un estadístico, y en otras se
subestima, termina igualándose y se dice que el estadístico es imparcial.

En segundo lugar, es deseable que una estadística obtenida de cualquier
muestra individual de una población esté muy cerca del valor del
parámetro que se estima.
Esta propiedad de una estadística se conoce como eficiencia, precisión
o confiabilidad.

Tercero, se debe considerar que uno puede tomar muestras cada vez mas
grandes de una población (la muestra más grande sería la población
completa) y mientras esto pasa, un estadístico consistente se acercará
cada vez mas a el parámetro mismo.
En los capítulos siguientes, las estadísticas recomendadas como
estimaciones de parámetros son estimaciones "buenas" en el sentido de
que poseen una combinación deseable de imparcialidad, eficiencia y
consistencia.

2.5 Datos atípicos (Outliers)
Pesos de diecinueve patos silvestres de 20 semanas de edad criados en
jaulas de laboratorio individuales, para los cuales se registraron los
siguientes 19 datos:
1.87, 3.75, 3.79, 3.82, 3.85, 3.87, 3.90, 3.94, 3.96, 3.99,
3.99, 4.00, 4.03, 4.04, 4.05, 4.06, 4.09, 8.97 y 39.8 kilogramos
Los datos que están en un desacuerdo marcado con casi
todos los demás datos en una muestra a menudo se
llaman valores atípicos o datos discordantes, y la
ocurrencia de tales observaciones generalmente requiere
un examen más detenido
Pueden ser el resultado de un
error de medición:
Error de unidades
Error de jaula medida (4
meses) Muestra contaminada
así que debería eliminarse
Errores donde se sabe que la
herramienta de medición no
funcionó, o se cometió otro
error, deben eliminarse
Existe la posibilidad de que sean correctas
y colectadas por azar, datos de muestra
muy alejados del promedio son posibles

2.5 Datos atípicos (Outliers)
En resumen, no es apropiado descartar datos simplemente porque
parecen (para alguien) ser irracionalmente extremos.
Si hay una razón muy obvia para corregir o eliminar un dato, como las
situaciones descritas anteriormente, los datos incorrectos deben
corregirse o eliminarse.
En algunos otros casos cuestionables los datos se pueden acomodar en el
análisis estadístico, quizás empleando procedimientos estadísticos que
les dan menos peso o técnicas analíticas que sean robustas siendo
resistentes a los efectos de datos discrepantes.
Y en situaciones en que esto no se puede hacer, los datos dudosos
tendrán que permanecer en la muestra (tal vez alentando al investigador
para repetir el experimento con un nuevo conjunto de datos).

Estadistica Capítulo 1 y 2 .pptx

Recommandé

Recommandé

Contenu connexe

Similaire à Estadistica Capítulo 1 y 2 .pptx

Similaire à Estadistica Capítulo 1 y 2 .pptx (20)

Dernier

Dernier (20)

Estadistica Capítulo 1 y 2 .pptx

Notes de l'éditeur