Wuolah Inversion mer 2.pdf

INVESTIGACIÓN DE MERCADOS II
1
TEMA 0 : REPASO IM I
El proceso de investigación surge con una
necesidad de descubrir algo o solucionar un
problema.
Debemos delimitar el objetivo, el universo, es
decir la población a estudiar, la metodología,
calendario y el presupuesto, además de otros
recursos disponibles.
1.- El Cuestionario y sus tipos
Es un conjunto articulado y coherente de preguntas para obtener la información necesaria para poder
realizar la investigación que la requiere. Todos los encuestados reciben las mismas preguntas, en el mismo
orden lo que implica que todos reciben el mismo estimulo en el mismo orden. Vienen codificados, es decir a
cada una de las opciones de respuesta le doy un numero en concreto para poder reflejarlo en los programas
informáticos, usando números en vez de palabras. Las columnas implican las preguntas que hemos realizado
y la fila el número del encuestado.
TIPOS:
Estructurado: son aquellos en los que las preguntas y posibles respuestas están formalizadas y
estandarizadas (siempre en el mismo orden y de la misma forma). El cuestionario será:
- Autoadministrado: son aquellos tipos de cuestionarios normalmente estructurados en los que el
entrevistado se encarga de cumplimentarlos o rellenar. Lo que implica una serie de cuestiones como
por ejemplo no incluir nunca la opción no sabe, no contesta u otros.
Semiestructurado
2.- Fases diseño cuestionario
Hay que marcar los objetivos y el tipo de encuesta que queremos realizar, por lo
tanto elegimos el diseño del cuestionario en función de eso. Por lo tanto
estableceremos las normas de redacción, el tipo de preguntas, extensión, tipos de
escala y el orden. Posteriormente se lleva a cabo un pretest y realizar las
modificaciones pertinentes, halladas a la hora de realizar el pretest evitando así
preguntas que están mal o que no se pueden contestar e incluso aquellas que no
reflejan la información que necesitamos. .
3.- Tipos de Preguntas
CERRADAS : todas las respuesta predeterminadas. Todas las preguntas cerradas deben cumplir una serie
de reglas:
- Exhaustividad: voy a poner todos los atributos o valores posibles dentro de esa pregunta cerrada. Es
decir todas las respuestas posibles. Poner el mayor numero de atributos, categorías y valores
posibles, ya que ninguna observación puede quedarse sin poner. Debemos añadir “ otros”.
- Exclusión: eliminar los atributos de una variable o respuesta que sean excluyentes, por ejemplo no
repetir la edad en los intervalos, es decir no puedes estar dos veces en las respuestas. De 18 a 24
años y de 24 a 30 años. Hay que evitar poner dos veces el 24. Se le añade el 24,1 o subiendo el año
a 25.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-4547479

2
- Precisión: poner el mayor numero de distinciones posibles, que luego las va os a agrupar. Cuantas
más precisas sean las respuestas mejor y mas información vamos a obtener. No es lo mismo sin
estudios, que ser analfabeto, saber leer, saber leer y escribir, etc.
A su vez las preguntas cerradas pueden ser:
• Dicotómicas: (Sí – No) solo dos respuestas posibles. La posibilidad de No Contesta hace que
perdamos muestra, ya que no son representativas.
• Opción múltiple: nos dan todas las opciones posibles de respuesta. No es conveniente que haya
muchas preguntas de este estilo, ya que es muy complicado su análisis.
• Filtro: se trata de segmentar y hacer preguntas a ese grupo en concreto. Es decir se añaden
preguntas que si no cumples las condiciones no llevas a cabo una serie de preguntas o directamente
no contestan.
ABIERTAS : le dejo opción para que le me escriba. Es complicado analizar las respuestas obtenidas. Para
ello abro un libro de caves, creando un código para cada tipo de respuesta obtenida, hasta que encuentre en
ese 15-20% repeticiones del código.
MIXTA: incluir tanto cerrada como opciones, y además de otra respuesta y que digan cual sea de forma
abierta.
CLASIFICACIÓN FINALES: se ponen al final, salvo que sean imprescindibles para la muestra o para captar al
encuestado, como el nivel de estudios, trabajo, estado civil, etc.
4.- Tipos de Escalas

3
En el caso de la ESCALA NOMINAL destacamos que debe cumplir el criterio de exclusividad y
exhaustividad. Los numero se designan como medio de identificación o clasificación, solo podemos identificar
personas u objetos. No se puede establecer ningún tipo de relación , como orden. Además limita las
posibilidad.
Las ORDINALES, los números se asignan a los objetivos sobre la base de algún orden que representa una
posición relativa de las diferentes opciones en ese orden. Podemos establecer algún tipo de orden como por
ejemplo, mayor que o menor que. No son métricas es decir expresa una cualidad no una cantidad. En este
caso las posibilidad establecidas también están delimitadas. Es el caso de las respuestas de poco probable,
muy probable, probable, etc. no podemos saber cuanto de probable o no probable es.

4
En un mismo enunciado te hago muchas preguntas (filas) y
te doy la opción de que me contestes a varias opciones, es una
escala
En las ESCALAS DE INTERVALO si son variables meticas, yo que se puede establecer una distancia
numérico entre un punto y otro dentro de la escala. El investigador estable de antemano un rango de
valoraciones. Variable métrica. Puede cuantificarse la distancia exacta que separa un valor de la variable. Las
distancias iguales numéricas en la escala representan distancias iguales en el atributo o característica que se
mide. No se puede comparar la magnitud absoluta de los números porque el punto cero se establece
arbitrariamente en ella o no existe. Con respecto a las escalas anteriores, amplía las posibilidades
estadísticas.
Las ESCALAS DE RATIO, me dan la posibilidad de
establecer un cero absoluto, y me permite hace run montón
de comparaciones de las magnitudes absolutas de los
números, y pude cuantificarse la distancia exacta que
separa un valor del otro. Es una variable métrica. Se pueden
utilizar todo tipo de técnicas estadísticas con este tipo de
escalas. Son como una pregunta abierta que en vez de
escribir palabras, pongo números. Ejemplo: cuánto cobras al mes.
à Las comparativas: El entrevistado emite valoraciones o juicios sobre características u objeto en
comparación con otras características u objetos.
à Las No comparativas : No se fuerza al entrevistado a tomar partido entre elementos de una
comparación
Las ESCALAS DE LICKERT, es el mejor formato, y en función de como se use lo podemos considerar ordinal
o de intervalo. Las escalas pueden ser de 5, 7 , 9 y 10 puntos. Se selecciona una matriz de ítems, a los
encuestados se les piden que respondan a cada afirmación, escogiendo aquello que se acerque mas a su
opinión. . Elegir del 1 al 5 que siendo mucho 1 y 5 poco, es una escala Likert de intervalo.
La ESCALA SEMÁNTICA, normalmente tiene 7 puntos para medir atributos y es muy útil actitudes y
comparaciones.
*** Cuanto mas grande es la escala mas variables y datos podremos obtener.
Hay que llevar a cabo una evaluación de la escala, es decir si es valida, evalúa o no con precisión lo que
queríamos hallar. Y también medir la fiabilidad de la misma, es decir la capacidad de una escala de obtener
puntuaciones similares para el mismo objeto a lo largo del tiempo.

5
5.- Redacción cuestionario
6.- Pretest
7.- Codificación y Tabulación
Tema 1: Tratamiento de la información
1. Tipos de variables
VARIABLES NOMINAL: Asignan un nombre. Sirven para clasificar, determinando si son o no iguales o
distintos en la característica objeto de estudio
VARIABLES ORDINAL: Se asigna un nombre que no sólo tiene el principio de clasificación sino también una
idea de orden entre las distintas alternativas - categorías
VARIABLES DE INTERVALO: Se habla de diferencias numéricas, tenemos valores, que sirven para saber
distancia-diferencia-intervalo entre los valores de los individuos, que se les clasifica y ordena
VARIABLES DE RATIO: valores, con un cero absoluto
à Según su papel en la investigación:
- Variables independientes. Aquellas que toman–tienen valores-categorías que influyen en otras
variables (sexo, edad…)
- Variables dependientes. Aquellas que depende del valor que haya tomado o tengan las variable
independientes (Nivel de estudio-nivel de ingresos)
Ej // El sexo no va a variar en función de los hábitos de compra
Existe una relación de dependencia:
• Relación espúrea, es la relación estadística, como por ejemplo la relación entre la altura y los
ingresos.
• Relación causal, es una relación sociológica como por ejemplo el sexo influye en la altura y los
ingresos.
2. Tipos de análisis de los datos
Univariante
Se analiza una variable o pregunta de forma aislada. Ej // la plataforma que usan los jóvenes para ver
series
Bivariante
Se analizan 2 variables de forma conjunta. Se busca la relación de asociación, dependencia o causa –
efecto. Ej // la edad influye en que sea más o menos activo en Instagram
Multivariante
Más de dos variables de forma conjunta. Se buscan relaciones entre ellas. Ej // que influye en las venta
de Primark, precio, publicidad, ubicación, etc.

6
3. Análisis univariante
Las palabras en gris, porque las variables ordinales son cualitativas y no numéricas, y podríamos sacar
este tipo de analíticas.
4. Análisis univariante según el tipo de variable
Valores absolutos: número de encuestados que han contestado las diferentes alternativas de respuesta.
Valores relativos: cada valor en el conjunto de la muestra.
% de encuestados que eligen las diferentes alternativas de respuesta
% válido sin los que no han proporcionado información (missing cases)
En el lado de la izquierda me ponen las distintas
opciones de respuesta que han salido en esta pregunta.
Solo incluye aquellas opciones que han tenido
contestaciones. El total de la frecuencia son las
personas que han contestado a la encuesta.
El porcentaje válido es lo que representan el nº de
personas que han elegido esa respuesta con respecto
al total de la frecuencia. Se lleva a cabo una regla de 3
donde el total es el 100%
Se trata de una pregunta nominal, por lo cual solo
podemos llevar a cabo análisis de frecuencias. Las
personas que han contestado que NO tienen móvil,
(57) de la pregunta anterior se le restan al total y
hallamos un nuevo total en este caso 1.419.
La columna de porcentaje tiene los valores
perdidos, siendo el total 100% el total de encuetados,
y la de porcentaje válido solo se tienen en cuenta
aquellas preguntas válidas para mí, es decir, en este
caso los que han contestado SÍ, haciéndose el total sobre los 1.419, habiendo restado los 57 no válidos.
Luego para hallar los diferentes porcentajes hago una regla de tres.
La secuencia de mirada de los resultados:

7
1- Primero me fijo en las diferentes opciones de respuestas, y si hay casos perdidos. (1º columna)
2- Frecuencia o frecuencia relativa, donde aparecen el nº de personas que han elegido esa respuesta
3- Porcentaje válida que representa la frecuencia absoluta
à NO miramos la columna de porcentaje, ya que hay datos perdidos.
Representación Gráfica.
- Diagramas por sectores - Diagrama sectaria o tarta
- Gráficas - Diagrama de barras
- Histograma - Polígono de frecuencia (unión puntos)
En este caso solo hay 3 casos perdidos que vienen del
No contesta. Destacamos que salen todos o casi todos los
findes, pero hay un 28% que no salen nunca o casi nunca
de noche, dato sorprendente.
Hay que tener en cuenta que en este caso no nos
interesa la gente que no sale de casa por la noche los findes
que corresponden a 410 personas, ya que las preguntas relacionadas que van sobre las que SI salen y no va
relacionado con ellos. Por lo tanto debemos eliminar esos individuos, así la pregunta filtro estará bien hecha.
De los 1.476 del total de encuestados solo 219 son válidos ya que entre los perdidos por la pregunta filtro y
por lo que no hayan elegido o no contestado hay que quitárselo al total.
De los 1.476 encuestados hay 442
casos perdidos (410+32) de los que no sales
y no los que no han contestado. Solo puedo
tener en cuenta 1.034 personas. Debido a las
Preguntas Filtro. Las formulas indican las
reglas de 3 para hallar los porcentajes. El
porcentaje de casos se haya con base 1.034
y no con 1.619 (suma de todas las
respuestas). Una misma persona puede
contestar como varias

8
5. Análisis de frecuencias central
Medidas de tendencia central
MEDIA: suma de los valores de la variable dividida por el número de valores observados.
MEDIANA: Si se dispone de forma ordenada un conjunto de observaciones, la mediana es el valor situado
en medio (50%). Siempre que haya casos extremos será la mejor medida. Porcentaje acumulado cercano al
50%.
MODA: valor que se repite con mayor frecuencia. La distribución puede se unimodal, bimodal o
multimodal. Se mira en la parte de frecuencia el valor que más se repite.
6. Medidas de dispersión
VARIANZA: Suma de los cuadrados de las diferencias entre los valores obtenidos y su
media, dividiendo el resultado por el número de casos. Expresa el grado de heterogeneidad
de una población respecto a la variable medida, características similares a la desviación
típica.
DESVIACIÓN TÍPICA: Promedio desviación casos respecto a la media. Raíz cuadrada de
la varianza. Cuanto más cerca está la desviación típica de la media, menor es la dispersión,
es decir la media es más representativa
COEFICIENTE DE VARIACIÓN: Sirve para comparar desviaciones típicas  =
!
|#
$|
RECORRIDO INTERCUARTÍLICO: Diferencia entre el 3º cuartil y el 1º cuartil.
PERCENTILES. Igual que somos capaces de calcular el valor o la posición que ocupa un individuo (mediana)
podemos calcular el de cualquiera.
• 1er cuartil 25% • 2º cuartil 50% (mediana) • 3er cuartil 75% • 4º cuartil 100%
Ejemplo à VARIABLES ORDINALES
El porcentaje acumulado es la suma de el porcentaje válido y sus anteriores, coincidiendo el de la primera
fila con el del porcentaje válido.
De la tabla de Estadísticos, debemos destacar que es un resumen, donde me indican los válidos y los
perdidos. Se le asigna a cada palabra un número, y se lleva a cabo la media, moda y mediana en función de
la suma de las respuestas (cuantas veces se ha
repetido el valor). El 1 es la moda porque es el valor
más alto, equivale a nunca de la primera tabla.
Estadísticos

9
Debemos ver si la media es representativa o no, es
decir compararla con la desviación típica, y si no lo es
debemos ver la mediana, luego moda, y luego percentiles. Los rangos restan el valor mínimo y el máximo.
Tenemos que mirar en las tablas:
1- Frecuencia
2- Porcentaje
3- Porcentaje válido
7. Mediadas de forma de la distribución – Asimetría y Curtosis.
COEFICIENTE DE ASIMETRÍA: (Skewness) Indicador de agrupación
de frecuencias en la curva de la distribución ¿cómo se distribuyen la
media, mediana y la moda? Es el indicador del grado de igualdad de
dos mitades
= 0 distribución simétrica. Media, mediana y moda coinciden en un
punto
> 0 Mayores y positivo. Asimétrica hacia la derecha o de sesgo positivo. Media > mediana y moda
< 0 Menores y negativo. Asimetría hacia la izquierda. Media < mediana y moda
COEFICIENTE DE CURTOSIS: (Kurtosis) Concentración en torno
a la media. Valora la cantidad de observaciones en torno a la media
y la moda (la zona central)
Hace referencia a la mayor o menor concentración en torno a la
media. Solo tiene interés si la distribución es simétrica:
= 0 distribución normal.
> 0 y positivo mayor concentración en torno a la media que en la distribución normal. Leptocúrtica.
Apuntalada

10
< 0 y negativo mayor dispersión lo que expresa su escasa representatividad. Platicúrtica. Aplanada
Ejemplos univariados
Interpretar la tabla.
Mirar siempre la primera columna de frecuencia, luego porcentajes y luego porcentaje válido, además
buscar los totales y los perdidos de cada tabla.
La secuencia de interpretación de la tabla de medias, primero debo ver le porcentaje valido para ver la
muestra de la pregunta. Después miro la media en relación a la desviación típica (sumar y restar) y decido si
la media me sirve o no. Sobre todo si no me sirve debo ver la mediana y la moda. Y ya paso al rango de valor
mínimo y máximo y los percentiles. Lo último que miro es la simetría y la curtosis, mirándola en función del
histograma (forma parecida al caligrama de las precipitaciones y las temperaturas).
El indicador de asimetría (si es positivo y mayor que cero, es decir hay asimetría hacia la derecha) y en la
curtosis, si es positivo y distinto de cero hay más concentración en torno a la media.
o Media, sumar las frecuencias y dividirlo entre el numero de respuestas.
o Mediana, elegir la respuesta que tenga el porcentaje acumulado igual o superior a 50%
o Moda, elegir la frecuencia más grande y poner la pregunta que más se repite
o Asimetría positiva hacia la derecha. Curtosis leptocurtica.
Los perdidos son todos aquellos que no se tienen en cuenta, aunque
también podemos forzar que eso ocurra y se denominan sistema, que por
defecto no me interesan. El perdidos también tenemos que incluir las
preguntas filtro y los que no contestan. Los que indican que son de
sistemas son porque nadie ha elegido esa pregunta, es el 0 de las
preguntas y lo hace automáticamente el programa.
El mínimo es el número más pequeño que alguien ha elegido, y el máximo
es el más alto, y se dan en las preguntas de ratios. Las escalas de ratios

11
son aquellas en las que el individuo contesta una la cantidad que desea (cuántos años tienes), en cambio las
de intervalo tu le das las opciones a contestar (elige del 1 al 10 tu grado de satisfacción).
TEMA 2 : TRATAMIENTOS DE LA INFROMACION –
BAVARIANTE
1.TIPOSDEANÁLISISBIVARIANTE
2.TABLASDECONTIGENCIAS
Búsqueda de relaciones de asociación o dependencia entre dos variables.
Tener en cuanta que si la finalidad es buscar realciones casuales, los
porcentajes se estiman solo en el sentido de la variable independiete.
Variable dependiente à independiente La variable dependiente figurará en las filas y la independiente en la
columnas
La comparación tiene que dar siempre una
diferencia de al menos 5 puntos entre los dos
porcentajes, es decir de 20’3% hay una diferencia del 5% con respecto a 9’2%, si el porcentaje mayor es
20’3%, se marcara para tener en cuenta la pregunta. Teniendo en cuenta que la base es la frecuencia
absoluta.
No sabemos si podemos fiarnos del dato de 6 mujeres, ya que la muestra es pequeña. Debemos buscar donde
se lleva a cabo el 100%, en este caso lo hace de forma vertical, la comparación la tenemos que llevar a cabo
de forma horizontal. Y si el 100% se consigue de forma horizontal la comparación será vertical, hecho indicado
en la tabla con color letras naranjas.
Se quiere à Información a delimitar:

12
– Frecuencias absolutas;
– Porcentajes (horizontales, verticales y totales)
– Estadísticos que midan el grado y la significatividad de la relación entre las variables.
Cada casilla es el resultado del cruce de una fila
con una columna (atributo*atributo). La lectura de
tablas se limita con frecuencia a comentarios
porcentuales. Se contrastan los porcentajes de cada
casilla para comprobar la existencia de variaciones
entre los distintos atributos de las variables. Si la
finalidad es la búsqueda de relaciones causales, los
porcentajes se estiman solo en el sentido de la variable
independiente.
Comparando 14 con el total de varones (69), el
porcentaje pasa al 20% (porcentaje de columna). Es decir el 20% de todas las hombres que compran lo hacen
en temporada. C39 = pregunta 39.
Por último, sobre el total de entrevistados (134), los varones que van a comprar en Temporada
representan el 10,4% (porcentaje total). Y de los hombres que van a comprar en solo lo hacen el 14% del
total.
à Para comentar la tabla podemos destacar que se divide en tres opciones de respuesta, si compras
en temporada, en rebajas o indistintamente. En el total nos indican el número de mujeres (65) y hombres (69)
que forman la muestra y que han contestado a la encuesta. Además en la primera fila de cada categoría nos
dicen cuantas personas en total que han contestado esa opción. En la temporada 20 personas de las cuales
14 son hombres y 6 mujeres, y así con cada opción de respuesta. También nos indica el porcentaje de cada
sexo que contesta a la pregunta
Recuento: Hay 14 hombres que piensan que van a comprar en Temporada ; 14 personas que van a
comprar en Temporada son hombres
Total Fila: Sobre el total de los que van a comprar en Temporada (20 personas), estas 14 personas
representan el 70% (porcentaje de fila)
Total Columna: Comparando 14 con el total de varones (69), el porcentaje pasa al 20% (porcentaje de
columna)
Total: Por último, sobre el total de entrevistados (134, los varones que van a comprar en Temporada
representan el 10,4% (porcentaje total)
Si la finalidad es búsqueda de relaciones causales, los porcentajes se estiman sólo en el sentido de la
variable Independiente
à Las diferencias porcentuales deben superar un determinado valor (al menos al 5%) para que puedan
considerarse importantes. (Depende del error muestral que se derive del tamaño de las bases sobre las que
se calculan los porcentajes. Si los tamaños son bajos, la diferencia ha de ser superior, si se quiere deducir
asociación entre las variables)
à En la exposición de la tabla (Informe) ha de indicarse explícitamente la dirección en la que se han
calculado los porcentajes. Como solo se aportan datos porcentuales se recomienda poner entre paréntesis
las bases de los porcentajes.
à Poner título que describa suscintamente el contenido de la tabla
En las tablas de contingencia, la lectura porcentual, aunque ilustrativa, resulta insuficiente. Precisa de
estadísticos que gradúen la asociación entre las variables y su significatividad.

13
Significatividad de la asociación
Si queremos generalizar los resultados obtenidos a la población
CONTRASTE DE LA CHI CUADRADO
Se calcula bajo el supuesto de que la muestra es aleatoria y simple, cuando la muestra no es aleatoria
sólo tiene valor indicativo
Se comparan las frecuencias que se observan en cada casilla (en la muestra) con aquellas que se habrían
obtenido en el supuesto de que las dos variables fuesen independientes.
a) Frecuencias Observadas: Número Real
b) Frecuencias Esperadas: Número de casos que debería haber en la casilla si las categorías fueran
independientes, si no hubiera relación.
El chi-cuadrado parte de la hipótesis de que las dos variables son independientes.
Cuanto mayor sea la diferencia entre valores observados y valores esperados (valor teórico*) mayor
será la probabilidad de que la muestra provenga de una población en la que las variables estén relacionadas
(no sean independientes).
Debo mirar la diferencia entre el valor observado y el valor
esperado o teórico, que figura en las tablas del chi cuadrado y
posee unos grados de libertad. Lo habitual es que la
significatividad sea inferior al 0’05, lo que indica que solo me equivoco en un 5%. 95% de la veces acertare
en lo que estoy diciendo
Su valor depende del tamaño de la tabla Número de filas y columnas expresado en grados de libertad
(degrees of freedom)
Permite rechazar o aceptar la hipótesis nula de independencia:
– Si el valor es alto y la significatividad asociada es INFERIOR a 0,05: la rechazamos. Es decir, Sí existe
asociación entre las dos variables, dependientes.
– Si el valor es bajo y la significatividad asociada es SUPERIOR a 0,05: la aceptamos, es decir, son
independientes, no existe asociación.
LA FALTA DE DATOS DENTRO DE CADA CELDA
En el análisis de tabulaciones cruzadas la muestra se divide en subgrupos. La falta de datos en las
diferentes casillas puede afectar y sesgar los resultados obtenidos, impidiendo la extrapolación de la muestra
al público objetivo.
à Cuando el número de celdas con frecuencia
esperada inferior a 5 supera el 20% del total de celdas,
no es posible concluir ni a favor de la independencia ni
de la dependencia. No puedo decir si hay o no.
Debemos mirar la significatividad asintótica
bilateral, en el caso al 0’07, no me vale porque me
equivoco en un 7% y no es válido para mí. Si el
porcentaje subrayado en rojo es igual o superior al 20%
no puedo concluir si hay o no dependencia, esto se hace
antes de ver si la relación o la asociación es menor o
mayor al 5%y solo lo hago si es menor al 20%.

14
Es necesario que el tamaño muestra n sea grande (n > 30), y todas las frecuencias esperadas sean iguales
o mayores a 5 (en ocasiones deberemos agrupar varias categorías a fin de que se cumpla este requisito
Cuanto menor sea la muestra, me puede pasar que las personas no son suficientes, es decir no es lo
mismo que en una cosa me contesten 50 personas y en otra solo 6 personas, y no me puedo dejar llevar o
sacar conclusiones con ese dato tan poco significativo.
///
Si el valor es menor 0’05, podemos rechazar la hipótesis nula de independencia, lo que implica que hay
dependencia, es decir hay relación entre las variables. Si hay asociación entre ambas. Si es superior hay
independencia y no hay relación entre las variables.
///
Grado de la Asociación (estadísticos)
a) Variables nominales (estadísticos basados en el ji-
cuadrado). PHI y V de Cramer (tabla de 2x2), Coeficiente de
Contingencia (más grande); “d” o diferencia de porcentajes
b) Variables ordinales. Rho de Spearman,, Tau B (tablas
cuadradas) y Tau C de Kendall (tablas reptangulares), “D” de
Sommer. Gamma (A más, más: a menos-menos)
c) Variables de intervalo. Coeficiente de Correlación
producto-momento de Pearson
Análisis de los residuos
Los residuos permiten interpretar el sentido de la relación. En lugar de ver si las dos variables están
relacionadas estudiamos cada pareja de categorías. (es como la aplicación ji-cuadrado al estudio de parejas
de categorías)
El residuo es igual al valor observado menos el valor esperado bajo el supuesto de independencia. Si
existe relación entre las variables el residuo tiene que ser grande. ¿Cómo determinar que es grande?. El
residuo es una medida individualizada que permite analizar comportamiento celda a celda.
Lo primero: Comprobar que el residuo corregidos (ajustados) es significativo: lo es siempre que su valor
absoluto sea superior a 1,96 (en valor absoluto)
– Cuanto mayor sea, mayor relación entre cada pareja de categorías
Una vez que se comprueba que el residuo es significativo se interpreta su signo.
– Positivo: hay más valores observados de los que cabría esperar bajo el supuesto de independencia.
– Negativo: hay menos valores de los observados de los que cabría esperar bajo el supuesto de
independencia
à “Los datos estadísticos señalan que existe una asociación estadísticamente significativa entre la
importancia que le dan a correr en su vida diaria y el sexo (X2 (4) =18.334, p ≤ 0.05). No obstante, esta relación
es más bien débil (cc=.15 p ≤ 0.00)” . Comparativamente, los hombres conceden más importancia a correr en
su vida.

15
Paso 1. Comprobar diferencias porcentuales:
deben ser mayores del 5%
Paso 2. Tabla de chi-cuadrado: deben ser
menor del 20%
Paso 3. Tabla de chi-cuadrado: menor del 0.05
Paso 4. Tabla coeficiente contingencia menor
20-25: débil; entre 20-25: moderado
Paso 5. Comprobar residuos corregidos:
mayores del 1.96
3.ANÁLISISBIVARIANTEDEMEDIAS(ANOVA)
Una variable dependiente: tiene que ser una variable métrica (intervalo-razón), ya que vamos a calcular
su media. Una variable independiente: nominal (ordinal) que permita dividir la muestra. En función de si es
nominal u ordinal, usaremos un análisis u otro.
Hay muestras independientes (análisis trasversal sin tener nada en
cuenta) y muestras pareadas (longitudinal, es decir a lo largo del tiempo
y siempre encuesto a los individuos en momentos del tiempo diferentes).
Nos vamos a centrar en los análisis de variables independientes. a su vez
las variables independientes (categórica) que se divide en dos:
– Si ésta tiene solo dos categorías (es dicotómica), se usa la comparación
de medias con T-TEST de Student; » SEXO (HOMBRE; MUJER) à nominal con
dos opciones de respuesta
– Si tiene tres o más categorías, se usa Análisis de la Varianza (ANOVA) à
más de 2 opciones de respuesta aunque solo puedo elegir una.
PASO PREVIO: Requisitos necesarios ¿Los datos se ajustan a una distribución normal?
– La distribución Normal de la variable cuantitativa en los grupos que se comparan LA INFERENCIA CON
Pruebas paramétricas
– Su NO cumplimiento conlleva la necesidad de recurrir a la Inferencia con Pruebas NO Paramétricas.

16
à En definitiva si después de ver su distribución, vemos que es normal uso las pruebas del esquema de
paramétricas en caso contrario, es decir cuando no cumple la distribución de la normal debo ir por la prueba
de NO paramétricas.
Después debo ver la homogeneidad de varianzas (HOMOCEDASTICIDAD) en las poblaciones de las
que proceden los grupos. Esto me indica la diferencia de opinión entre el grupo. Ya que si hay mucha
diferencia entre los grupos no puedo comparar dichos grupos entre si. Aunque la media me de lo mismo, la
desviación típica o la varianza me mide la dispersión entre las opiniones, o si opinan todos igual.
INDICADORES PARA Comprobar normalidad:
1.PRUEBAS DE NORMALIDAD
Es decir debo ver si se cumple la normalidad o no y ver si es T- TEST o ANOVA. Para saber si usar
paramétricos o no.
– Kolmogonov-Sminov (con la modificación de
Lillierfors) . Es el más importante. Aunque puede
asumirse que se cumple para muestras grandes (n >
100), debe explorarse siempre, con gráficos y pruebas
de normalidad
Este es el más importante, ya que supone que las
muestras son grades, es decir superiores a 100. Y
además del indicador permite sacar una serie de
gráficos que nos permite ver la interpretación de los
datos de forma visual. En caso de que sea inferior a
30 casos usare el Shapiro – Wilks.
Hay que ver si los puntitos están o no cerca de la
recta, cauto más cerca más de acomodan a la Normal.
En el caso de abajo no ocurre.
Pruebas gráficas basadas en gráficos de
normalidad como Q-Q plots. (ver doc “pruebas
normalidad gráficos”
En el caso del gráfico de caja y bigotes, la línea central negra del cuadrado marrón me indica el tipo de
asimetría, si esta estuviese en el centro me indicaría que es una normal. Si esta arriba es positiva y si esta
hacia abajo es negativa.
à Kolmogonov-Sminov (con la modificación de Lillierfors). Para muestras mayores de 30 casos .
Comprobamos el nivel de significación,
– si es MENOR que 0.05 la distribución NO es normal,
Si la significatividad es menor a 0’05 la distribución NO es normal
– si es MAYOR que 0.05 la distribución es normal.
Si la significatividad es mayor a 0’05 la distribución SI es normal
à Shapiro-Wilks. Para muestras menores a 30 casos
Hay que tener en cuenta que los gráficos orientan sobre la procedencia o no de la muestra de una
población normal. Sin embargo, es posible trabajar con una prueba estadística que certifique la normalidad o
no de las variables. El principal inconveniente es la subjetividad de la interpretación visual, ya que al contrario
de los test de normalidad numéricos no se concluye con una p de probabilidad objetiva.

17
2.PRUEBAS DE IGUALDAD DE VARIANZAS (HOMOCEDASTICIDAD)
– Prueba de Levene – Menos exigente, y existen alternativas para hacer el contraste. En SPSS hay una
lectura de la prueba “asumiendo varianzas desiguales”. – (Un grupo no es excesivamente distinto del otro. Si
fuese así, no se podrían comparar). Esto te indica si las varianzas son o no iguales. Este indicador, es un poco
menos exigente y me dice que fila mirar.
Dentro de una tabla me dice si tengo que mirar una fila u otra. Si la probabilidad asociada al estadístico
Levene es:
• p >0.05 suponemos varianzas iguales à entre los grupos no hay dispersión, son homogéneas las
opiniones
• p < 0.05 suponemos varianzas distintas à hay mucha dispersión entre las opiniones de los grupos
/// /// /// .
à Se interpreta igual en todos los casos (4 casos diferentes en verde del esquema) igual que la Chi –
Cuadrado. Deben ser inferiores a 0’05 para que sean significativas las diferencias.
1. Contrastes Paramétricos
PARA T-TEST: mirar la T y su significatividad, se plantea la hipótesis nula que los dos grupos provienen de la
misma distribución y que, por tanto, la diferencia de medias que se observan es atribuible al azar.
– Si es p < 0’5 son significativas las diferencias
PARA ANOVA: mirar la F de Snedecor y su significatividad
2. Contrastes No paramétricos
PARA T-TEST: “U de Mann- Whitney” o también llamado Wilcoxon (T-Test) . Plantea la hipótesis nula que
los dos grupos provienen de la misma distribución y que, por tanto, la diferencia de medias que se observan
son atribuible al azar.
PARA ANOVA :Para K-Krustal Wallis para K-muestra (Anova)

18
Según este esquema, para identificar el tipo de normalidad debemos:
- Comprobar la normalidad, si sale que si es normal voy por las pruebas paramétricas, y si no por pruebas
no paramétricas
- En el caso de las paramétricas debo observar si mi pregunta tiene dos opciones de respuesta (T – TEST)
o más de dos aplicando ANOVA
à si es paramétrica y T- TEST à hacer paso intermedio para hallar su significatividad.
- Si es no paramétrica ver si tiene 2 opciones de respuesta (T – TEST) o más de dos opciones de respuesta
(ANOVA)
Los indicadores en verde del esquema me dicen si los datos o diferencias de las medias, se deben al
azar y solo pasan en mi muestra o se extrapolan a la población, y ocurre de forma común.
RESUMEN:
1- Comprobar normalidad
– Muestras Mayores de 30: Kolmogonov-Sminov
– Muestras Menores de 30: Shapiro-Wilks
2- Se cumple la normalidad
3- Significativa la relación entre las variables, y si se puede extrapolar
Según leave consideramos la igualdad de
varianzas, es decir si ocurre o no, donde la
significatividad bilateral es mayor a 0’05 por lo tanto el
dato no es significativo, es decir se cumple la igualdad
de varianzas.
Buscar tabla y ponerla
No entra correlación lineal, anova si porque se interpretan igual que la chi cuadrado es
decir debe ser menor a 0’05 para que sea significativo.
Ejemplo ///

19
Mirar ejemplos y gráficos tema 3 à para entender como se hace
Los solteros son más propensos a querer comprar descapotables. • Sólo ha contestado un separado • El
grado de acuerdo en sus opiniones entre los casados es superior a los solteros (mayor dispersión)
Se puede concluir que existen diferencias significativas entre el estado civil y la intención de compra de
un descapotable. El valor de la F, con una significatividad asociada inferior a 0,05, lo confirma. Existe un efecto
estadísticamente significativo entre el estado civil y la intención de compra de un descapotable F=9,051, p ≤

20
0.05). Los solteros son más propensos a querer comprar descapotables Existe un efecto estadísticamente
significativo entre el estado civil y la intención de compra de un descapotable (K-Krustal Wallis p ≤ 0.05). Los
solteros son más propensos a querer comprar descapotables
4.CORRELACIÓNLINEAL
En las distribuciones bidimensionales se estudian dos conjuntos
de datos que varían a la vez, cada elemento de la distribución está definido por dos valores (x,y). Lo que
interesa es estudiar la posible relación entre las dos variables. Cuando representamos gráficamente una
distribución bidimensional en un sistema cartesiano obtenemos lo que llamamos diagrama de dispersión ó
nube de puntos.
La forma que adopta la nube de puntos nos indica el tipo y grado de relación o dependencia entre ambas
variables. Hablaremos de correlación lineal cuando los datos tienden a agruparse alrededor de una recta
En el caso en que la nube de puntos sugiera una relación lineal, con forma de recta,
entre las variables, existen dos coeficientes que complementan la información gráfica:
• Covarianza. es una medida de la
dependencia estadística entre dos variables
• Coeficiente de correlación lineal
Cociente entre la covarianza de las dos variables y el producto de sus desviaciones
típicas. Este coeficiente, llamado de Pearson, es una medida objetiva de la
correlación lineal entre dos variables.
Se utiliza el Coeficiente de Correlación de Pearson (cociente entre la covarianza de las dos variables y el
producto de sus desviaciones típicas).
– Es paramétrico.
– Su homólogo no paramétrico es Coeficiente de Correlación Rho de Spearman.
Permite conocer el grado de asociación entre dos variables. Se puede conocer la dirección de dicha
asociación en función del signo del coeficiente.
– Si |r| < 0’3 → la asociación es débil
– Si 0,30 ≤ | r | ≤ 0,70 → la asociación es moderada
Si |r| >0,70→la asociación es fuerte
Hacer también el test de hipótesis: Hipótesis nula de que el r vale cero en la población (es una prueba a
traves del estadístico t de Student).
• Supuestos
1. “Que las variables analizadas son simétricas (no hay una dependiente y otra independiente) y, por
tanto, son intercambiables mutuamente.
2. Que lo que mide es el grado de ajuste de los puntos o pares de valores a una hipotética línea recta
(explora la relación lineal). Esto quiere decir que podría existir otro tipo de asociación (curvilínea, exponencial,
etc.) y no ser detectada por este coeficiente.
3. Que las variables se distribuyen normalmente (criterio de normalidad) en la población de la que proviene
la muestra.

21
4. Que las variables exploradas provienen de observaciones independientes (esto es, solo debe haber un
valor para cada variable en cada individuo de la muestra), para evitar lo que se conoce como auto correlación.
(longitudinal)
5. En este mismo sentido, la correlación lineal no es aplicable cuando una variable forma parte de la otra
o su cálculo incluye la otra variable (por ejemplo, no es correcto evaluar la correlación entre la variable “IMC”
–índice de masa corporal- y la variable “talla”). “
Toma valores entre -1 y 1:
– 0 implica ausencia de correlación.
– Si es positivo implica una relación directa entre las dos variables (a más de una más de la otra)
– Si es negativo implica una relación inversa entre las dos variables ( a menos de una más de la otra
Debemos fijarnos en el tipo de variable independiente (en este caso nominal) que tenemos, y si son
dependientes (intervalo u ordinales) usamos el análisis de bivariantes de medias (medias, desviaciones, etc.),
además de usar el ANOVA y la F de snedecor. ,

Wuolah Inversion mer 2.pdf

Recommandé

Recommandé

Contenu connexe

Similaire à Wuolah Inversion mer 2.pdf

Similaire à Wuolah Inversion mer 2.pdf (20)

Dernier

Dernier (20)

Wuolah Inversion mer 2.pdf