SlideShare une entreprise Scribd logo
1  sur  107
Télécharger pour lire hors ligne
Manual de Estatística Aplicada

ÍNDICE
1. INTRODUÇÃO .............................................…....................................

4

1.1 Definições Gerais ........................................................................

5

1.1.1. População
1.1.2. Variáveis ou atributos
1.1.3. Processo de amostragem
1.2 A Estatística Descritiva e a Estatística Indutiva .............…......

6

2. ESTATÍSTICA DESCRITIVA

8

2.1 Variáveis Qualitativas .................................................................

8

2.2 Variáveis Quantitativas Discretas .............................................

10

2.3 Variáveis Quantitativas Contínuas ............................................

11

2.4 Medidas de Localização .............................................................

13

2.4.1. Média
2.4.2. Mediana
2.4.3. Moda
2.5 Medidas de Ordem ......................................................................

17

2.6 Medidas de Assimetria ...............................................................

18

2.7 Medidas de Dispersão ................................................................

19

2.7.1. Dispersão Absoluta
2.7.2. Dispersão Relativa
2.8 Análise de Concentração ...........................................................

21

2.8.1. Curva de Lorenz
2.8.2. Índice de Gini

Manual Técnico de Formando

2
Manual de Estatística Aplicada

2.9 Estatística Descritiva Bidimensional ........................................

24

2.9.1. Diagrama de dispersão
2.9.2. Regressão simples
2.9.3. Correlação linear
2.9.4. Correlação ordinal
3. ESTATÍSTICA INDUTIVA
3.1 Noções básicas de probabilidades ...........................................

41

3.2 Probabilidade condicionada ......................................................

44

3.3 Funções de Probabilidade ........................................…..............

46

3.4 Estimação por Intervalos ..........................................…..............

53

3.5 Testes de hipóteses ..................................................…..............

63

3.6 Aplicações Estatísticas: Fiabilidade .........................................

77

3.6.1. Conceito de fiabilidade
3.6.2. Fiabilidade de um sistema
3.7 Aplicações Estatísticas: Controlo Estatístico de Qualidade ..

82

3.8 Aplicações Estatísticas: Tratamento Estatístico de Inquéritos .

88

3.8.1. Teste de independência do qui-quadrado
3.8.2. Tratamento de inquéritos
BIBLIOGRAFIA

Manual Técnico de Formando

104

3
Manual de Estatística Aplicada
"A estatística é a técnica de torturar os números até que eles confessem".
Autor desconhecido

1. INTRODUÇÃO

Inicialmente, a actividade estatística surgiu como um ramo da Matemática.
Limitava-se ao estudo de medições e técnicas de contagem de fenómenos
naturais e ao cálculo de probabilidades de acontecimentos que se podiam
repetir indefinidamente. Actualmente, os métodos estatísticos são utilizados em
muitos sectores de actividade, tendo como algumas aplicações estudos de
fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento
de inquéritos, sondagens, modelos econométricos, previsões, etc.
Exemplo de uma estatística: os valores da inflação entre 1980 e 1990
constituem uma estatística. Fazer estatística sobre estes dados poderia
consistir, por exemplo, em traçar gráficos, calcular a inflação média trimestral
ou prever a inflação para 1991.
A análise de um problema estatístico desenvolve-se ao longo de várias fases
distintas:
(i) Definição do Problema
Saber exactamente aquilo que se pretende pesquisar; estabelecer o
objectivo de análise e definição da população
(ii) Amostragem e Recolha de Dados
Fase operacional. É o processo de selecção e registo sistemático de dados,
com um objectivo determinado. Os dados podem ser primários (publicados
pela própria pessoa ou organização) ou secundários (quando são
publicados por outra organização).

Manual Técnico de Formando

4
Manual de Estatística Aplicada

(iii) Tratamento e Apresentação dos Dados
Resumo dos dados através da sua contagem e agrupamento. É a
classificação de dados, recorrendo a tabelas ou gráficos.
(iv) Análise e Interpretação dos Dados
A última fase do trabalho estatístico é a mais importante e delicada. Está
ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade
principal é descrever o comportamento do fenómeno em estudo (estatística
descritiva).

Na

estatística

indutiva

a

interpretação

dos

dados

se

fundamentam na teoria da probabilidade.

1.1. Definições Gerais
1.1.1. População
Fazer estatística pressupõe o estudo de um conjunto de objectos bem
delimitado com alguma característica em comum sobre os quais observamos
um certo número de atributos designados por variáveis.
Exemplo: Empresas existentes em Portugal

1.1.2. Variáveis ou atributos

As propriedades de uma população são estudadas observando um certo
número de variáveis ou atributos. As variáveis podem ser de natureza
qualitativa ou quantitativa. As variáveis quantitativas podem ainda dividir-se
entre discretas e contínuas. As variáveis discretas assumem apenas um
número finito numerável de valores. As variáveis contínuas podem assumir um
número finito não numerável ou um número infinito de valores.
Exemplo: um conjunto de empresas pode ser analisado em termos de sector
de actividade (atributo qualitativo), número de trabalhadores (atributo
quantitativo discreto), rácio de autonomia financeira (atributo quantitativo
contínuo), etc

Manual Técnico de Formando

5
Manual de Estatística Aplicada

1.1.3. Processo de amostragem
Para conhecer de forma completa a população, podem efectuar-se:
-

recenseamentos (indagação completa de todos os elementos da
população); este processo é, no entanto, tipicamente moroso e
dispendioso, sendo esses os motivos porque os Censos são realizados
apenas em cada 10 anos.

-

estudos por amostragem (observação de apenas um subconjunto, tido
como representativo do universo). As técnicas de recolha de amostras
garantem a sua representatividade e aleatoriedade.

1.2.

A Estatística Descritiva e a Estatística Indutiva

Para além do ramo de amostragem, a estatística compreende dois grandes
ramos: a estatística descritiva e a estatística indutiva.
A estatística descritiva é o ramo da estatística que se encarrega do tratamento
e análise de dados amostrais. Assim, depois de recolhida a amostra de acordo
com técnicas que garantem a sua representatividade e aleatoriedade, fica
disponível um conjunto de dados sobre o universo “em bruto” ou não
classificados. Para que seja possível retirar qualquer tipo de conclusões, tornase necessário classificar os dados, recorrendo a tabelas de frequências e a
representações gráficas, isto é, é preciso tratar os dados. Depois de tratados,
será possível proceder à análise dos dados através de várias medidas que
descrevem o seu comportamento: localização, dispersão, simetria dos dados,
concentração, etc. São disso exemplo indicadores numéricos bem conhecidos
como a média ou a variância.
A estatística indutiva é o ramo da estatística que se ocupa em inferir das
conclusões retiradas sobre a amostra para a população. De facto, a amostra
não é mais do que um passo intermédio e exequível de obter informações
sobre o verdadeiro objecto de estudo, que é o universo. A estatística indutiva
(ou inferência estatística) garante a ligação entre amostra e universo: se algo

Manual Técnico de Formando

6
Manual de Estatística Aplicada

se concluiu acerca da amostra, até que ponto é possível afirmar algo
semelhante para o universo? É nesta fase que se procuram validar as
hipóteses formuladas numa fase prévia exploratória. Claro que o processo de
indução implica um certo grau de incerteza associado à tentativa de
generalização de conclusões da “parte” (amostra) para o “todo” (universo). O
conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não
vai ser possível afirmar com toda a certeza que o comportamento da amostra
ilustra perfeitamente o comportamento do universo, mas apenas que o faz com
forte probabilidade. As inferências indutivas são assim elaboradas medindo, ao
mesmo tempo, o respectivo grau de incerteza. Daí que, na ficha das técnicas
das sondagens eleitorais, por exemplo, apareçam referências ao “nível de
confiança” associado aos resultados e ao “erro” cometido.
O esquema seguinte ilustra a “roda” da disciplina de estatística, relacionando
os seus diferentes ramos:

POPULAÇÃO
OU UNIVERSO

Previsões
Estimação
Erros

Amostragem

INFERIR DA AMOSTRA
PARA O UNIVERSO

AMOSTRA

Estatística
Descritiva

TRATAMENTO E
ANÁLISE DA AMOSTRA

Inferência
Estatística

Gráficos; tabelas; medidas descritivas

Manual Técnico de Formando

7
Manual de Estatística Aplicada

2. ESTATÍSTICA DESCRITIVA

Os resultados da observação de um atributo sobre os elementos do conjunto a
analisar constituem os dados estatísticos. O ramo da estatística que se ocupa
do tratamento, apresentação e análise de dados amostrais denomina-se de
estatística descritiva.

2.1. Variáveis Qualitativas
Os dados qualitativos são organizados na forma de uma tabela de frequências,
que representa o número ni de elementos de cada uma das categorias ou
classes e que é chamado de frequência absoluta. A soma de todas as
frequências é igual à dimensão da amostra (n).
Numa tabela de frequências, além das frequências absolutas, também se
apresentam as frequências relativas (fi), obtida dividindo a frequência absoluta
pelo número total de observações.
Modalidades
Mod. 1

Frequências relativas
f1

Mod. j

nj

fj

Mod. n
Total

fi =

Frequências absolutas
n1

nn
n: dimensão da amostra

fn
1

ni
; ni: nº de vezes que cada modalidade da variável foi observada.
n

Manual Técnico de Formando

8
Manual de Estatística Aplicada

Exemplo: 68 empresas agrupadas por sector de actividade
Uma forma de resumir a informação contida nos dados é construir uma tabela
de frequências em que se consideram as diferentes modalidades que o sector
de actividade pode tomar:
Sector de actividade
Indústria transformadora
Construção e obras públicas
Comércio e serviços
Financeiro
Segurador
Total

Nº de empresas (ni)
25
6
14
19
4
68

% de empresas (fi)
36,8%
8,8%
20,6%
27,9%
5,9%
1

Estes dados podem também ser representados graficamente através de:

Diagrama de barras
Para cada modalidade, desenha-se uma barra de altura igual à frequência
absoluta ou relativa (as frequências relativas são de preferir, pois permitem a
comparação de amostras de diferentes dimensões).

40%
30%
20%
10%
0%
IT

COB

CS

F

S

Diagrama sectorial ou circular
Esta representação é constituída por um círculo, em que se apresentam tantos
sectores quantos as modalidades em estudo. O ângulo de cada sector é
proporcional às frequências das classes, fazendo corresponder o total da
amostra (n) a 360º (por exemplo, para a indústria transformadora, o ângulo
será de 360ºx36,8%=132,3º). Geralmente, juntamente com a identificação da
modalidade, indica-se a frequência relativa respectiva.
Manual Técnico de Formando

9
Manual de Estatística Aplicada

6%

IT
36%

28%

COB
CS
F
S

9%

21%

2.2. Variáveis Quantitativas Discretas
São variáveis que assumem um número finito ou infinito numerável de valores.
A apresentação destas amostras é semelhante às variáveis qualitativas,
fazendo-se uma tabela de frequências e uma representação gráfica recorrendo
ao diagrama de barras.
Valores da variável
X1

Frequências absolutas
n1

Frequências relativas
f1

Xj

nj

fj

Xn
Total

nn
n: dimensão da amostra

fn
1

Exemplo: X é o nº de defeituosos por embalagem numa amostra de 200
Nº de defeituosos (X)
0
1
2
3
4
Total

Nº de embalagens (ni)
80
60
30
20
10
200

% de embalagens (fi)
40%
30%
15%
10%
5%
1

50%
40%
30%
20%
10%
0%

0
1
Manual Técnico de Formando

12

23

34

45
10
Manual de Estatística Aplicada

Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi)
acumuladas:
Nº defeituosos (X)
0
1
2
3
4
Total

Nº embalagens (ni)
80
60
30
20
10
200

% embalagens (fi)
40%
30%
15%
10%
5%
1

Ni
80
80+60
170
190
200

Fi
40%
40%+30%
85%
95%
100%

2.3. Variáveis Quantitativas Contínuas
Como foi dito anteriormente, uma variável (ou atributo) é contínua quando
assume um número infinito não numerável de valores, isto é, podem assumir
qualquer valor dentro de um intervalo.
Neste caso, a construção da tabela compreende duas etapas:
(i) Definição de classes de valores disjuntas, correspondentes a intervalos de
números reais fechados à esquerda e abertos à direita, cuja constituição
obedece a certas regras
(ii) Contagem das observações pertencentes a cada classe

Regra de construção de classes
(pressupõe a formação de classes de igual amplitude)
- Número de classes a constituir
Depende de n = dimensão da amostra
Se n≥25, o número de classes a constituir deve ser 5
Se n<25, o número de classes a constituir deve ser n
- Amplitude comum a todas as classes
Sendo a amplitude total dos dados dada pela diferença entre o valor
máximo e o valor mínimo observados, então a amplitude de cada classe
será:

Valor máximo da variável observado – Valor mínimo da variável observado
Nº de classes a constituir

Manual Técnico de Formando

11
Manual de Estatística Aplicada

Classes de
valores da variável
[x1; x2[
[x2; x3[
[x3; x4[

Frequências absolutas
n1

f1

nj

fj

n
n: dimensão da amostra

[xn-1; xn]
Total

Frequências relativas

fn
1

Exemplo: Estudo do rácio de autonomia financeira de uma amostra de 68
empresas
Rácio (X)
[0; 0.5[
[0.5; 1[
[1; 1.5[
[1.5; 2[
[2; 3[
[3; 6]
Total

Nº de empresas (ni)
4
22
26
10
4
2
68

% de empresas (fi)
5.9%
32.4%
38.2%
14.7%
5.9%
2.9%
1

Amplit (hi)
0.5
0.5
0.5
0.5
1.0
3.0

fi/hi
11.8%
64.7%
76.5%
29.4%
5.9%
1%

A distribuição de frequências representa-se através de um histograma.
Um histograma é uma sucessão de rectângulos adjacentes, em que a base é
uma classe e a altura a frequência (relativa ou absoluta) por unidade de
amplitude (ni/ai ou fi/ai), sendo a amplitude de cada classe ai=ei-ei-1. A área total
do histograma é a soma das frequências relativas, isto é, 1.

fi/hi

90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

5,5

6

racio

Manual Técnico de Formando

12
Manual de Estatística Aplicada

1. Esta distribuição permite visualizar o tipo de distribuição e deve salientar
alguns aspectos mais relevantes desta (moda, classe modal, ...). Como
as classes podem ter amplitudes diferentes, para que todos os
rectângulos (colunas) sejam comparáveis é necessário corrigir as
frequências das classes (calculando as frequências que se teria se a
amplitude de todas as classes fosse igual e igual a 1)
2. É preferível representar o histograma com fi/hi do que com ni/hi uma vez

que deste modo é possível comparar distribuições com diferente número
de observações amostrais.
Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi)
acumuladas:
Rácio (X)
[0; 0.5[
[0.5; 1[
[1; 1.5[
[1.5; 2[
[2; 3[
[3; 6]
Total

Nº empresas (ni)
4
22
26
10
4
2
68

% empresas (fi)
5.9%
32.4%
38.2%
14.7%
5.9%
2.9%
1

Ni
Fi
4
5.9%
4+22
5.9%+32.4%
4+22+26
76.5%
4+22+26+10
91.2%
66
97.1%
68
100%

2.4. Medidas de localização
2.4.1. Média ( X )
É a medida de localização mais usada, sobretudo pela sua facilidade de
cálculo.
Dados não-classificados (não agrupados numa tabela de frequências)

x =

1
n

n
i =1

xi

Média aritmética simples

Dados classificados (isto é, agrupados numa tabela de frequências)
Variáveis discretas

Manual Técnico de Formando

13
Manual de Estatística Aplicada

1
n

x =

n
i =1

ni x i

=

n
i =1

f i xi

Média ponderada dos valores de X

Exemplo 2:

x =

0 x80 + ... + 4 x10
= 1,1
200

Dados classificados (isto é, agrupados numa tabela de frequências)
Variáveis contínuas
x =

1
n

n
i =1

ni ci

=

n
i =1

f i ci

Média ponderada dos pontos médios das classes

onde ci é o ponto médio de cada classe (

lim . inf . + lim . sup .
)
2

Exemplo 3:

x = 0,059 x0,25 + ... + 0.029 x 4,5

= 1,2705

A média é uma medida de localização que, geralmente, indica o valor central
da distribuição, entendido como o valor em torno do qual se distribuem os
valores observados. Desta forma, a média é muitas vezes utilizada como valor
representativo da amostra.
No entanto, a média tem o grande inconveniente de ser sensível a valores
muito extremados ou aberrantes da distribuição (outliers). Em casos desses, a
média deixa de ser um valor que aparece na parte central da distribuição para
ser “empurrada” para os extremos. Nestes casos, é preferível recorrer à
informação complementar fornecida por outras medidas de localização, como a
moda e a mediana, que se definem a seguir.

2.4.2. Mediana (Me)
A mediana não se calcula a partir do valor de todas as observações, mas a
partir da posição dessas observações.

Manual Técnico de Formando

14
Manual de Estatística Aplicada

Dados não-classificados
Se tivermos n valores x1, x2, ... xn
Se n fôr ímpar,

Me = x n+1
2

Se n fôr par,

xn + xn
Me =

2

2

+1

2

Exemplo
Para n=5 (ímpar)
8,9

13

Me =

13,5 20,2 105,8

x 5+1 =

x3 = 13,5

2

Para n=6 (par)
7,2

7,6

11,7 12,5 13,6 191

x6 +
Me =

x6

2

2

+1

2

=

x3 + x 4 11,7 + 12,5
=
2
2

= 12,1

Dados classificados
A mediana é o valor tal que Fi = 0,5
Variáveis discretas
Se existe um valor de xi para o qual Fi = 0,5, então fala-se em intervalo
mediano.
Se não existe nenhum valor de xi para o qual Fi = 0,5, então a mediana é
o primeiro valor para o qual Fi > 0,5.
Manual Técnico de Formando

15
Manual de Estatística Aplicada

Exemplo 2:
Mediana = 1 (com Fi = 0.7, primeiro valor que ultrapassa 0,5), o que quer
dizer que pelo menos em metade das embalagens apareceu 1 artigo
defeituoso ou menos.

Variáveis contínuas
Em geral, determina-se o valor para o qual Fi = 0,5 através de uma regra
de três simples, atendendo a que as frequências acumuladas variam
uniformemente dentro de cada classe.
Exemplo 3:
Classe mediana (classe a que corresponde frequência acumulada 0,5):
1 : Fi =0,383
1,5 : Fi = 0,765
Cálculo da mediana:
0,765 - 0,383 ------------ 1,5 - 1
0,5 – 0,383 -------------- Me – 1
Me = 1+((0,5x0,17)/0,382)= 1,15
Isto é, 50% das empresas apresentam rácio de autonomia financeira
inferior a 1,15.
De uma forma geral:
Me = L inf +

0.5 − FL inf
xamp. classe mediana
FL sup − FL inf

2.4.3. Moda (Mo)
Variáveis discretas
A moda é valor de X para o qual fi é máximo, isto é, é o valor mais
frequente da distribuição.
Manual Técnico de Formando

16
Manual de Estatística Aplicada

Exemplo 2:
Mo=0 (com fi=0,4)
Variáveis contínuas
A classe modal é a classe de valores de X para o qual fi/hi é máximo,
isto é, é a classe a que corresponde maior frequência por unidade de
amplitude.
Exemplo 3:
Classe modal: [1-1,5[

2.5. Medidas de ordem
Tal como se definiu para a mediana, é possível definir outros valores de
posição ou valores separadores da distribuição em partes iguais.
Chama-se quantil de ordem p ao valor de x a que corresponde Fi = p.
-

Se p=0,01; 0,02;.....0,99, chama-se ao quantil percentil

-

Se p=0,1; 0,2;...0,9, chama-se ao quantil decil

-

Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A
mediana é uma caso particular dos quartis (coincide com Q2)
Máximo

Variável discreta
O quantil de ordem p é o primeiro valor de x para o qual
Fi>p.
Variável contínua
Calcula-se por uma regra de três simples, como a

25%
maiores

mediana.
De uma forma geral:
Q1 = L inf +

0.25 − FL inf
xamp. classe Q1
FL sup − FL inf

0.75 − FL inf
Q3 = L inf +
xamp. classe Q3
FL sup − FL inf
Manual Técnico de Formando

Q3
Mediana

50% mais
centrais

Q1

Mínimo17

25%
menores
Manual de Estatística Aplicada

A representação gráfica destas medidas designa-se de diagrama de
extremos e quartis e serve para realçar algumas características da amostra.
Os valores da amostra compreendidos entre os 1º e 3º quartis são
representados por um rectângulo (caixa) com a mediana indicada por uma
barra. Seguidamente, consideram-se duas linhas que unem os meios dos
lados do rectângulo com os extremos da amostra. Utilizando os valores do
exemplo 3 (Q1=0,795; Q3=1.48), resulta o diagrama da página anterior.
Esta distribuição está fortemente concentrada em torno de valores baixos da
variável (rácio de autonomia financeira), já que 75% dos valores se encontram
num espectro muito reduzido. Ao contrário, 25% das empresas correspondem
a um espectro muito amplo, entre 1,48 (Q3) e 6. Isto é, há muitas empresas
com baixo rácio de autonomia financeira (até valores um pouco acima de 1) e
poucas empresas com rácios elevados. A distribuição diz-se enviesada ou
simétrica à esquerda.
Ou seja, a partir deste diagrama, pode reconhecer-se a simetria ou
enviesamento dos dados e a sua maior ou menor concentração:

Dados simétricos

Assimetria à direita

Assimetria à esquerda

2.6. Medidas de assimetria
A assimetria é tanto maior quanto mais afastados estiverem os valores da
média, mediana e moda. Concretamente, se:
−

X = Me = Mo, a distribuição diz-se simétrica

−

X > Me > Mo, a distribuição diz-se assimétrica positiva (ou enviesada à

esquerda)
−

X < Me < Mo, a distribuição diz-se assimétrica negativa (ou enviesada à

direita)

Manual Técnico de Formando

18
Manual de Estatística Aplicada

Coeficiente de assimetria de Bowley (g’):

(Q3 − Q 2) − (Q 2 − Q1)
Q3 − Q1

Se g’ = 0 ..............a distribuição é simétrica positiva ou equilibrada
Os quartis estão à mesma distância da mediana.
Se g’ > 0 ..............a distribuição é assimétrica positiva ou “puxada” para
a esquerda (se fôr = 1, assimetria é máxima)
A mediana desliza para o lado do Q1,
logo Q3-Q2 > Q2-Q1
Se g’ < 0 ..............a distribuição é assimétrica negativa ou “puxada” para
a direita (se fôr = -1, assimetria é máxima)
A mediana desliza para o lado do Q3,
logo Q2-Q1 > Q3-Q2
Q1 Q2

Q3

Q1

Assimétrica positiva
Q2 Q3

Assimétrica negativa

2.7. Medidas de dispersão
Duas distribuições podem distinguir-se na medida em que os valores da
variável se dispersam relativamente ao ponto de localização (média, mediana,
moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas
consoante a medida de localização usada para referenciar a dispersão das
observações:
2.7.1 Medidas de dispersão absoluta
(i)

Em relação à mediana
Amplitude inter-quartis = Q = Q3 – Q1
Significa que 50% das observações se situam num intervalo de
amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior
(menor) a dispersão em torno da mediana.

Manual Técnico de Formando

19
Manual de Estatística Aplicada

(ii)

Em relação à média
Variância amostral: mede os desvios quadráticos de cada valor
observado em relação à média, havendo pouca dispersão se os desvios
forem globalmente pequenos, e havendo muita dispersão se os desvios
forem globalmente grandes.
Dados não-classificados
2
1 n
2
s =
xi − x
n i =1

(

)

Dados classificados
Variáveis discretas

1
s =
n
2

n
i =1

(

)

2

n

ni xi − x =

(

fi xi − x

i =1

)

2

Dados classificados
Variáveis contínuas

1
s =
n
2

n
i =1

(

ni ci − x

)

2

=

n
i =1

(

fi ci − x

)

2

onde ci é o ponto médio de cada classe i.
Desvio-padrão: Medida de dispersão com significado real, mas que só é
possível calcular indirectamente, através da raiz quadrada da variância.
Está expressa nas mesmas unidades da variável.

2.7.2 Medidas de dispersão relativa
Muitas vezes, avaliar a dispersão através de um indicador de dispersão
absoluta não é conveniente, assim como comparara a dispersão de duas
distribuições, uma vez que estas medidas vêm expressas na mesma unidade
da variável – como é o caso, por exemplo, da variância. Assim, é de esperar
que os valores da variância sejam mais elevados quando os valores da variável
são maiores, o que não significa que a distribuição seja muito dispersa. Para

Manual Técnico de Formando

20
Manual de Estatística Aplicada

comparar diferentes distribuições de frequência são precisas medidas de
dispersão relativa:

Dispersão relativa =

Dispersão absoluta
Medida de localizaçã o em relação à qual está definida

Coeficiente de variação
CV =

s
x100%
x

Outras medidas
Q3 − Q1
Q2

Estas medidas não estão expressas em nenhuma unidade, e permitem
comparar dispersões entre duas amostras, pois não são sensíveis à escala
(eventualmente diferente) em que as variáveis estejam expressas.

2.8. Análise da concentração
A noção de concentração apareceu associada ao estudo de desigualdades
económicas, como a repartição do rendimento ou a distribuição de salários. O
fenómeno de concentração está relacionado com a variabilidade ou dispersão
dos valores observados, apesar de não poder ser analisado através das
medidas de dispersão atrás descritas, que apenas medem a dispersão dos
valores em relação a um ponto. O objectivo é determinar como o atributo
(rendimento, salários, número de empresas) se distribui (se de forma mais ou
menos uniforme) pelos diferentes indivíduos da amostra (que devem ser
susceptíveis de serem adicionados, isto é, a análise de concentração não se
aplica a idade, altura, peso, etc).
Se o atributo estiver igualmente repartido pelos indivíduos, temos uma situação
extrema de igual distribuição; e vice-versa de o atributo estiver concentrado

Manual Técnico de Formando

21
Manual de Estatística Aplicada

num só indivíduo, temos uma situação extrema de máxima concentração. Em
geral, interessa medir o grau de concentração em situações intermédias.
Para analisar a concentração, existem dois instrumentos: a Curva de Lorenz e o Índice
de Gini.

2.8.1 Curva de Lorenz
O objectivo é comparar a evolução das frequências acumuladas (Fi = pi) com a
evolução da soma dos valores da variável (qi)

Quadro de dados
Classes de
valores da variável
[x1; x2[
[x2; x3[
[x3; x4[

n1
nj

yj

pj

qj

[xn-1; xn[
Total

nn
n

yn

pn=1

qn=1

ni

Quantidade Freq.relativa
Proporção
atributo
acumuladas atrib.acumul,
yi
p1
q1

Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é
a curva de Lorenz. Se houver igual distribuição, a frequência das observações
deve ter uma evolução igual à proporção do atributo correspondente, isto é,
pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado,
que é designada de recta de igual repartição. Quanto mais a curva se afastar
da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz
designa-se, por isso, de zona de concentração.

2.8.2 Índice de Gini
O índice de Gini é calculado pela seguinte expressão

Manual Técnico de Formando

22
Manual de Estatística Aplicada
n −1

G=

i =1

( pi − qi )
n −1

pi

i =1

Quando G = 0, a concentração é nula, havendo igual repartição. Caso o valor
de G seja 1, a concentração será máxima. O valor de G varia entre 0 e 1, e
quanto maior o seu valor, maior a concentração.
Exemplo
Considere-se a seguinte amostra de dimensão 200, referente aos lucros
obtidos por empresas de um dado sector industrial, expressas numa
determinada unidade monetária.
Lucros
[0; 50[
[50; 100[
[100; 200[
[200; 300[
[300; 500]
Total

ni
20
60
80
30
10
200

Lucro total
600
4400
14000
7500
3500
30000

pi (=Fi)
0.1
0.4
0.8
0.95
1

qi
0.02
0.16(6)
0.63(3)
0.883(3)
1

Curva de Lorenz
1
0,8
0,6
0,4
0,2
0
0

Manual Técnico de Formando

0,2

0,4

0,6

0,8

1

23
Manual de Estatística Aplicada
n −1

G=

i =1

( pi − qi )
n −1

=
pi

0,546(6)
= 0,243
2,25

i =1

Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini,
conclui-se que esta amostra apresenta concentração moderada, encontrandose os valores razoavelmente repartidos.

2.9. Estatística Descritiva Bidimensional
Numa situação em que se observam pares de valores (xi; yj), pode ter interesse
estudar as relações porventura existentes entre os dois fenómenos,
nomeadamente relações estatísticas. Não se trata de estudar relações
funcionais (isto é, a medida em que o valor de uma variável é determinado
exactamente pela outra), mas sim de estudar a forma como a variação de uma
variável poderá afectar a variação da outra, em média. (por exemplo, o peso e
a altura normalmente estão relacionados, mas a relação não é determinística).
Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas.
Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a
correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação dizse negativa.
Trata-se então de estudar se:
-

Se existe alguma correlação entre os fenómenos ou variáveis
observadas

-

A existir, se é traduzível por alguma lei matemática, nem que
tendencialmente

-

A existir, se é possível medi-la

2.9.1 Diagrama de dispersão

Manual Técnico de Formando

24
Manual de Estatística Aplicada

Para ilustrar o estudo de dados bivariados (valores emparelhados), considerese o exemplo seguinte referente ao peso e altura de 10 indivíduos:

Indivíduo
A
B
C
D
E
F
G
H
I
J

Peso (kg)
72
65
80
57
60
77
83
79
67
68

Altura (cm)
175
170
185
154
165
175
182
178
175
173

A representação gráfica dos dados bivariados designa-se de diagrama de
dispersão. O diagrama de dispersão é uma representação gráfica em que cada
par de dados (xi, yj) é representado por um ponto de coordenadas num sistema
de eixos ordenados.
Diagrama de Dispersão
190

Altura (cm)

180

170

160

150
50

60

70

80

90

Peso (kg)

2.9.2 Regressão Simples
Por vezes, a representação gráfica do conjunto de dados bivariados sugere o
ajustamento de uma recta a este conjunto de pontos, indicando a existência de
uma tendencial correlação linear entre as duas variáveis, como é o caso do

Manual Técnico de Formando

25
Manual de Estatística Aplicada

exemplo atrás descrito. A essa recta chama-se recta de regressão de y sobre
x, que permite descrever como se reflectem em y (variável dependente ou
explicada) as modificações processadas em x (variável independente ou
explicativa). Essa recta torna possível, por exemplo, inferir (em média) a altura
de um indivíduo, conhecendo o respectivo peso.
Um dos métodos mais conhecidos de ajustar uma recta a um conjunto de
dados é o Método dos Mínimos Quadrados, que consiste em determinar a recta
que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores
de y e os obtidos a partir da recta que se pretende ajustar. Obtém-se assim a
recta de regressão ou recta dos mínimos quadrados. Assim, se a recta de
regressão obedecer à seguinte fórmula geral:

y = a + bx
o método permite minimizar a soma dos desvios quadráticos yi - (a + bxi).
Assim sendo, obtém-se:
b=

xi y i − n x y
2

xi − n x

2

e

a = y − bx

Matematicamente, b designa o declive da recta. Em termos estatísticos, b
corresponde ao coeficiente de regressão de y sobre x, que indica a variação
média de y que acompanha uma variação unitária de x.
O valor de a designa a ordenada na origem, isto é, o valor que y assume
quando x=0.
No exemplo, vem:
Recta de Regressão
190

Altura (cm)

180

y = 0,9016x + 109,36

170

160

Manual Técnico de Formando
150

26
Manual de Estatística Aplicada

A equação desta recta traduz-se em
Altura = 109,36 + 0,9016 x Peso
Isto é, se um indivíduo pesar 70 kg, a altura esperada será de 109,36 + 0,9016
x 70 = 172,472.
Por cada kg de peso adicional, espera-se que a altura do indivíduo aumente
0,9016 cm.

2.9.3 Correlação linear
Quando, quer através do diagrama de dispersão, quer através da recta de
regressão, se verifica a existência de uma associação linear entre as variáveis,
pode-se medir a maior ou menor força com que as variáveis se associam
através do coeficiente de correlação linear r:
r=

s xy
s xx s yy

, s xy =

n
i =1

( xi − x)( y i − y )

Este indicador da correlação tem a vantagem de não depender das unidades
ou da ordem de grandeza em que as variáveis estão expressas. O coeficiente
de correlação linear está sempre compreendido entre –1 e 1.
Se r > 0, então pode dizer-se que existe uma correlação positiva entre as
variáveis, isto é, as variáveis variam no mesmo sentido: um aumento
(diminuição de x) provoca um aumento (diminuição) de y, mas menos que
proporcional.
Se r < 0, então pode dizer-se que existe uma correlação negativa entre as
variáveis, isto é, as variáveis variam em sentidos opostos: um aumento
(diminuição de x) provoca uma diminuição (aumento) de y, mas menos que
proporcional.
Se r = 0, então pode dizer-se que as variáveis não estão correlacionadas
linearmente.
Antes de se efectuar um estudo de correlação, deve-se procurar justificação
teórica para a existência ou inexistência de correlação. Caso contrário, poderá
acontecer que variáveis sem relação de causalidade entre si, variem num certo

Manual Técnico de Formando

27
Manual de Estatística Aplicada

sentido por razões exteriores. A esta correlação ilusória, chama-se correlação
espúria.
Nos extremos, se r = 1 ou se r = -1, então pode dizer-se que existe uma
correlação positiva ou negativa perfeita, respectivamente, entre as variáveis,
isto é, uma variação numa variável provoca na outra uma variação
exactamente proporcional no mesmo sentido ou em sentido contrário. Isto é, a
correlação é máxima.
No exemplo, r = 0,90681871, isto é, existe uma correlação positiva forte entre
as duas variáveis, quase perfeita.

2.9.4 Correlação ordinal
Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa
mais conhecer a ordenação dos valores do que os valores observados
propriamente ditos. Neste caso, em vez do coeficiente de correlação linear,
calcula-se o coeficiente de correlação ordinal:

n

rs = 1 − 6

i =1

di

2

n(n − 1)
2

x

, d i = Ri − Ri

y

Ordens (“ranks”) das
observações de X e
de Y, respectivamente

Exemplo
Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início
e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10
estudantes segundo as classificações obtidas em cada uma das provas:

Manual Técnico de Formando

28
Manual de Estatística Aplicada

Prova inicial
Rix
1
3
2
5
7
8
9
10
6
4

Aluno
A
B
C
D
E
F
G
H
I
J

Prova final
Riy
1
2
3
4
6
8
7
9
10
5

di
Rix - Riy
0
1
-1
1
1
0
2
1
-4
-1

Como não dispomos das classificações dos alunos, mas sim das ordenações
das classificações (do 1º ao 10º classificado), para avaliar a correlação
existente entre as 2 provas é necessário calcular o coeficiente de correlação
ordinal:
n

rs = 1 − 6

i =1

di

2

n(n − 1)
2

= 1−

6 x(0 + 1 + 1 + 1 + 1 + 0 + 4 + 1 + 16 + 1)
= 0,8424
10 x(100 − 1)

A correlação é positiva e elevada (rs varia entre –1 e 1), isto é, os alunos que
tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na
prova final.

Manual Técnico de Formando

29
Manual de Estatística Aplicada

ESTATÍSTICA DESCRITIVA
Exercícios resolvidos

Exercício 1
Considere a distribuição de 1000 empresas de um sector de actividade
segundo os resultados líquidos (em milhares de u.m.):
Resultado Líquido
[0; 1[
[1; 3[
[3; 5[
[5; 15[
[15; 25[
[25; 50[
Total

Frequência. Relativa (%)
10
25
35
15
10
5
100

a) Represente a distribuição graficamente.
b) Determine a média e a moda da distribuição. Qual o significado dos
valores encontrados?
c) Calcule as frequências acumuladas e represente-as graficamente.
Determine a mediana da distribuição.
d) Determine os quartis da distribuição. Faça a sua representação gráfica.
e) Analise a (as)simetria da distribuição em causa.
f)

Analise a concentração através do Índice de Gini e da Curva de Lorenz.

Resolução

a)

fi/hi
0,2
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0

10

Manual Técnico de Formando

20

30

40

50

60

30
Manual de Estatística Aplicada

[0; 1[
[1; 3[
[3; 5[
[5; 15[
[15; 25[
[25; 50]

X

Total

b) x =

1
n

fi
10%
25%
35%
15%
10%
5%
1

n
i =1

ni c i

=

n
i =1

f i ci

hi
1
2
2
10
10
25

fi/hi
0.1
0.125
0.175
0.015
0.01
0.002

Fi
10%
35%
70%
85%
95%
100%

ci
0.5
2
4
10
20
37.5

= (0,5 x10%) + (2 x 25%) + ... + (37.5 x5%) = 7,325

Em média, o resultado líquido de uma empresa é de 7325 unidades
monetárias.
A classe modal é aquela a que corresponde maior frequência por unidade de
amplitude. Neste caso, o maior valor de fi / hi é 0,175. correspondente à classe
[3; 5[, isto é, os valores de resultado líquido mais prováveis para uma empresa

situam-se entre 3000 u.m. e 5000 u.m.
c) A representação gráfica das frequências acumuladas (ver tabela) designa-se
de polígono integral:
Fi
1
0,8
0,6
0,4
0,2
0
0

20

40

60

80

100

120

Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[
3 : Fi=0,35
5 : Fi = 0,7

Manual Técnico de Formando

31
Manual de Estatística Aplicada

Cálculo da mediana:
0,7 - 0,35 ------------ 5 - 3
0,5 – 0,35 -------------- Me – 3
Me = 3 + ((2x0,15)/0,35) = 3,857
50% das empresas apresentam resultados líquidos inferiores a 3857 u.m.
d) Classe a que pertence Q1 (classe a que corresponde uma frequência
acumulada 0,25): [1; 3[
1 : Fi=0,1
3 : Fi = 0,35
Cálculo do Q1:
0,35 - 0,1 ------------ 3 - 1
0,25 – 0,1 -------------- Q1 – 1
Q1 = 1 + ((2x0,15)/0,25) = 2,2
25% das empresas apresentam resultados líquidos inferiores a 2200 u.m.

Classe a que pertence Q3 (classe a que corresponde uma frequência
acumulada 0,75): [5; 15[
5 : Fi=0,7
15 : Fi = 0,85
Cálculo do Q3:
0,85 - 0,7 ------------ 15 - 5
0,75 – 0,7 -------------- Q3 – 5
Q3 = 1 + ((10x0,05)/0,15) = 8,333(3)
75% das empresas apresentam resultados líquidos inferiores a 8333 u.m.

e)
g' =

(Q3 − Q 2) − (Q 2 − Q1) (8,333 − 3,857) − (3,857 − 2,2)
=
= 0,4596 > 0
Q3 − Q1
8,333 − 2,2

A distribuição é assimétrica positiva ou enviesada à esquerda.

Manual Técnico de Formando

32
Manual de Estatística Aplicada
f)

X
[0; 1[
[1; 3[
[3; 5[
[5; 15[
[15; 25[
[25; 50[
Total

fi
10%
25%
35%
15%
10%
5%
1

ni
1000x10%=100
250
350
150
100
50
n=1000

ci
0.5
2
4
10
20
37.5

Atributo
100x0.5=50
250x2=500
1400
1500
2000
1875
7325

pi (=Fi)
0.1
0.35
0.7
0.85
0.95
1

qi
0.007
0.075
0.266
0.471
0.744
1

50 + 500 + 1400
7325

Res.Liq.Totais

G=

(0,1 − 0,007) + ... + (0,95 − 0,744)
= 0,47
0,1 + 0,35 + 0,7 + 0,85 + 0,95

A distribuição dos resultados líquidos
apresenta concentração média (G=0,5

Curva de Lorenz
1

corresponde ao centro da escala
possível, entre 0 e 1). Por exemplo,
70% das empresas apresentavam
resultados até 5000 u.m., mas isso
representava apenas 26,6% do total
de

resultados

das

empresas

0,8

0,6

0,4

da

amostra, o que sugere um tecido
empresarial com muitas PMEs, mas
em que cada uma tem baixo resultado

0,2

0
0

0,2

0,4

0,6

0,8

1

líquido.

Manual Técnico de Formando

33
Manual de Estatística Aplicada

Exercício 2
O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas
em milhares de u.m.) de uma empresa no período de 7 anos:
Ano
1
2
3
4
5
6
7

Vendas
10
13
18
19
25
30
35

Desp. Publicidade
3
3
5
6
8
9
13

a) Compare as vendas e as despesas em publicidade quanto à dispersão.
b) Analise a correlação existente entre volume e custo de produção.
c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que

exprima as vendas em função das despesas em publicidade.

Resolução

a) Para comparar a dispersão das duas distribuições, é necessário calcular os

coeficientes de variação (medidas de dispersão relativa):
CV =

s
x

Dados não-classificados

1
n

x =
sx

2

1
=
n

CV x =

n
i =1

n
i =1

xi = 21,429

(xi − x )

2

= 69,9408

sx
69,9408
=
= 0,39
x
21,429

sy

<

2

1
=
n

CV y =

n

1
n

y =

i =1

i =1

y

(yi − y )

2

n

sy

yi = 6,714

=

= 11,0651

11,0651
= 0,495
6,714

A dispersão das despesas em publicidade é superior à dispersão das vendas.

Manual Técnico de Formando

34
Manual de Estatística Aplicada
b)

r=

s xy
s xx s yy

1
[(10 − 21,429)(3 − 6,714) + ... + (35 − 21,429)(13 − 6,714)]
7
=
= 0,98
69,9408 x 11,0651

Existe uma correlação positiva linear forte entre as duas variáveis. Em média,
quando as despesas em publicidade aumentam (diminuem), as vendas
aumentam (diminuem) de forma quase exactamente proporcional.
Recta de Regressão

c)

y = 2,4649x + 4,8782

Vendas

30

20

10

0
3

8

13

Desp. Public.

Manual Técnico de Formando

35
Manual de Estatística Aplicada

ESTATÍSTICA DESCRITIVA
Exercícios para resolver

1. O quadro que se segue descreve a distribuição do rendimento anual (em
milhares de u.m.) de 2500 famílias consideradas representativas da população
de um país:
Rendimento anual
[0, 1[
[1, 2[
[2, 5[
[5, 15[
[15, 25[
[25, 50[

Nº de famílias
250
375
625
750
375
125

a) Represente as frequências acumuladas graficamente.
b) Determine o rendimento médio e mediano.
c) Determine os três primeiros quartis. Que indicações lhe dão sobre a
(as)simetria?
d) O que pode concluir quanto à dispersão?
e) Calcule o índice de Gini. O que conclui sobre a concentração do

rendimento?

2. Considere a seguinte tabela que representa a distribuição dos empregados
de uma instituição bancária segundo a remuneração bruta mensal (em milhares
de unidades monetárias):
Remuneração
[60; 80[
[80; 100[
[100; 120[
[120; 140[
[140; 160[
[160; 200[
[200; 250[
[250, 300[
[300; 350]
Total

Manual Técnico de Formando

Frequência. Relativa
(%)
7.8
15.2
31.2
19.5
7.2
8.1
5.4
2.6
3.0
100

36
Manual de Estatística Aplicada

a) Calcule os quartis e faça a sua representação gráfica. O que pode
concluir?
b) Analise a dispersão da distribuição em causa.
c) Analise a assimetria da distribuição em causa.

3. Os dados seguintes referem-se ao peso, expresso em gramas, do conteúdo
de uma série de 100 garrafas que, no decurso de um teste, saíram de uma
linha de enchimento automático:
Peso (em gramas)
[297; 298[
[298; 299[
[299; 300[
[300; 301[
[301; 302[
[302; 303[
[303; 304[
[304; 305[
[305; 306]
Total

Frequência. Relativa
(%)
8
21
28
15
11
10
5
1
1
100

a) Represente graficamente os dados acima.
b) Calcule as frequências acumuladas e represente-as graficamente.
c) Determine o peso médio, mediano e modal. Qual o seu significado?
d) Determine os quartis da distribuição. Faça a sua representação gráfica.
e) Analise a dispersão do peso das garrafas.

4. Numa faculdade, mediram-se as alturas de 100 alunos do primeiro ano:
Altura (em metros)
[1,4; 1,5[
[1,5; 1,55[
[1,55; 1,6[
[1,6; 1,65[
[1,65; 1,7[
[1,7; 1,75[
[1,75; 1,8[
[1,8; 1,9]
Total

Manual Técnico de Formando

Nº Alunos
2
10
25
13
17
20
10
3
100

37
Manual de Estatística Aplicada

a) Represente graficamente os dados acima.
b) Determine a altura média e a altura modal. Qual o seu significado?
c) Calcule as frequências acumuladas e represente-as graficamente.
d) Determine os quartis da distribuição e diga qual o seu significado.
e) Faça a representação gráfica dos quartis.
f) Analise a dispersão da distribuição.
g) Analise a (as)simetria da distribuição.

5. Em determinada central telefónica, registou-se a duração das chamadas
realizadas em Dezembro de 2001:
Duração (em minutos)
[0; 5[
[5; 10[
[10; 20[
[20; 30[
[30; 50]
Total

Nº Chamadas
2000
1500
1000
300
200
5000

a) Represente graficamente as frequências simples e acumuladas.
b) Determine a duração média das chamadas e respectivo desvio-padrão.
c) Qual a duração da chamada mediana? Qual o significado do valor
encontrado?
d) Sabe-se que as chamadas realizadas durante o ano de 2001
apresentaram uma duração média de 10 minutos, com desvio-padrão de
8,7 minutos. Compare, quanto à dispersão, as chamadas efectuadas em
Dezembro com a s que tiveram lugar durante todo o ano de 2001.

6. Uma empresa coligiu dados relativos à produção de 12 lotes de um tipo
especial de rolamento. O volume de produção e o custo de produção de cada
lote apresentam-se na tabela:

Manual Técnico de Formando

38
Manual de Estatística Aplicada

Lote
1
2
3
4
5
6
7
8
9
10
11
12

Volume (unidades)
1500
800
2600
1000
600
2800
1200
900
400
1300
1200
2000

Custo (contos)
3100
1900
4200
2300
1200
4900
2800
2100
1400
2400
2400
3800

a) Analise a correlação existente entre volume e custo de produção.
b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que

exprima o custo em função do volume de produção.

7. Um conjunto de empresas do sector da Construção e Obras Públicas
cotadas na Bolsa de Valores foram analisadas relativamente aos seguintes
indicadores:
EPS (Earnings per Share): Resultado Líquido por Acção
PBV (Price/Book Value): Preço / Situação Líquida por Acção

Empresa
1
2
3
4
5
6
7
8
9

EPS ($)
191
32
104
117
210
95
65
201
81

Custo (mil. u. m.)
0.9
1.0
0.8
0.8
1.5
0.7
0.9
1.3
0.4

a) Analise a correlação existente entre aqueles dois indicadores.
b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que

exprima a variável EPS em função de PBV.

Manual Técnico de Formando

39
Manual de Estatística Aplicada

8. Recolheu-se uma amostra em 17 cidades do país relativamente aos
seguintes indicadores:
Ri: Rendimento médio mensal na cidade i (em 106 unidades monetárias)
Gi: Gasto médio mensal em bens de luxo na cidade i (em 106 unidades
monetárias)
Ri

Gi

Ri

Gi

125
127
130
131
133
135
140
143
169

54
56
57
57
58
58
59
59
66

144
147
150
152
154
160
162
165

61
62
62
63
63
64
65
66

a) Estude a correlação entre rendimento e despesas em bens de luxo.
b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima a variável Gi em função de Ri.

Manual Técnico de Formando

40
Manual de Estatística Aplicada

3. ESTATÍSTICA INDUTIVA

A estatística indutiva é o ramo da estatística que se ocupa em inferir das
conclusões retiradas sobre a amostra para a população. Claro que o processo
de indução implica um certo grau de incerteza associado à tentativa de
generalização de conclusões da “parte” (amostra) para o “todo” (universo). O
conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não
vai ser possível afirmar com toda a certeza que o comportamento da amostra
ilustra perfeitamente o comportamento do universo, mas apenas que o faz com
forte probabilidade.
De seguida, serão apresentadas algumas noções simples de probabilidades e
funções de probabilidade, que serão úteis a aplicações de estatística indutiva
relacionadas

com

controlo

estatístico

de

qualidade

e

fiabilidade

de

componentes e sistemas.

3.1. Noções básicas de probabilidade
A teoria das probabilidades é um ramo da matemática extremamente útil para o
estudo e a investigação das regularidades dos chamados fenómenos
aleatórios. O exemplo seguinte pretende clarificar o que vulgarmente é
designado por experiência aleatória.
Exemplo

No lançamento de uma moeda, os resultados possíveis são “cara” ou “coroa”.
Em cada lançamento não é possível prever o resultado que se irá obter,
embora ele seja determinado por causas bem definidas.

Manual Técnico de Formando

41
Manual de Estatística Aplicada

Deve entender-se como experiência qualquer processo ou conjunto de
circunstâncias capaz de produzir resultados observáveis; quando uma
experiência está sujeita à influência de factores casuais e conduz a resultados
incertos, diz-se que a experiência é aleatória.
Fundamentalmente, as experiências aleatórias caracterizam-se por:
(i)

poder repetir-se um grande número de vezes nas mesmas condições
ou em condições muito semelhantes

(ii)

cada vez que a experiência se realiza, obtém-se um resultado
individual, mas não é possível prever exactamente esse resultado

(iii)

os resultados das experiências individuais mostram-se irregulares,
mas os resultados obtidos após uma longa repetição da experiência
patenteiam uma grande regularidade estatística no seu conjunto

Alguns autores consideram inserido no conceito de experiência aleatória um
outro, o de espaço de resultados. O espaço de resultados corresponde ao
conjunto formado por todos os resultados possíveis de uma experiência
aleatória. Por exemplo, num lançamento de um dado ordinário tem-se que o
espaço de resultados é { ,2,3,4,5,6}.
1
A importância da definição deste conceito advém sobretudo por ser o meio
empregue para a definição de acontecimentos, que não sei mais que
subconjuntos do espaço de resultados. Por exemplo, no lançamento de um
dado podem definir-se, para além dos 6 acontecimentos elementares
correspondentes à saída de cada uma das faces, outros como “saída de um
número ímpar” definido pelo subconjunto { ,3,5}.
1
Definidos como conjuntos, aos acontecimentos é aplicável toda a construção
disponível para aqueles, isto é, existe um paralelismo perfeito entre álgebra de
conjuntos e álgebra de acontecimentos:

(i)

O acontecimento que contem todos os elementos do espaço de
resultados chama-se acontecimento certo

(ii)

O acontecimento que não contem qualquer elemento do espaço de
resultados chama-se acontecimento impossível

(iii)

Dois acontecimentos são mutuamente exclusivos se não têm em
comum qualquer acontecimento do espaço de resultados

Manual Técnico de Formando

42
Manual de Estatística Aplicada

(iv)

A união de dois acontecimentos A e B representa-se por A ∪ B e é
formado pelos elementos que pertencem a pelo menos um dos dois,
A ou B

(v)

A intersecção de dois acontecimentos A e B representa-se por A ∩ B e
é formado pelos elementos comuns a A e B

Probabilidade de um acontecimento é expressa na escala de 0 a 1, sendo 0 a
probabilidade associada a um acontecimento impossível e 1 a probabilidade
associada a um acontecimento certo. A primeira definição foi proposta por
Laplace em 1812. Pode definir-se probabilidade de um acontecimento A
como sendo:
P(A) =

Número de casos favoráveis ao acontecimento A
Número total de casos possíveis na exp. aleatória

Uma das principais críticas a esta definição é a de que ela só é aplicável
quando o espaço de resultados é finito e os seus elementos possuem igual
probabilidade; daí que ela surja muito ligada aos “jogos de azar”, que possuem
essas propriedades. É o que acontece com as duas faces de uma moeda, as
52 cartas de um baralho, as 6 faces de um dado, etc.
Para

se

analisar

a

probabilidade

de

ocorrência

de

determinados

acontecimentos, deve ter-se em atenção o seguinte:
−

Dois acontecimentos são ditos mutuamente exclusivos se não puderem
acontecer ao mesmo tempo; se dois acontecimentos forem mutuamente
exclusivos, então:
P(A ∩ B) = 0

−

A probabilidade de união de dois acontecimentos mutuamente
exclusivos é dada por
P (A ∪ B) = P(A) + P(B)

−

Para dois acontecimentos quaisquer, vem que
P (A ∪ B) = P(A) + P(B) - P(A ∩ B)

−

Dois acontecimentos dizem-se complementares se:
P(A) = 1 – P( A )

Manual Técnico de Formando

43
Manual de Estatística Aplicada

−

Dois acontecimentos são ditos independentes se a ocorrência de um
não afectar a probabilidade de ocorrência de outro; a probabilidade de
ocorrência de dois ou mais acontecimentos independentes é o produto
das probabilidades dos respectivos acontecimentos, isto é:
P(A ∩ B) = P(A) x P(B)

Exemplo

Em determinada população, 9,8% das pessoas adquirem a revista A, 22,9% a
revista B e 5,1% ambas.
a) Qual a probabilidade de uma pessoa adquirir pelo menos uma das revistas?
b) Qual a probabilidade de uma pessoa adquirir somente a revista A?
Resolução

a)

P(A ∪ B) = P(A)+P(B)-P(A ∩ B) = 0,098+0,229-0,051 = 0,276

b)

P(A ∩ B ) = P(A) - P(A ∩ B) = 0,098 – 0,051 = 0,047

Após a apresentação desta definição, convém ainda referir que, numa outra
perspectiva, a da chamada teoria frequencista, a probabilidade de um
acontecimento é definida como sendo o valor para o qual tende a frequência
relativa do acontecimento quando o número de repetições da experiência
aumenta.

3.2. Probabilidade condicionada
Exemplo:

Um grupo de pessoas é classificado de acordo com o seu peso e a incidência
de hipertensão. São as seguintes as proporções das várias categorias:
Obeso

Normal

Magro

Total

Hipertenso

0,1

0,08

0,02

0,2

Não Hipertenso

0,15

0,45

0,2

0,8

Total

0,25

0,53

0,22

1,00

a) Qual a probabilidade de uma pessoa escolhida ao acaso ser hipertensa?

Manual Técnico de Formando

44
Manual de Estatística Aplicada

b) Qual a probabilidade de uma pessoa obesa ser hipertensa?
Resolução

a) Basta ver que a proporção de hipertensos é de 20%
b) Há que tomar em atenção que o que se pretende é a proporção de
hipertensos na população de obesos, isto é

0,1
= 0,4 . Por outras palavras,
0,25

pretende-se calcular a probabilidade do acontecimento “ser hipertenso”,
sabendo que ocorreu o acontecimento “ser obeso”. Repare-se que este
quociente resulta da divisão entre a probabilidade de uma pessoa ser
hipertensa e obesa e a probabilidade de uma pessoa ser obesa. Pode
escrever-se que a probabilidade pretendida é dada por:
P( H / O) =

P( H ∩ O)
P (O)

onde P(H/O) é a probabilidade de ocorrer o acontecimento “ser hipertenso”,
sabendo que ocorreu ou condicionado pelo acontecimento “ser obeso”.
Este exemplo corresponde ao cálculo de uma probabilidade condicionada.
Como se viu anteriormente, dois acontecimentos são ditos independentes se a
ocorrência de um não afectar a probabilidade de ocorrência de outro, isto é, se:
P(A / B) = P(A) e se P(B / A) = P(B).
Teorema de Bayes

Seja B um acontecimento que se realiza se e só se um dos acontecimentos
mutuamente exclusivos A1, A2,…An se verifica. Aos acontecimentos A1, A2,…An
dá-se o nome de acontecimentos antecedentes. O teorema de Bayes permite
calcular a probabilidade à posteriori de A1, A2,… An, isto é, a probabilidade de
ocorrência de A1, A2,… An calculadas sob a hipótese de que B (acontecimento
consequente) se realizou. De acordo com este teorema:
P ( Ai / B ) =

P ( Ai ).P ( B / Ai )
n
i =1

P ( Ai ).P ( B / Ai )

Este Teorema utiliza-se em situações em que a relação causal está invertida.

Manual Técnico de Formando

45
Manual de Estatística Aplicada
n
i =1

P ( Ai ).P ( B / Ai )

designa-se de probabilidade total de ocorrência do

acontecimento B, isto é, é a probabilidade de ocorrência do acontecimento
consequente B face a todos os possíveis acontecimentos A1, A2,… An que o
podem ter antecedido (ou causado a sua ocorrência).
Exemplo:

Considere duas urnas, A e B. A urna A contém 1 bola branca e 999 bolas
pretas e a urna B contém 1 bola preta e 999 bolas brancas. É escolhida uma
urna ao acaso, da qual é extraída uma bola. Se esta é preta, qual a
probabilidade de que a urna A tenha sido escolhida?
Resolução

Acontecimentos antecedentes
A: escolha da urna A, com probabilidade 50%
B: escolha da urna B, com probabilidade 50%
Acontecimento consequente
C extracção de bola preta, cuja probabilidade depende (está condicionada)
pela urna escolhida
P(C/A) = 999/1000 = 0,999
P(C/B) = 1/1000 = 0,001

Logo, pelo Teorema de Bayes, vem que P(A/C) =
Substituindo pelos respectivos valores, P(A/C) =

P (C ∩ A)
P ( A) xP (C / A) + P ( B ) xP (C / B )

0,5 x0,999
= 0,999
0,5 x0,999 + 0,5 x0,001

3.3. Funções de probabilidade
A probabilidade associada aos acontecimentos possíveis numa experiência
aleatória obedecem, por vezes, a um padrão. Se associarmos a uma
experiência aleatória uma variável X (por exemplo, associar aos resultados da
experiência lançamento de um dado - que são 6 (saída de face 1 a 6) – a

Manual Técnico de Formando

46
Manual de Estatística Aplicada

variável X:“Nº da face resultante do lançamento de um dado”), então pode ser
constituída uma lei ou função de probabilidade (f(x)) dessa variável X, tal que
f(x) = P(X=xi)
Por exemplo, para X: nº da face resultante do lançamento de um dado, vem
que:
xi

1

2

3

4

5

6

f(xi)

1/6

1/6

1/6

1/6

1/6

1/6

que se designa por lei uniforme.
Algumas leis de probabilidade servem para explicar (ou aplicam-se a) um maior
número de fenómenos estatísticos do que outras. Entre estas, contam-se a lei
Binomial, a lei de Poisson e a lei Exponencial.

(i) Lei Binomial

Há alguns acontecimentos que são constituídos por um conjunto de
experiências independentes, cada uma das quais com apenas dois estados
possíveis de ocorrência e com uma probabilidade fixa de ocorrência para cada
um deles. Por exemplo, os produtos resultantes de uma fábrica podem ser
classificados como sendo defeituosos ou sendo não defeituosos, e o facto de
um ter saído (ou não) defeituoso não influencia os outros serem (ou não). A
distribuição das duas classes possíveis é discreta e do tipo binomial.
No exemplo anterior, consideremos uma amostra de n artigos retirados da
produção total, em relação aos quais se pretende identificar a variável X: “Nº de
artigos defeituosos nos n que constituem a amostra”. A probabilidade de
ocorrência do acontecimento “artigo é defeituoso” é dada por p: incidência de
defeituosos na produção (convenientemente calculada através de métodos de
estimação). A probabilidade do acontecimento complementar “artigo é nãodefeituoso” é dada por
1–p=q

Manual Técnico de Formando

47
Manual de Estatística Aplicada

A probabilidade associada a x artigos defeituosos é dada por px (p x p x p x
p...x vezes). Se há x defeituosos, restam n-x artigos não-defeituosos, com
probabilidade dada por qn-x. Para calcular o número exacto de combinações de
x artigos defeituosos com n-x artigos não-defeituosos, utiliza-se a figura
“combinações de n, x a x, oriunda das técnicas de cálculo combinatório. Vem
então que a probabilidade de existência de x defeituosos (e logo n-x não
defeituosos) é igual a:
f ( x) = C xn p x q n − x =

n!
p x q n− x
(n − p )! p!

sendo que X segue Bi (n;p), sendo n e p os parâmetros caracterizadores da lei.
Um acontecimento deve ter 4 características para que se possa associar a uma
lei binomial:
-

número fixo de experiências (n)

-

cada experiência ter apenas duas classes de resultados possíveis

-

todas as experiências terem igual probabilidade de ocorrência (p)

-

as experiências serem independentes

Exemplo:
Se 20% das bobinas de um determinado cabo eléctrico forem defeituosas,

calcule a probabilidade de, entre as 4 bobines necessárias a um determinado
cliente, escolhidas ao acaso uma ser defeituosa.
Resolução:
X: número de bobines defeituosas no conjunto de 4 bobines necessárias a um

determinado cliente (0,1,2,3,4)
n=4

p=0,2

q=1-p=0,8

P(X=1)=C4p1q4-1 = 4*0,2*0,83 = 0,4096 = 41%
1

Em sistemas eléctricos de energia é possível, por exemplo, aplicar a
distribuição binomial quando se pretende calcular a fiabilidade de uma central
eléctrica, com várias unidades iguais e admitindo que cada unidade apenas
pode residir em dois estados, a funcionar ou avariada.

Manual Técnico de Formando

48
Manual de Estatística Aplicada

(ii) Lei de Poisson

A lei de Poisson (ou lei dos acontecimentos raros ou cadenciados) dá a
probabilidade de um acontecimento ocorrer um dado número de vezes num
intervalo de tempo ou espaço fixado, quando a taxa de ocorrência é fixa (por
exemplo, nº de chamadas que chegam a uma central telefónica por minuto; nº
de varias que ocorrem numa máquina por dia). Os números de acontecimentos
de “sucesso” ocorridos em diferentes intervalos são independentes. O
parâmetro caracterizador da distribuição de Poisson é λ, que corresponde ao
número médio de ocorrências por unidade de tempo ou espaço.
Como o número médio de ocorrências do acontecimento é proporcional à
amplitude do intervalo de tempo ou espaço a que se refere, a variável X: “Nº de
ocorrências do acontecimento no intervalo [0,t[” segue lei de Poisson de
parâmetro λt (isto é, se para 1 unidade de tempo o nº médio de ocorrências é
λ, para t unidades de tempo o número médio de ocorrências é λt). A expressão

(λt )x e −λt
x!

dá a probabilidade de acontecerem x ocorrências no intervalo de tempo [0,t[, e
corresponde à expressão da lei de probabilidade de Poisson : Po(λt)
Exemplo:
O número médio de chamadas telefónicas a uma central, por minuto, é 5. A

central só pode atender um número máximo de 8 chamadas por minuto. Qual a
probabilidade de não serem atendidas todas as chamadas no intervalo de
tempo de 1 minuto?
Resolução:
X: número de chamadas telefónicas atendidas numa central, por minuto
(0,1,2,3,4, 5, 6, 7, 8)
λ=5
p=0,2
q=1-p=0,8
−5 x
8
e 5
P(X ≤ 8) =
= 0,932
Logo P(X>8) = 1-0,932 = 0,068
x!
x =0

Se X fôr o “Nº de avarias que ocorrem no intervalo de tempo [0,t[”, então a
probabilidade de não ocorrerem avarias nesse intervalo, isto é, a fiabilidade do
componente/sistema como função do tempo, é dada por:

Manual Técnico de Formando

49
Manual de Estatística Aplicada

(λt )0 e −λt = e −λt
0!

(iii) Lei Exponencial

Seja T a variável “Tempo ou espaço que decorre entre ocorrências
consecutivas de um acontecimento”. Então T segue lei exponencial Exp (λ),
sendo
1

λ
o tempo que, em média, decorre entre ocorrências sucessivas do
acontecimento.
Note-se que é possível estabelecer uma relação entre a lei exponencial e a lei
de Poisson. Assim, se X fôr o “Nº de avarias que ocorrem no intervalo de
tempo [0,t[”, e T fôr o “Tempo que decorre entre avarias consecutivas”, então:
P (T>t)

= P(tempo que decorre entre avarias exceder t)
= P(até ao instante t, não ocorre qualquer avaria)
= P (ocorrerem zero avarias no intervalo [0,t[)

= P(X=0) = e

− λt

A distribuição exponencial é a mais usada em estudos de fiabilidade, já que a
probabilidade de um componente sobreviver até ao instante t é dada por

e − λt
A probabilidade de avariar até ao instante t é dada por

1 − e − λt
Exemplo:
O tempo de funcionamento sem avarias de uma determinada máquina de

produção contínua segue uma lei exponencial negativa com valor esperado
igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no
instante t=0 horas.
Qual a probabilidade de não ocorrerem avarias antes do instante t=6 horas?
Resolução:
Seja

Manual Técnico de Formando

50
Manual de Estatística Aplicada

T: tempo de funcionamento sem avarias (ou entre avarias consecutivas) de
uma máquina, e
X: numero de avarias que ocorrem no intervalo [0,6[, isto é, num período de 6h
λ=1/4,5 corresponde ao número de avarias por unidade de tempo (por hora)

Logo
P(T ≥ 6) = P(X=0)= e

−

1
*6
4,5

= e −1,333 = 0,264

(iv) Lei Normal

A lei Normal tem como parâmetros caracterizadores a média µ e o desviopadrão σ. Isto é, os valores observados têm uma determinada tendência
central e uma determinada dispersão em torno da tendência central.
A expressão
1

−
1
e 2
σ 2∏

( Xi − µ ) 2

σ2

representa a função densidade de probabilidade da distribuição Normal.
Se se fizer o valor médio µ igual a zero e todos os desvios forem medidos em
relação à média, a equação será:

Z=

X −µ

σ

que corresponde a uma distribuição normal estandardizada (0;1) com os
valores tabelados, a qual é caracterizada por uma curva de Gauss:

Manual Técnico de Formando

51
Manual de Estatística Aplicada

Esta distribuição apresenta 99,73% dos valores entre os extremos –3 e 3.
Existem muitos tipos de distribuição, mas a curva normal é a forma de
distribuição mais frequente nos processos industriais para características
mensuráveis, e pode considerar-se como estabelecida pela experiência prática.

Exemplo:
Considere que o comprimento médio de determinado fio condutor é 120, com

desvio padrão 0,5. Qual a percentagem de fio com comprimento superior a 121?
Resolução:
X: comprimento de determinado fio condutor

Calculando a variável reduzida correspondente, vem:
121 − 120
=2
0,5
Consultando a tabela, verifica-se que o valor da função Z é P(X ≤ 2) = 0,9772.
Z=

Logo P(X>2) = 1-0,9772 = 2,28%.

Manual Técnico de Formando

52
Manual de Estatística Aplicada

(v) Lei Qui-Quadrado

Considere-se um conjunto de n variáveis aleatórias Zi, obedecendo às
seguintes condições:
-

cada variável Zi segue distribuição N(0,1);

-

as variáveis Zi são mutuamente independentes

Então, a variável aleatória X, construída a partir da soma das n variáveis Zi
elevadas ao quadrado, segue distribuição Qui-Quadrado com n graus de
liberdade, denotada por

X=

n
i =1

2
2
Z i2 = Z12 + Z 2 + ... + Z n

2
X ∩ χn

O termo “Graus de Liberdade” (d.f: degrees of freedom) é habitualmente usado
para designar o número n de parcelas (variáveis Zi) adicionadas. É possível
demonstrar que o valor esperado e a variância da distribuição de uma variável
Qui-Quadrado são respectivamente

µ =n

σ 2 = 2n
A distribuição Qui-Quadrado é uma distribuição assimétrica à esquerda,
aproximando-se da distribuição Normal à medida que n cresce.

Manual Técnico de Formando

53
Manual de Estatística Aplicada

3.4. Estimação por intervalos
Conhecendo-se uma amostra em concreto, é possível estimar os valores dos
seus parâmetros caracterizadores através de métodos probabilísticos.
Por exemplo, suponhamos que numa fábrica produtora de açúcar se pretende
averiguar se o peso dos pacotes produzidos está, em média, dentro das
normas de qualidade exigíveis. Na impossibilidade de medição do peso de
todos os pacotes, pela morosidade e dispêndio de recursos que tal implicaria, a
estatística permite que, a partir da observação de uma única amostra, seja
possível inferir entre que valores varia o peso médio com um grau de confiança
ou probabilidade elevado. Assim, ao recolher um determinado número de
pacotes da produção total aleatoriamente, é possível calcular o peso médio de
acordo com as técnicas de estatística descritiva apreendidas atrás. Claro que
nada nos garante que esse valor coincide com o valor do parâmetro da
população em estudo. De facto, é até provável que não coincida e, mais, se
recolhermos outro conjunto idêntico de pacotes, o valor seja diferente. Isto é,
para cada amostra de dimensão n recolhida, a estimativa do parâmetro
assumiria valores distintos. Então, como retirar conclusões? Como garantir
algum nível de rigor?
O método a estudar neste capítulo – a estimação por intervalos – permite, a
partir da recolha de uma única amostra, aferir entre que valores seria de
esperar que variasse o parâmetro de interesse se nos empenhássemos a
recolher um número infinito de amostras. Isto é, por exemplo, caso o valor
amostral fosse de 1,02 kg, este método poderia, por exemplo, permitir afirmar
que seria altamente provável que o peso dos pacotes produzidos estivesse a
variar entre 0,92 kg e 1,12 kg. E esse resultado tem um determinado nível de
confiança associado: por exemplo, se dissermos que o nível de confiança ou
certeza implicado é de 95%, tal significa que, se nos fosse possível observar
um número infinito de amostras, o intervalo de valores apresentado
corresponderia aos resultados obtidos em 95% delas (os valores mais
usualmente utilizados são 90%, 95% ou 99% de confiança). Caberia depois à

Manual Técnico de Formando

54
Manual de Estatística Aplicada

empresa julgar se esses seriam ou não valores aceitáveis e proceder aos
eventuais reajustes necessários.
A partir do conceito de intervalo de confiança para um parâmetro, é fácil
concluir que a sua especificação implica conhecer:
-

o estimador do parâmetro em causa

-

a sua distribuição de probabilidade

-

uma estimativa particular daquele parâmetro

Como parâmetros de interesse e para efeitos de exemplificação, vão
considerar-se duas tipologias de intervalo: o intervalo de confiança para a
média de uma população normal e o intervalo de confiança para a proporção
de uma população binomial. Para efeitos de simplificação, vão considerar-se
apenas exemplos relativos a amostras de grande dimensão (na prática, n ≥ 100)
(i) Intervalo de confiança para a média µ de uma população normal

Seja X (média amostral) o estimador da média da população. Porque a
distribuição é Normal, a distribuição deste estimador será:
X ∩ N (µ ;

σ
n

)

Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se
necessário calcular a variável reduzida correspondente:
Z=

X −µ

σ

∩ N (0;1)

n

Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a
média µ de uma população normal:
X −c

σ
n

;X +c

σ
n

Isto é, em torno do valor do estimador, é definido um intervalo de variação onde
é possível afirmar que o parâmetro a estimar está contido com um grau de
confiança δ . Esse intervalo de variação depende:

Manual Técnico de Formando

55
Manual de Estatística Aplicada

-

da dimensão da amostra (n): quanto maior a dimensão da amostra,
menor a amplitude do intervalo. Este resultado explica-se facilmente: no
limite, se fosse possível observar todo o universo de dados (n= ∞ ), o
valor amostral calculado corresponderia ao valor da população.

-

do desvio - padrão da população ( σ ): quanto maior o desvio - padrão,
maior a amplitude do intervalo. Como se sabe, o desvio - padrão é uma
medida que caracteriza a dispersão da distribuição. Quanto maior o seu
valor, maior a variabilidade apresentada pelos dados, sendo natural que
a margem de variação de prever em torno do valor amostral recolhido
seja também, naturalmente, maior.

-

do valor crítico (c): quanto maior o valor c, maior a amplitude do
intervalo. O valor crítico reflecte o nível de confiança adoptado.
Naturalmente, para que aumente a confiança de que o valor do
parâmetro a estimar está contido no intervalo, a sua amplitude deve
aumentar também (no limite, se o intervalo se alongasse de - ∞ a + ∞ a
confiança seria total ou 100%). É possível encontrar o valor c na tabela
da normal (pois esta é a lei do estimador), da seguinte forma:
P ( −c ≤ Z ≤ c ) = δ

já que assim é possível definir a fórmula geral do intervalo,
resolvendo a inequação em ordem ao parâmetro, µ :
P (−c ≤

X −µ

σ

≤ c) = δ ⇔ P( X − c

σ
n

≤ µ ≤ X −c

σ
n

)=δ

n

Exemplo:
Suponha-se que se tem uma população normal com média µ desconhecida e

desvio - padrão 3, N (µ, 9) e uma amostra de 121 observações. Deduza um
intervalo de confiança para a µ com 95% de confiança.
Resolução:
Para os dados deste exemplo, vem:

n=121

σ =3
c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96

Manual Técnico de Formando

56
Manual de Estatística Aplicada

e logo
X −c

σ
n

;X +c

σ
n

= X−

[

1,96 x3
1,96 x3
;X −
= X − 0,535; X + 0,535
11
11

[

]

]

O intervalo X − 0,535; X + 0,535 contém o verdadeiro valor do parâmetro µ
com probabilidade ou confiança de 95%. Conhecida uma estimativa particular
daquele parâmetro, torna-se possível calcular entre que valores seria de
esperar que, com 95% de confiança, variasse µ .

Se o desvio - padrão da população fôr desconhecido, utiliza-se este intervalo
considerando-se como estimativa de σ o desvio - padrão corrigido da amostra,
ou seja, s’=

( xi − x ) 2
n −1

, tal que:

X −c

s'
n

;X +c

s'
n

(ii) Intervalo de confiança para a proporção p de uma população binomial
ˆ
Seja p (proporção amostral ou frequência observada na amostra) o estimador

da proporção p de uma população binomial. Sendo a amostra de grande
dimensão, a distribuição deste estimador será:

ˆ
p ∩ N ( p;

p(1 − p )
)
n

Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se
necessário calcular a variável reduzida correspondente:
Z=

ˆ
p− p
p (1 − p )
n

∩ N (0;1)

Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a
proporção p de uma população binomial:
ˆ
p−c

ˆ
ˆ
ˆ
ˆ
p (1 − p )
p (1 − p )
ˆ
;p+c
n
n

ˆ
ˆ
(como estimativa de p (1 − p ) foi utilizado p (1 − p ))

Manual Técnico de Formando

57
Manual de Estatística Aplicada

Exemplo:
Numa cidade pretende-se saber qual a proporção da população favorável a

certa modificação de trânsito. Faz-se um inquérito a 100 pessoas, e 70
declaram-se favoráveis.
Determine um intervalo de confiança a 95% para a proporção de habitantes
dessa cidade favoráveis à modificação de trânsito.
Resolução:
n=100
ˆ
p=

70
= 0,7
100

c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96
e logo
ˆ
p−c

ˆ
ˆ
ˆ
ˆ
p (1 − p )
0,7 x0,3
p (1 − p )
0,7 x0,3
ˆ
;p+c
= 0,7 − 1,96
;0,7 − 1,96
=
n
100
n
100

= [0,6102;0,7898]

O intervalo [0,6102;0,7898] contém o verdadeiro valor do parâmetro p com
probabilidade ou confiança de 95%.
Ou seja, a proporção de habitantes favoráveis à modificação de trânsito está
situada entre 61,02% e 78,98%, com probabilidade de 95%.

Como é óbvio, pretende-se que o resultado possua o máximo de confiança
possível. No entanto, se uma maior confiança é pretendida na estimação, esta
conduz a possibilidades de erro maiores, dado que um elevado nível de
confiança conduz a um intervalo maior e, como tal, a precisão da estimação
diminui.
Exemplo:
Consideremos 3 afirmações de alunos que aguardam a saída das pautas de

um exame de Estatística:
Afirm. 1: “Tenho a sensação que as pautas serão afixadas durante a manhã”
Afirm. 2: “Tenho quase a certeza que as pautas serão afixadas entre as 10h e
as 11h

Manual Técnico de Formando

58
Manual de Estatística Aplicada

Afirm. 3: “Tenho a certeza absoluta que as pautas ou são afixadas às 10h30 ou
já não são afixadas hoje”
Estas 3 afirmações permitem constatar facilmente que se se pretende maior
confiança na estatística, se tem que permitir que a possibilidade de erro
aumente. Por outro lado, se se permitir que o erro diminua, os extremos do
intervalo aumentam, embora o resultado perca alguma precisão. No entanto,
há que ter em atenção que, se um intervalo de confiança tem uma amplitude
demasiado grande, a estimativa não tem utilidade. Cabe ao investigador gerir
este “trade-off”.
Isto leva a uma questão importante: o dimensionamento de amostras. Até aqui,
sempre se assumiu que as dimensões são conhecidas à partida, sem referir
como se determinam. No entanto, a resolução deste problema tem um enorme
interesse prático, já que (i) recolher e tratar uma amostra demasiado grande
para os resultados que se pretendem obter constitui um evidente desperdício
de recursos e (ii) recolher uma amostra cuja dimensão é insuficiente para
retirar conclusões constitui um erro.
A dimensão das amostras aumentará se se pretender garantir maior precisão
ao intervalo e/ou maior grau de confiança.
No capítulo dedicado a aplicações estatísticas, será possível ver como é
possível utilizar o conceito de intervalo de confiança ao controlo estatístico de
processos de qualidade.

Manual Técnico de Formando

59
Manual de Estatística Aplicada

INTERVALOS DE CONFIANÇA
Exercícios

1. Uma máquina fabrica cabos cuja resistência à ruptura (em kg/cm2) é uma
variável com distribuição Normal de média 100 e desvio - padrão 30. Pretendese testar uma nova máquina que, segundo indicações do fabricante, produz
cabos com resistência média superior. Para isso, observam-se 100 cabos
fabricados pela nova máquina, que apresentam uma resistência média de 110
kg/cm2. Admita que o novo processo não altera o desvio padrão da resistência
à ruptura dos cabos. Determine um intervalo de confiança a 95% para a
resistência média à ruptura dos cabos produzidos pela nova máquina.

2. Uma máquina de cortar madeira corta pranchas cujo comprimento é uma
variável aleatória normalmente distribuída com desvio padrão 0,09 cm. Foram
efectuadas algumas medidas de prancha efectuadas aleatoriamente:
221,3

219,1

218,7

220

215,1

Construa um intervalo de confiança a 95% para o comprimento médio das
pranchas.

3. Admita-se que a altura dos alunos de uma escola segue distribuição Normal
com variância conhecida e igual a 0,051. Admita-se ainda que foi recolhida
uma amostra aleatória com dimensão n=25 alunos e calculada a respectiva
média amostral, tendo-se obtido o valor de 1,70m. Defina um intervalo que,
com probabilidade 95%, contenha o valor esperado da altura µ.

4. Um construtor civil utiliza um tipo de cimento, fornecido em sacos de 50 kg.
No entanto, os 50 kg podem não ser respeitados, pois existe uma tolerância
para o peso do saco. Contudo, existe uma norma de 4 kg2 em relação à
variância, que é respeitada. O construtor suspeita que os sacos costumam vir
Manual Técnico de Formando

60
Manual de Estatística Aplicada

com menos cimento. Para averiguar se a sua suspeita se verifica, recolheu a
seguinte amostra:
49,4 48,6 51

50,2 49,5 48,7 49

49,1

a) Construa o intervalo de confiança a 95% para a média do peso do
cimento.
b) Qual a amplitude máxima do intervalo para a média do peso de cimento
que é possível obter com esta amostra e com níveis de confiança não
superiores a 99%?

4. Numa fábrica, procura conhecer-se a incidência de defeituosos na produção
de uma máquina. Para tanto, colhe-se uma amostra de dimensão
suficientemente grande (1600 artigos), onde 10% dos artigos são defeituosos.
Determine o intervalo de confiança para a referida proporção com 90% de
confiança.

5. Uma amostra de 20 cigarros é analisada para determinar o conteúdo de
nicotina, observando-se um valor médio de 1,2 mg. Sabendo que o desvio padrão do conteúdo de nicotina de um cigarro é 0,2 mg, diga, com 99% de
confiança, entre que valores se situa o teor médio de nicotina de um cigarro.

6. Num lote de 150 peças fabricadas numa determinada máquina encontraramse 12 defeituosas. Defina o intervalo de confiança a 95% para a proporção de
peças defeituosas que aquela máquina produz.

7. O gabinete de projectos de uma empresa de material de construção civil
pretende estimar a tensão de ruptura do material usado num determinado tipo
de tubos.

Manual Técnico de Formando

61
Manual de Estatística Aplicada

Com base num vasto conjunto de ensaios realizados no passado, estima-se
que o desvio - padrão da tensão de ruptura do material em causa é de 70 psi.
Deseja-se definir um intervalo de confiança a 99% para o valor esperado da
tensão de ruptura, pretendendo-se que a sua amplitude não exceda 60 psi.
Qual o número de ensaios necessário para definir tal intervalo?

8. O director fabril de uma empresa industrial que emprega 4000 operários
emitiu um novo conjunto de normas internas de segurança. Passada uma
semana, seleccionou aleatoriamente 300 operários e verificou que apenas 75
deles conheciam suficientemente bem as normas em causa. Construa um
intervalo de confiança a 95% para a proporção de operários que conheciam
adequadamente o conjunto das normas uma semana após a sua emissão.

9. A empresa SCB controla regularmente a resistência à ruptura dos cabos por
si produzidos. Recentemente, foram analisadas as tensões de ruptura de 10
cabos SCB-33R, seleccionados aleatoriamente a partir de um lote de grandes
dimensões, tendo sido obtida uma média de 4537 kg/cm2. Existe uma norma
de 112 kg/cm2 em relação à variância, que é respeitada. O director comercial
pretende saber qual o intervalo de confiança, a 95%, para o valor esperado da
tensão de ruptura dos cabos do lote em causa. Defina esse intervalo.

10. Uma amostra de 50 capacetes de protecção, usados por trabalhadores de
uma empresa de construção civil, foram seleccionados aleatoriamente e
sujeitos a um teste de impacto, e em 18 foram observados alguns danos.
Construa um intervalo de confiança, a 95%, para a verdadeira proporção p de
capacetes que sofre danos com este teste. Interprete o resultado obtido.

Manual Técnico de Formando

62
Manual de Estatística Aplicada

3.5. Testes de hipóteses
Todos os dias temos de tomar decisões respeitantes a determinadas
populações, com base em amostras das mesmas (decisões estatísticas). Nesta
tomada de decisões, é útil formular hipóteses sobre as populações, hipóteses
essas que podem ou não ser verdadeiras. A essas hipóteses chamamos
hipóteses estatísticas, as quais geralmente se baseiam em afirmações sobre
as distribuições de probabilidade das populações ou sobre alguns dos seus
parâmetros. Uma hipótese pode então ser definida como uma conjectura
acerca de uma ou mais populações.
Desta forma, os testes de hipóteses podem considerar-se uma segunda
vertente da inferência estatística, tendo por objectivo verificar, a partir de dados
observados numa amostra, a validade de certas hipóteses relativas à
população. O resultado do teste corresponde inevitavelmente a uma das duas
respostas possíveis para cada questão: afirmativa ou negativa. Em ambos os
casos corre-se o risco de errar. Uma das características do teste de hipóteses
é, justamente, a de permitir controlar ou minimizar tal risco.
Nos testes de hipóteses, e ao contrário dos intervalos de confiança, em vez de
procurar uma estimativa ou um intervalo para um parâmetro, admite-se ou
avança-se um valor hipotético para o mesmo, utilizando depois a informação da
amostra para confirmar ou rejeitar esse mesmo valor. A hipótese a testar
denomina-se, pois, de H0 ou de hipótese nula. O objectivo é verificar se os
factos observados a contradizem, levando a optar pela hipótese alternativa H1.
Isto é, a estratégia básica seguida no método de teste de hipóteses consiste
em tentar suportar a validade H1 de uma vez provada a inverosimilhança de H0.
Exemplo:
Registos efectuados durante vários anos permitiram estabelecer que o nível de

chuvas numa determinada região, em milímetros por ano, segue uma lei
normal N(600;100). Certos cientistas afirmavam poder fazer aumentar o nível
médio µ das chuvas em 50 mm. O seu processo foi posto à prova e anotaram-

se os valores referentes a 9 anos:
510

614

780

512

501

534

603

788

650

Que se pode concluir? Adopte um nível de significância de 5%.

Manual Técnico de Formando

63
Manual de Estatística Aplicada

Resolução:
Duas hipóteses se colocavam: ou o processo proposto pelos cientistas não

produzia qualquer efeito, ou este aumentava de facto o nível médio das chuvas
em 50 mm. Estas hipóteses podem formalizar-se do modo seguinte:
H0: µ=600 mm
H1: µ=650 mm
Este é um problema clássico de teste de hipóteses, em que está em causa
aceitar ou rejeitar a hipótese nula, em função dos resultados de uma amostra.
Ao utilizar uma amostra de uma população, estamos a lidar com leis de
probabilidades, logo não é possível de saber se a hipótese nula é verdadeira
ou falsa, mas apenas medir as probabilidades envolvidas na tomada de
decisão.
Podem-se definir 2 formas de especificar Ho e H1:
(i)

hipótese simples contra hipótese simples
Ho: θ = θ0
H1: θ = θ1

(ii)

hipótese simples contra hipótese composta
Ho: θ = θ0
H1: θ > θ0 ou θ < θ0 ou θ ≠ θ0
Estes testes designam-se respectivamente de teste unilateral à
direita, teste unilateral à esquerda e teste bilateral

Sendo os testes de hipóteses, portanto, um processo de inferência estatística
onde se procuram tomar decisões sobre a população com base numa amostra,
é natural que envolvam alguma margem de erro e que ocorram em situação de
incerteza. Estes erros não podem ser completamente evitados mas, no
entanto, pode-se manter pequena a probabilidade de os cometer. Compete ao
investigador decidir qual a dose de risco de se enganar em que está disposto a
incorrer. Vamos supor uma probabilidade de erro de, por exemplo, 5%. Nesse
caso, e avançada a hipótese nula Ho, o investigador só estaria disposto a
rejeitá-la se o resultado obtido na amostra fizesse parte de um conjunto de
resultados improváveis que teriam apenas, por exemplo, 5 chances em 100 de
Manual Técnico de Formando

64
Manual de Estatística Aplicada

se produzir. Este tipo de formulação é conhecida como postura conservadora.
Ou seja, estamos mais propensos a achar que o novo processo não tem
qualquer efeito sobre o nível das chuvas (isto é, que tudo se mantém igual) do
que investir no novo processo (mudar), arriscando apenas quando houver
evidências da amostra muito fortes a favor do novo. Para que esta decisão
possa ser tomada de uma forma controlada, é conveniente pois que, à partida,
se fixe o valor a partir do qual se considera improvável a validade da hipótese
nula. Tal fixação corresponde à fixação da regra de decisão do teste.
A formalização desta regra passa pela especificação de uma região de região
de rejeição. A essa região, isto é, ao conjunto de valores “improváveis” que
conduzem à rejeição da hipótese nula dá-se o nome de Região Crítica. Ao
limite superior de risco, que na maior parte dos casos é de 10%, 5% ou 1%, dáse o nome de Nível de Significância do teste, sendo este que permite definir a
condição de rejeição de Ho. O Nível de Significância designa-se de α e
corresponde, então, à probabilidade de o resultado amostral levar à rejeição de
Ho, supondo Ho verdadeira, isto é, à probabilidade de se estar a cometer aquilo
a que se convenciona chamar de erro de 1ª espécie.
Como veremos no exemplo, existem também erros de 2ª espécie, cuja
probabilidade se designa pela letra β. Em resumo:
Quadro de decisão em condição de incerteza

Hipótese nula Ho
Decisão

Hipótese Ho ser verdadeira:

Hipótese Ho ser falsa

Aceitar Ho

Decisão correcta (1-α)

Rejeitar Ho

Erro de tipo I
Alfa (α)

Erro de tipo II
Beta (β)
Decisão correcta (1-β)

Como decidir? Visto que se trata de testar o valor de µ, a variável de decisão
será X . Considerando Ho verdadeira vem que
X ∩ N (600;

Manual Técnico de Formando

100
9

).

65
Manual de Estatística Aplicada

Em princípio, grandes valores de X são improváveis, pelo que se opta pela
seguinte regra de decisão:
Se X fôr demasiado grande, isto é, superior a um valor crítico c que tem
apenas 5 chances em 100 de ser ultrapassado, opta-se por H1 com
probabilidade 5% de se estar a cometer um erro. Se tal não acontecer,
conserva-se Ho, por falta de provas suficientes para não o fazer.
Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que

P ( X > c / µ = 600) = 0,05 ⇔ P (

X −µ

σ

>

c − 600
) = 0,05 ⇔
100

n
⇔ c = 600 + 1,645 x

9

100
= 654,83(3)
3

A regra de decisão é, então, a seguinte:
-

rejeitar H0 em favor de H1, se o valor amostral fôr superior a 654,83(3)

-

conservar H0 em detrimento de H1 se fôr inferior a 654,83(3)

Isto é, a Região Crítica deste teste, isto é, o conjunto de acontecimentos que
levam à rejeição de H0 corresponde a todos os valores de X >654,83(3).

RA: Região
de Aceitação

RR: Região
Crítica ou de
Rejeição

RA=(1-α)

µ = 600

RR=α
654,83(3)

X

Os dados recolhidos indicavam X =610,2 mm, pelo que a decisão é conservar
H0 , isto é, considerar que o processo científico não produz efeitos.

Manual Técnico de Formando

66
Manual de Estatística Aplicada

No entanto, os erros incorridos não se ficam apenas pelos de 1ª espécie.
Existem também erros de 2ª espécie. Isto é, à partida parte-se do princípio
que H0 é verdadeira e só se rejeitará essa hipótese se ocorrerem
acontecimentos pouco prováveis.
No entanto, é possível alternativamente partir do princípio que é H1 que é
verdadeira, ou seja, considerar que o processo científico é realmente eficaz no
aumento do nível médio das chuvas, mas que, infelizmente, o número de
valores observado não permite observar resultados ou esses resultados foram
insuficientes.
Supondo então que H1 é verdadeira (µ=650 mm), então vem que:
X ∩ N (650;

β

RA

100
9

)

1-β
β
RR

µ = 650

X

A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª
espécie, vem então igual a:
P(Rejeitar H1 / H1)=β
P ( X ≤ 654,83(3) / µ = 650) = P (

X −µ

σ

n

≤

654,83(3) − 650
) = P ( N (0,1) ≤ 0,14) = 55,57%
100
9

É através das probabilidades α e β que se procura o melhor teste de hipóteses,
sendo o teste ideal o que minimiza simultaneamente ambos os valores. No
entanto, e como α e β se referem a realidades opostas e variam em sentido
contrário, tal não é possível. O que na maior parte dos casos se faz é fixar o α
(para amostras de dimensão n) e tentar minimizar β.

Manual Técnico de Formando

67
Manual de Estatística Aplicada

Região de rejeição e de aceitação da hipótese nula

Unilateral
à esquerda
H1: µ < 600

Bilateral
H1: µ ≠ 600

RA

RR
α

RR
α/2
1−α

RA

Unilateral
à direita
H1: µ > 600
RA

RR
α/2

1−α

RR

1−α

α

Chama-se potência de um teste à probabilidade de rejeitar H0 quando esta é
falsa. Esta é uma decisão certa, não implica erro, e é complementar do erro de
2ª espécie. Logo, quanto menor o erro de 2ª espécie, maior será o valor da
potência do teste e, logo, maior a sua qualidade (diz-se que o teste é mais
potente) . Quando H1 é uma hipótese composta (>, < ou ≠ ), a potência do teste
é variável, dependendo do valor do parâmetro que não é fixo. Nesse caso falase em função potência do teste = 1 -β (µ1)

Resumindo: passos para construção de um teste de hipóteses:
Passo No 1: Formular as hipóteses nula e alternativa
Passo No 2: Decidir qual estatística (estimador) será usada para julgar a Ho e a
variável de decisão
Passo No 3: Definir a forma da Região Crítica, em função da hipótese H1
Passo Nº 4: Fixar o nível de significância
Passo Nº 5: Construir a Região Crítica em função do nível de significância
Passo Nº 6: Cálculo (eventual) da potência do teste
Passo Nº 7: Calcular a estatística da amostra
Passo No 8: Tomar a decisão: rejeição ou não de Ho

Manual Técnico de Formando

68
Manual de Estatística Aplicada

(i) Teste de hipóteses para a média de uma população normal
Exemplo

Suponha que o director de qualidade pretende averiguar se o peso dos pacotes
de arroz produzidos corresponde ao valor assinalado na embalagem. Seja X a
variável que representa o peso de um pacote de arroz. Suponha que
X ∩ N ( µ ;0,012 ) e que se conhece a seguinte amostra:

1,02 0,98 0,97 1,01 0,97 1,02 0,99 0,98 1,00
Será que, para um nível de significância de 5% se pode dizer que o peso médio
corresponde ao peso de 1 kg assinalado na embalagem?

Conceitos

Notação

Definição

População

Todos os pacotes produzidos

Amostra

Os pacotes recolhidos na amostra

Variável

X

Peso de um pacote de arroz

Parâmetro

µ

Quantidade média de arroz por pacote produzido

Estimador

X

Quantidade média de arroz por pacote da amostra

Estimativa

Hipótese nula
Hipótese alternativa
Erro de tipo I
Alfa (α)
Erro de tipo II
Beta (β)

Valor da média daquela amostra

Ho: µ = 1
H1: µ < 1
Considerar que o peso médio corresponde ao da
embalagem quando é inferior
Considerar que o arroz contido em cada pacote era inferior
ao indicado quando estava de facto de acordo com o valor
da embalagem

Resolução
Passo 1
Formular as hipóteses:
Ho: µ = 1
H1: µ < 1
Passo 2
A estatística a ser utilizada será a média amostral

Manual Técnico de Formando

69
Manual de Estatística Aplicada

Passo 3
A região crítica é formada por todos os valores menores ou iguais a c
Passo 4
Assumir um nível de significância de 5%
Passo 5
Para α=5%, determinar a região de rejeição e aceitação.
Logo, sendo

P(Rejeitar Ho / Ho) = α = 5%, vem que

P ( X < c / µ = 1) = 0,05 ⇔ P (

X −µ

σ

<

n

c −1
) = 0,05 ⇔
0,01
9

0,01
= 0,9945
3
Logo, RC = ]− ∞;0,9945]
⇔ c = 1 − 1,645 x

Passo 6
Potência do teste se o verdadeiro valor fôr 0,99:

A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª
espécie, vem então igual a:
P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β:
P ( X ≤ 0,9945 / µ = 0,99) = P (

X −µ

σ

n

Passo 7

Calcular a estatística X =

1
9

≤

0,9945 − 0,99
) = P ( N (0,1) ≤ 1,35) = 91,15%
0,01
9

xi = 0,9933

Passo 8
Tomar a decisão

Como o valor da amostra foi 0,9933 e é menor que o valor crítico 0,9945,
rejeita-se Ho
Ou seja, considera-se que o arroz contido em cada pacote era inferior ao
indicado. No entanto, há o risco de se mandar parar a produção para revisão
do equipamento sem necessidade. Reduzindo a probabilidade de isso ocorrer
de 5% para 1%, vem:

Manual Técnico de Formando

70
Manual de Estatística Aplicada

α=1%

α=5%
RA: Continuar a
produção

RR: Parar a
produção

-∞

0

0,9922 0.9945

+∞

Valor da amostra: 0,9933
A única mudança será no Valor Crítico, que de 0,9945 para 0,9922. Neste
caso, aceitaremos Ho, ou seja, consideraremos que não há qualquer anomalia
na produção.

(ii) Teste de hipóteses para a proporção de uma população binomial

Seja (x1, x2, …, xn) uma amostra aleatória de uma população com parâmetro p
desconhecido, e considere-se que n é grande (na prática, n>100). Vamos
supor que se pretende testar o valor teórico da percentagem (parâmetro p).
Fixando-se o nível de significância, determina-se a região crítica. Sendo o
estimador a proporção amostral, a variável de decisão é
Z=

ˆ
p− p
p (1 − p )
n

∩ N (0;1)

Exemplo

Numa cidade, pretende-se saber se metade da população é favorável à
construção de um centro comercial. Faz-se um inquérito a 200 pessoas, e 45%
declaram-se favoráveis. Estes valores contradizem a hipótese?
Conceitos

Notação

Definição

População

Os habitantes da cidade

Amostra

Os habitantes inquiridos

Manual Técnico de Formando

71
Manual de Estatística Aplicada

Conceitos

Notação

Parâmetro

p

Percentagem ou proporção de habitantes da
cidade favoráveis à construção de um centro
comercial

Estimador

ˆ
p

Percentagem ou proporção de habitantes da
amostra favoráveis à construção de um centro
comercial

Estimativa

Definição

Valor da proporção daquela amostra

Hipótese nula
Hipótese alternativa
Erro de tipo I
Alfa (α)
Erro de tipo II
Beta (β)

Ho: p = 0,5
H1: p < 0,5
Considerar que a maioria dos habitantes não é favorável à
construção do centro comercial quando de facto são
Considerar que a maioria dos habitantes é favorável à
construção do centro comercial quando são contra

Resolução
Passo 1
Formular as hipóteses:
Ho: p = 0,5
H1: p < 0,5
Passo 2
A estatística a ser utilizada será a proporção amostral, onde o cuidado deve ser
trabalhar com grandes amostras.
Passo 3
A região crítica é formada por todos os valores menores ou iguais a c
Passo 4
Assumir um nível de significância de 5%
Passo 5
Para α=5%, determinar a região de rejeição e aceitação.
Logo, sendo

P(Rejeitar Ho / Ho) = α = 5%, vem que

ˆ
P ( p < c / p = 0,5) = 0,05 ⇔ P (

⇔ c = 0,5 − 1,645 x

ˆ
p− p

p (1 − p )
n

0,5(1 − 0,5)
= 0,442
200

Manual Técnico de Formando

<

c − 0,5
0,5(1 − 0,5)
200

) = 0,05 ⇔

Logo, RC = ]− ∞;0,442]

72
Manual de Estatística Aplicada

Passo 6
Potência do teste se o verdadeiro valor fôr 0,4:

P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β:
ˆ
P ( p ≤ 0,442 / p = 0,4) = P (

ˆ
p− p
p (1 − p )
n

≤

0,442 − 0,4
0,4(1 − 0,4)
200

) = P ( N (0,1) ≤ 1,21) = 88,69%

Passo 7
ˆ
p =0,45
Passo 8
Como o valor amostral 0,45 é maior que o valor crítico 0,442, não se rejeita Ho

RR: Não
construir o
centro comercial

α=5%
RR: Parar a
produção

-∞

RA: Continuar a
produção

+∞
Valor amostral: 0,45
0,442
Ou seja, apesar de apenas 45% dos habitantes se terem manifestado a favor
0

da construção do centro comercial, essa margem não é suficiente para decidir
deixar de o construir.

Manual Técnico de Formando

73
Manual de Estatística Aplicada

TESTES DE HIPÓTESES

Exercícios

1. O peso dos pacotes de farinha de 1 kg, produzidos por uma fábrica, é uma
variável normalmente distribuída, com desvio padrão 0,01. Da produção de
determinado dia é retirada uma amostra de 49 pacotes, com peso médio de
0,998 Kg.
Pode-se afirmar, a um nível de significância de 1%, que o peso médio dos
pacotes de farinha nesse dia não está de acordo com o peso indicado?

2. Numa região onde existem entre os maiores de 18 anos 50% de fumadores,
é lançada uma intensa campanha anti-tabaco.
Ao fim de três meses, realiza-se um mini-inquérito junto de 100 cidadãos com
mais de 18 anos, registando-se 45 fumadores. Pode concluir-se que a
campanha surtiu efeito?

3. Um fabricante afirma que o tempo médio de vida de um certo tipo de bateria
é de 240 horas, com desvio-padrão de 20 horas. Uma amostra de 18 baterias
forneceu os seguintes valores:
237

242

232

242

248

230

244

243

254

262

234

220

225

236

232

218

228

240

Supondo que o tempo de vida das baterias se distribui normalmente, poder-seá concluir, com 5% de significância, que as especificações não estão a ser
cumpridas?

Manual Técnico de Formando

74
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando
23126 estatisticaaplicada manualtecnicoformando

Contenu connexe

Tendances

Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...wilkerfilipel
 
Pobabilidade e estatistica para engenheiros ufsc i
Pobabilidade e estatistica para engenheiros ufsc iPobabilidade e estatistica para engenheiros ufsc i
Pobabilidade e estatistica para engenheiros ufsc iAnderson Araujo
 
Apostila de estatística
Apostila de  estatística Apostila de  estatística
Apostila de estatística Cidinha Santos
 
A importância de Bioestatística
A importância de Bioestatística A importância de Bioestatística
A importância de Bioestatística João Monteiro
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística DescritivaAnderson Pinho
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatisticaAleNiv
 
35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)Luccy Crystal
 
Apostila5 ine5102 quimica
Apostila5 ine5102 quimicaApostila5 ine5102 quimica
Apostila5 ine5102 quimicasmpgiacobbo
 
Apostila de estatística descritiva
Apostila de estatística descritivaApostila de estatística descritiva
Apostila de estatística descritivaFabiano Oliveira
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)Eric Novais SIlva
 
EstatíStica Aula 000
EstatíStica Aula 000EstatíStica Aula 000
EstatíStica Aula 000educacao f
 
Uma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESMEUma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESMERilva Lopes de Sousa Muñoz
 

Tendances (20)

Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
 
Econometria
EconometriaEconometria
Econometria
 
Pobabilidade e estatistica para engenheiros ufsc i
Pobabilidade e estatistica para engenheiros ufsc iPobabilidade e estatistica para engenheiros ufsc i
Pobabilidade e estatistica para engenheiros ufsc i
 
Aula 2 resumo de dados
Aula 2   resumo de dadosAula 2   resumo de dados
Aula 2 resumo de dados
 
Apostila de estatística
Apostila de  estatística Apostila de  estatística
Apostila de estatística
 
A importância de Bioestatística
A importância de Bioestatística A importância de Bioestatística
A importância de Bioestatística
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
Bioestatistica
BioestatisticaBioestatistica
Bioestatistica
 
Estatística Descritiva
Estatística DescritivaEstatística Descritiva
Estatística Descritiva
 
Estatistica[1]
Estatistica[1]Estatistica[1]
Estatistica[1]
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
 
35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)35302050 apostila-de-estatistica-basica (1)
35302050 apostila-de-estatistica-basica (1)
 
Apostila de estat_stica
Apostila de estat_sticaApostila de estat_stica
Apostila de estat_stica
 
Apostila5 ine5102 quimica
Apostila5 ine5102 quimicaApostila5 ine5102 quimica
Apostila5 ine5102 quimica
 
Apostila de estatística descritiva
Apostila de estatística descritivaApostila de estatística descritiva
Apostila de estatística descritiva
 
1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)1 gestaoempresarial_060355140_cd (1)
1 gestaoempresarial_060355140_cd (1)
 
EstatíStica Aula 000
EstatíStica Aula 000EstatíStica Aula 000
EstatíStica Aula 000
 
Uma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESMEUma Breve Revisão sobre Bioestatística no GESME
Uma Breve Revisão sobre Bioestatística no GESME
 
Estatistica descritiva i
Estatistica descritiva iEstatistica descritiva i
Estatistica descritiva i
 
Noções de estatística 3º ano
Noções de estatística 3º anoNoções de estatística 3º ano
Noções de estatística 3º ano
 

En vedette

Capítulo 1 introdução à estatística
Capítulo 1   introdução à estatísticaCapítulo 1   introdução à estatística
Capítulo 1 introdução à estatísticaPedro Falcão
 
Delineamentos experimentais-basicos
Delineamentos experimentais-basicosDelineamentos experimentais-basicos
Delineamentos experimentais-basicosnayara moraes
 
Apostila estatistica 2009 mec
Apostila estatistica 2009 mecApostila estatistica 2009 mec
Apostila estatistica 2009 mecRonne Seles
 
Estatística completa
Estatística completaEstatística completa
Estatística completaRonne Seles
 

En vedette (7)

5127 apostila-de-estatistica
5127 apostila-de-estatistica5127 apostila-de-estatistica
5127 apostila-de-estatistica
 
Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3
 
Capítulo 1 introdução à estatística
Capítulo 1   introdução à estatísticaCapítulo 1   introdução à estatística
Capítulo 1 introdução à estatística
 
Delineamentos experimentais-basicos
Delineamentos experimentais-basicosDelineamentos experimentais-basicos
Delineamentos experimentais-basicos
 
Apostila estatistica 2009 mec
Apostila estatistica 2009 mecApostila estatistica 2009 mec
Apostila estatistica 2009 mec
 
Estatística completa
Estatística completaEstatística completa
Estatística completa
 
Slides de estatística aplicada
Slides de estatística aplicadaSlides de estatística aplicada
Slides de estatística aplicada
 

Similaire à 23126 estatisticaaplicada manualtecnicoformando

dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...RaquelSilva604657
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimicaMarianne Soares
 
Capítulo 1 livro básico probabiliade
Capítulo 1  livro básico probabiliadeCapítulo 1  livro básico probabiliade
Capítulo 1 livro básico probabiliadeWodson Vieira Gomes
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatisticaAna
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatisticaPedro Kangombe
 
Introdução à estatística 01 alunos
Introdução à estatística 01 alunosIntrodução à estatística 01 alunos
Introdução à estatística 01 alunosCézar Guerra
 
Apostila estatistica descritiva ii
Apostila estatistica descritiva iiApostila estatistica descritiva ii
Apostila estatistica descritiva iisimuladocontabil
 
Capítulo ii estatística iniciais
Capítulo ii   estatística  iniciaisCapítulo ii   estatística  iniciais
Capítulo ii estatística iniciaiscon_seguir
 
Aprenda fazer uma distribuição de frequência, Estatistica
Aprenda fazer uma distribuição de frequência, EstatisticaAprenda fazer uma distribuição de frequência, Estatistica
Aprenda fazer uma distribuição de frequência, EstatisticaPedro Kangombe
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanosaurelio2machado
 

Similaire à 23126 estatisticaaplicada manualtecnicoformando (20)

dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
 
Estatistica exercicios resolvidos
Estatistica exercicios resolvidosEstatistica exercicios resolvidos
Estatistica exercicios resolvidos
 
Estatistica
EstatisticaEstatistica
Estatistica
 
1ª apostila de estatística quimica
1ª apostila de estatística  quimica1ª apostila de estatística  quimica
1ª apostila de estatística quimica
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
Analisando dados
Analisando dadosAnalisando dados
Analisando dados
 
2012 aula1 (1)
2012 aula1 (1)2012 aula1 (1)
2012 aula1 (1)
 
Capítulo 1 livro básico probabiliade
Capítulo 1  livro básico probabiliadeCapítulo 1  livro básico probabiliade
Capítulo 1 livro básico probabiliade
 
Introdução a Estatistica 1.pdf
Introdução a Estatistica 1.pdfIntrodução a Estatistica 1.pdf
Introdução a Estatistica 1.pdf
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
Apostila de estatistica
Apostila de estatisticaApostila de estatistica
Apostila de estatistica
 
Introdução à estatística 01 alunos
Introdução à estatística 01 alunosIntrodução à estatística 01 alunos
Introdução à estatística 01 alunos
 
Estdescr
EstdescrEstdescr
Estdescr
 
Apostila estatistica descritiva ii
Apostila estatistica descritiva iiApostila estatistica descritiva ii
Apostila estatistica descritiva ii
 
Capítulo ii estatística iniciais
Capítulo ii   estatística  iniciaisCapítulo ii   estatística  iniciais
Capítulo ii estatística iniciais
 
Aprenda fazer uma distribuição de frequência, Estatistica
Aprenda fazer uma distribuição de frequência, EstatisticaAprenda fazer uma distribuição de frequência, Estatistica
Aprenda fazer uma distribuição de frequência, Estatistica
 
Estatistica
EstatisticaEstatistica
Estatistica
 
Estatística
EstatísticaEstatística
Estatística
 
Estatistica completo revisado
Estatistica completo revisadoEstatistica completo revisado
Estatistica completo revisado
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanos
 

23126 estatisticaaplicada manualtecnicoformando

  • 1.
  • 2.
  • 3. Manual de Estatística Aplicada ÍNDICE 1. INTRODUÇÃO .............................................….................................... 4 1.1 Definições Gerais ........................................................................ 5 1.1.1. População 1.1.2. Variáveis ou atributos 1.1.3. Processo de amostragem 1.2 A Estatística Descritiva e a Estatística Indutiva .............…...... 6 2. ESTATÍSTICA DESCRITIVA 8 2.1 Variáveis Qualitativas ................................................................. 8 2.2 Variáveis Quantitativas Discretas ............................................. 10 2.3 Variáveis Quantitativas Contínuas ............................................ 11 2.4 Medidas de Localização ............................................................. 13 2.4.1. Média 2.4.2. Mediana 2.4.3. Moda 2.5 Medidas de Ordem ...................................................................... 17 2.6 Medidas de Assimetria ............................................................... 18 2.7 Medidas de Dispersão ................................................................ 19 2.7.1. Dispersão Absoluta 2.7.2. Dispersão Relativa 2.8 Análise de Concentração ........................................................... 21 2.8.1. Curva de Lorenz 2.8.2. Índice de Gini Manual Técnico de Formando 2
  • 4. Manual de Estatística Aplicada 2.9 Estatística Descritiva Bidimensional ........................................ 24 2.9.1. Diagrama de dispersão 2.9.2. Regressão simples 2.9.3. Correlação linear 2.9.4. Correlação ordinal 3. ESTATÍSTICA INDUTIVA 3.1 Noções básicas de probabilidades ........................................... 41 3.2 Probabilidade condicionada ...................................................... 44 3.3 Funções de Probabilidade ........................................….............. 46 3.4 Estimação por Intervalos ..........................................….............. 53 3.5 Testes de hipóteses ..................................................….............. 63 3.6 Aplicações Estatísticas: Fiabilidade ......................................... 77 3.6.1. Conceito de fiabilidade 3.6.2. Fiabilidade de um sistema 3.7 Aplicações Estatísticas: Controlo Estatístico de Qualidade .. 82 3.8 Aplicações Estatísticas: Tratamento Estatístico de Inquéritos . 88 3.8.1. Teste de independência do qui-quadrado 3.8.2. Tratamento de inquéritos BIBLIOGRAFIA Manual Técnico de Formando 104 3
  • 5. Manual de Estatística Aplicada "A estatística é a técnica de torturar os números até que eles confessem". Autor desconhecido 1. INTRODUÇÃO Inicialmente, a actividade estatística surgiu como um ramo da Matemática. Limitava-se ao estudo de medições e técnicas de contagem de fenómenos naturais e ao cálculo de probabilidades de acontecimentos que se podiam repetir indefinidamente. Actualmente, os métodos estatísticos são utilizados em muitos sectores de actividade, tendo como algumas aplicações estudos de fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento de inquéritos, sondagens, modelos econométricos, previsões, etc. Exemplo de uma estatística: os valores da inflação entre 1980 e 1990 constituem uma estatística. Fazer estatística sobre estes dados poderia consistir, por exemplo, em traçar gráficos, calcular a inflação média trimestral ou prever a inflação para 1991. A análise de um problema estatístico desenvolve-se ao longo de várias fases distintas: (i) Definição do Problema Saber exactamente aquilo que se pretende pesquisar; estabelecer o objectivo de análise e definição da população (ii) Amostragem e Recolha de Dados Fase operacional. É o processo de selecção e registo sistemático de dados, com um objectivo determinado. Os dados podem ser primários (publicados pela própria pessoa ou organização) ou secundários (quando são publicados por outra organização). Manual Técnico de Formando 4
  • 6. Manual de Estatística Aplicada (iii) Tratamento e Apresentação dos Dados Resumo dos dados através da sua contagem e agrupamento. É a classificação de dados, recorrendo a tabelas ou gráficos. (iv) Análise e Interpretação dos Dados A última fase do trabalho estatístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o comportamento do fenómeno em estudo (estatística descritiva). Na estatística indutiva a interpretação dos dados se fundamentam na teoria da probabilidade. 1.1. Definições Gerais 1.1.1. População Fazer estatística pressupõe o estudo de um conjunto de objectos bem delimitado com alguma característica em comum sobre os quais observamos um certo número de atributos designados por variáveis. Exemplo: Empresas existentes em Portugal 1.1.2. Variáveis ou atributos As propriedades de uma população são estudadas observando um certo número de variáveis ou atributos. As variáveis podem ser de natureza qualitativa ou quantitativa. As variáveis quantitativas podem ainda dividir-se entre discretas e contínuas. As variáveis discretas assumem apenas um número finito numerável de valores. As variáveis contínuas podem assumir um número finito não numerável ou um número infinito de valores. Exemplo: um conjunto de empresas pode ser analisado em termos de sector de actividade (atributo qualitativo), número de trabalhadores (atributo quantitativo discreto), rácio de autonomia financeira (atributo quantitativo contínuo), etc Manual Técnico de Formando 5
  • 7. Manual de Estatística Aplicada 1.1.3. Processo de amostragem Para conhecer de forma completa a população, podem efectuar-se: - recenseamentos (indagação completa de todos os elementos da população); este processo é, no entanto, tipicamente moroso e dispendioso, sendo esses os motivos porque os Censos são realizados apenas em cada 10 anos. - estudos por amostragem (observação de apenas um subconjunto, tido como representativo do universo). As técnicas de recolha de amostras garantem a sua representatividade e aleatoriedade. 1.2. A Estatística Descritiva e a Estatística Indutiva Para além do ramo de amostragem, a estatística compreende dois grandes ramos: a estatística descritiva e a estatística indutiva. A estatística descritiva é o ramo da estatística que se encarrega do tratamento e análise de dados amostrais. Assim, depois de recolhida a amostra de acordo com técnicas que garantem a sua representatividade e aleatoriedade, fica disponível um conjunto de dados sobre o universo “em bruto” ou não classificados. Para que seja possível retirar qualquer tipo de conclusões, tornase necessário classificar os dados, recorrendo a tabelas de frequências e a representações gráficas, isto é, é preciso tratar os dados. Depois de tratados, será possível proceder à análise dos dados através de várias medidas que descrevem o seu comportamento: localização, dispersão, simetria dos dados, concentração, etc. São disso exemplo indicadores numéricos bem conhecidos como a média ou a variância. A estatística indutiva é o ramo da estatística que se ocupa em inferir das conclusões retiradas sobre a amostra para a população. De facto, a amostra não é mais do que um passo intermédio e exequível de obter informações sobre o verdadeiro objecto de estudo, que é o universo. A estatística indutiva (ou inferência estatística) garante a ligação entre amostra e universo: se algo Manual Técnico de Formando 6
  • 8. Manual de Estatística Aplicada se concluiu acerca da amostra, até que ponto é possível afirmar algo semelhante para o universo? É nesta fase que se procuram validar as hipóteses formuladas numa fase prévia exploratória. Claro que o processo de indução implica um certo grau de incerteza associado à tentativa de generalização de conclusões da “parte” (amostra) para o “todo” (universo). O conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não vai ser possível afirmar com toda a certeza que o comportamento da amostra ilustra perfeitamente o comportamento do universo, mas apenas que o faz com forte probabilidade. As inferências indutivas são assim elaboradas medindo, ao mesmo tempo, o respectivo grau de incerteza. Daí que, na ficha das técnicas das sondagens eleitorais, por exemplo, apareçam referências ao “nível de confiança” associado aos resultados e ao “erro” cometido. O esquema seguinte ilustra a “roda” da disciplina de estatística, relacionando os seus diferentes ramos: POPULAÇÃO OU UNIVERSO Previsões Estimação Erros Amostragem INFERIR DA AMOSTRA PARA O UNIVERSO AMOSTRA Estatística Descritiva TRATAMENTO E ANÁLISE DA AMOSTRA Inferência Estatística Gráficos; tabelas; medidas descritivas Manual Técnico de Formando 7
  • 9. Manual de Estatística Aplicada 2. ESTATÍSTICA DESCRITIVA Os resultados da observação de um atributo sobre os elementos do conjunto a analisar constituem os dados estatísticos. O ramo da estatística que se ocupa do tratamento, apresentação e análise de dados amostrais denomina-se de estatística descritiva. 2.1. Variáveis Qualitativas Os dados qualitativos são organizados na forma de uma tabela de frequências, que representa o número ni de elementos de cada uma das categorias ou classes e que é chamado de frequência absoluta. A soma de todas as frequências é igual à dimensão da amostra (n). Numa tabela de frequências, além das frequências absolutas, também se apresentam as frequências relativas (fi), obtida dividindo a frequência absoluta pelo número total de observações. Modalidades Mod. 1 Frequências relativas f1 Mod. j nj fj Mod. n Total fi = Frequências absolutas n1 nn n: dimensão da amostra fn 1 ni ; ni: nº de vezes que cada modalidade da variável foi observada. n Manual Técnico de Formando 8
  • 10. Manual de Estatística Aplicada Exemplo: 68 empresas agrupadas por sector de actividade Uma forma de resumir a informação contida nos dados é construir uma tabela de frequências em que se consideram as diferentes modalidades que o sector de actividade pode tomar: Sector de actividade Indústria transformadora Construção e obras públicas Comércio e serviços Financeiro Segurador Total Nº de empresas (ni) 25 6 14 19 4 68 % de empresas (fi) 36,8% 8,8% 20,6% 27,9% 5,9% 1 Estes dados podem também ser representados graficamente através de: Diagrama de barras Para cada modalidade, desenha-se uma barra de altura igual à frequência absoluta ou relativa (as frequências relativas são de preferir, pois permitem a comparação de amostras de diferentes dimensões). 40% 30% 20% 10% 0% IT COB CS F S Diagrama sectorial ou circular Esta representação é constituída por um círculo, em que se apresentam tantos sectores quantos as modalidades em estudo. O ângulo de cada sector é proporcional às frequências das classes, fazendo corresponder o total da amostra (n) a 360º (por exemplo, para a indústria transformadora, o ângulo será de 360ºx36,8%=132,3º). Geralmente, juntamente com a identificação da modalidade, indica-se a frequência relativa respectiva. Manual Técnico de Formando 9
  • 11. Manual de Estatística Aplicada 6% IT 36% 28% COB CS F S 9% 21% 2.2. Variáveis Quantitativas Discretas São variáveis que assumem um número finito ou infinito numerável de valores. A apresentação destas amostras é semelhante às variáveis qualitativas, fazendo-se uma tabela de frequências e uma representação gráfica recorrendo ao diagrama de barras. Valores da variável X1 Frequências absolutas n1 Frequências relativas f1 Xj nj fj Xn Total nn n: dimensão da amostra fn 1 Exemplo: X é o nº de defeituosos por embalagem numa amostra de 200 Nº de defeituosos (X) 0 1 2 3 4 Total Nº de embalagens (ni) 80 60 30 20 10 200 % de embalagens (fi) 40% 30% 15% 10% 5% 1 50% 40% 30% 20% 10% 0% 0 1 Manual Técnico de Formando 12 23 34 45 10
  • 12. Manual de Estatística Aplicada Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi) acumuladas: Nº defeituosos (X) 0 1 2 3 4 Total Nº embalagens (ni) 80 60 30 20 10 200 % embalagens (fi) 40% 30% 15% 10% 5% 1 Ni 80 80+60 170 190 200 Fi 40% 40%+30% 85% 95% 100% 2.3. Variáveis Quantitativas Contínuas Como foi dito anteriormente, uma variável (ou atributo) é contínua quando assume um número infinito não numerável de valores, isto é, podem assumir qualquer valor dentro de um intervalo. Neste caso, a construção da tabela compreende duas etapas: (i) Definição de classes de valores disjuntas, correspondentes a intervalos de números reais fechados à esquerda e abertos à direita, cuja constituição obedece a certas regras (ii) Contagem das observações pertencentes a cada classe Regra de construção de classes (pressupõe a formação de classes de igual amplitude) - Número de classes a constituir Depende de n = dimensão da amostra Se n≥25, o número de classes a constituir deve ser 5 Se n<25, o número de classes a constituir deve ser n - Amplitude comum a todas as classes Sendo a amplitude total dos dados dada pela diferença entre o valor máximo e o valor mínimo observados, então a amplitude de cada classe será: Valor máximo da variável observado – Valor mínimo da variável observado Nº de classes a constituir Manual Técnico de Formando 11
  • 13. Manual de Estatística Aplicada Classes de valores da variável [x1; x2[ [x2; x3[ [x3; x4[ Frequências absolutas n1 f1 nj fj n n: dimensão da amostra [xn-1; xn] Total Frequências relativas fn 1 Exemplo: Estudo do rácio de autonomia financeira de uma amostra de 68 empresas Rácio (X) [0; 0.5[ [0.5; 1[ [1; 1.5[ [1.5; 2[ [2; 3[ [3; 6] Total Nº de empresas (ni) 4 22 26 10 4 2 68 % de empresas (fi) 5.9% 32.4% 38.2% 14.7% 5.9% 2.9% 1 Amplit (hi) 0.5 0.5 0.5 0.5 1.0 3.0 fi/hi 11.8% 64.7% 76.5% 29.4% 5.9% 1% A distribuição de frequências representa-se através de um histograma. Um histograma é uma sucessão de rectângulos adjacentes, em que a base é uma classe e a altura a frequência (relativa ou absoluta) por unidade de amplitude (ni/ai ou fi/ai), sendo a amplitude de cada classe ai=ei-ei-1. A área total do histograma é a soma das frequências relativas, isto é, 1. fi/hi 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 racio Manual Técnico de Formando 12
  • 14. Manual de Estatística Aplicada 1. Esta distribuição permite visualizar o tipo de distribuição e deve salientar alguns aspectos mais relevantes desta (moda, classe modal, ...). Como as classes podem ter amplitudes diferentes, para que todos os rectângulos (colunas) sejam comparáveis é necessário corrigir as frequências das classes (calculando as frequências que se teria se a amplitude de todas as classes fosse igual e igual a 1) 2. É preferível representar o histograma com fi/hi do que com ni/hi uma vez que deste modo é possível comparar distribuições com diferente número de observações amostrais. Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi) acumuladas: Rácio (X) [0; 0.5[ [0.5; 1[ [1; 1.5[ [1.5; 2[ [2; 3[ [3; 6] Total Nº empresas (ni) 4 22 26 10 4 2 68 % empresas (fi) 5.9% 32.4% 38.2% 14.7% 5.9% 2.9% 1 Ni Fi 4 5.9% 4+22 5.9%+32.4% 4+22+26 76.5% 4+22+26+10 91.2% 66 97.1% 68 100% 2.4. Medidas de localização 2.4.1. Média ( X ) É a medida de localização mais usada, sobretudo pela sua facilidade de cálculo. Dados não-classificados (não agrupados numa tabela de frequências) x = 1 n n i =1 xi Média aritmética simples Dados classificados (isto é, agrupados numa tabela de frequências) Variáveis discretas Manual Técnico de Formando 13
  • 15. Manual de Estatística Aplicada 1 n x = n i =1 ni x i = n i =1 f i xi Média ponderada dos valores de X Exemplo 2: x = 0 x80 + ... + 4 x10 = 1,1 200 Dados classificados (isto é, agrupados numa tabela de frequências) Variáveis contínuas x = 1 n n i =1 ni ci = n i =1 f i ci Média ponderada dos pontos médios das classes onde ci é o ponto médio de cada classe ( lim . inf . + lim . sup . ) 2 Exemplo 3: x = 0,059 x0,25 + ... + 0.029 x 4,5 = 1,2705 A média é uma medida de localização que, geralmente, indica o valor central da distribuição, entendido como o valor em torno do qual se distribuem os valores observados. Desta forma, a média é muitas vezes utilizada como valor representativo da amostra. No entanto, a média tem o grande inconveniente de ser sensível a valores muito extremados ou aberrantes da distribuição (outliers). Em casos desses, a média deixa de ser um valor que aparece na parte central da distribuição para ser “empurrada” para os extremos. Nestes casos, é preferível recorrer à informação complementar fornecida por outras medidas de localização, como a moda e a mediana, que se definem a seguir. 2.4.2. Mediana (Me) A mediana não se calcula a partir do valor de todas as observações, mas a partir da posição dessas observações. Manual Técnico de Formando 14
  • 16. Manual de Estatística Aplicada Dados não-classificados Se tivermos n valores x1, x2, ... xn Se n fôr ímpar, Me = x n+1 2 Se n fôr par, xn + xn Me = 2 2 +1 2 Exemplo Para n=5 (ímpar) 8,9 13 Me = 13,5 20,2 105,8 x 5+1 = x3 = 13,5 2 Para n=6 (par) 7,2 7,6 11,7 12,5 13,6 191 x6 + Me = x6 2 2 +1 2 = x3 + x 4 11,7 + 12,5 = 2 2 = 12,1 Dados classificados A mediana é o valor tal que Fi = 0,5 Variáveis discretas Se existe um valor de xi para o qual Fi = 0,5, então fala-se em intervalo mediano. Se não existe nenhum valor de xi para o qual Fi = 0,5, então a mediana é o primeiro valor para o qual Fi > 0,5. Manual Técnico de Formando 15
  • 17. Manual de Estatística Aplicada Exemplo 2: Mediana = 1 (com Fi = 0.7, primeiro valor que ultrapassa 0,5), o que quer dizer que pelo menos em metade das embalagens apareceu 1 artigo defeituoso ou menos. Variáveis contínuas Em geral, determina-se o valor para o qual Fi = 0,5 através de uma regra de três simples, atendendo a que as frequências acumuladas variam uniformemente dentro de cada classe. Exemplo 3: Classe mediana (classe a que corresponde frequência acumulada 0,5): 1 : Fi =0,383 1,5 : Fi = 0,765 Cálculo da mediana: 0,765 - 0,383 ------------ 1,5 - 1 0,5 – 0,383 -------------- Me – 1 Me = 1+((0,5x0,17)/0,382)= 1,15 Isto é, 50% das empresas apresentam rácio de autonomia financeira inferior a 1,15. De uma forma geral: Me = L inf + 0.5 − FL inf xamp. classe mediana FL sup − FL inf 2.4.3. Moda (Mo) Variáveis discretas A moda é valor de X para o qual fi é máximo, isto é, é o valor mais frequente da distribuição. Manual Técnico de Formando 16
  • 18. Manual de Estatística Aplicada Exemplo 2: Mo=0 (com fi=0,4) Variáveis contínuas A classe modal é a classe de valores de X para o qual fi/hi é máximo, isto é, é a classe a que corresponde maior frequência por unidade de amplitude. Exemplo 3: Classe modal: [1-1,5[ 2.5. Medidas de ordem Tal como se definiu para a mediana, é possível definir outros valores de posição ou valores separadores da distribuição em partes iguais. Chama-se quantil de ordem p ao valor de x a que corresponde Fi = p. - Se p=0,01; 0,02;.....0,99, chama-se ao quantil percentil - Se p=0,1; 0,2;...0,9, chama-se ao quantil decil - Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A mediana é uma caso particular dos quartis (coincide com Q2) Máximo Variável discreta O quantil de ordem p é o primeiro valor de x para o qual Fi>p. Variável contínua Calcula-se por uma regra de três simples, como a 25% maiores mediana. De uma forma geral: Q1 = L inf + 0.25 − FL inf xamp. classe Q1 FL sup − FL inf 0.75 − FL inf Q3 = L inf + xamp. classe Q3 FL sup − FL inf Manual Técnico de Formando Q3 Mediana 50% mais centrais Q1 Mínimo17 25% menores
  • 19. Manual de Estatística Aplicada A representação gráfica destas medidas designa-se de diagrama de extremos e quartis e serve para realçar algumas características da amostra. Os valores da amostra compreendidos entre os 1º e 3º quartis são representados por um rectângulo (caixa) com a mediana indicada por uma barra. Seguidamente, consideram-se duas linhas que unem os meios dos lados do rectângulo com os extremos da amostra. Utilizando os valores do exemplo 3 (Q1=0,795; Q3=1.48), resulta o diagrama da página anterior. Esta distribuição está fortemente concentrada em torno de valores baixos da variável (rácio de autonomia financeira), já que 75% dos valores se encontram num espectro muito reduzido. Ao contrário, 25% das empresas correspondem a um espectro muito amplo, entre 1,48 (Q3) e 6. Isto é, há muitas empresas com baixo rácio de autonomia financeira (até valores um pouco acima de 1) e poucas empresas com rácios elevados. A distribuição diz-se enviesada ou simétrica à esquerda. Ou seja, a partir deste diagrama, pode reconhecer-se a simetria ou enviesamento dos dados e a sua maior ou menor concentração: Dados simétricos Assimetria à direita Assimetria à esquerda 2.6. Medidas de assimetria A assimetria é tanto maior quanto mais afastados estiverem os valores da média, mediana e moda. Concretamente, se: − X = Me = Mo, a distribuição diz-se simétrica − X > Me > Mo, a distribuição diz-se assimétrica positiva (ou enviesada à esquerda) − X < Me < Mo, a distribuição diz-se assimétrica negativa (ou enviesada à direita) Manual Técnico de Formando 18
  • 20. Manual de Estatística Aplicada Coeficiente de assimetria de Bowley (g’): (Q3 − Q 2) − (Q 2 − Q1) Q3 − Q1 Se g’ = 0 ..............a distribuição é simétrica positiva ou equilibrada Os quartis estão à mesma distância da mediana. Se g’ > 0 ..............a distribuição é assimétrica positiva ou “puxada” para a esquerda (se fôr = 1, assimetria é máxima) A mediana desliza para o lado do Q1, logo Q3-Q2 > Q2-Q1 Se g’ < 0 ..............a distribuição é assimétrica negativa ou “puxada” para a direita (se fôr = -1, assimetria é máxima) A mediana desliza para o lado do Q3, logo Q2-Q1 > Q3-Q2 Q1 Q2 Q3 Q1 Assimétrica positiva Q2 Q3 Assimétrica negativa 2.7. Medidas de dispersão Duas distribuições podem distinguir-se na medida em que os valores da variável se dispersam relativamente ao ponto de localização (média, mediana, moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas consoante a medida de localização usada para referenciar a dispersão das observações: 2.7.1 Medidas de dispersão absoluta (i) Em relação à mediana Amplitude inter-quartis = Q = Q3 – Q1 Significa que 50% das observações se situam num intervalo de amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior (menor) a dispersão em torno da mediana. Manual Técnico de Formando 19
  • 21. Manual de Estatística Aplicada (ii) Em relação à média Variância amostral: mede os desvios quadráticos de cada valor observado em relação à média, havendo pouca dispersão se os desvios forem globalmente pequenos, e havendo muita dispersão se os desvios forem globalmente grandes. Dados não-classificados 2 1 n 2 s = xi − x n i =1 ( ) Dados classificados Variáveis discretas 1 s = n 2 n i =1 ( ) 2 n ni xi − x = ( fi xi − x i =1 ) 2 Dados classificados Variáveis contínuas 1 s = n 2 n i =1 ( ni ci − x ) 2 = n i =1 ( fi ci − x ) 2 onde ci é o ponto médio de cada classe i. Desvio-padrão: Medida de dispersão com significado real, mas que só é possível calcular indirectamente, através da raiz quadrada da variância. Está expressa nas mesmas unidades da variável. 2.7.2 Medidas de dispersão relativa Muitas vezes, avaliar a dispersão através de um indicador de dispersão absoluta não é conveniente, assim como comparara a dispersão de duas distribuições, uma vez que estas medidas vêm expressas na mesma unidade da variável – como é o caso, por exemplo, da variância. Assim, é de esperar que os valores da variância sejam mais elevados quando os valores da variável são maiores, o que não significa que a distribuição seja muito dispersa. Para Manual Técnico de Formando 20
  • 22. Manual de Estatística Aplicada comparar diferentes distribuições de frequência são precisas medidas de dispersão relativa: Dispersão relativa = Dispersão absoluta Medida de localizaçã o em relação à qual está definida Coeficiente de variação CV = s x100% x Outras medidas Q3 − Q1 Q2 Estas medidas não estão expressas em nenhuma unidade, e permitem comparar dispersões entre duas amostras, pois não são sensíveis à escala (eventualmente diferente) em que as variáveis estejam expressas. 2.8. Análise da concentração A noção de concentração apareceu associada ao estudo de desigualdades económicas, como a repartição do rendimento ou a distribuição de salários. O fenómeno de concentração está relacionado com a variabilidade ou dispersão dos valores observados, apesar de não poder ser analisado através das medidas de dispersão atrás descritas, que apenas medem a dispersão dos valores em relação a um ponto. O objectivo é determinar como o atributo (rendimento, salários, número de empresas) se distribui (se de forma mais ou menos uniforme) pelos diferentes indivíduos da amostra (que devem ser susceptíveis de serem adicionados, isto é, a análise de concentração não se aplica a idade, altura, peso, etc). Se o atributo estiver igualmente repartido pelos indivíduos, temos uma situação extrema de igual distribuição; e vice-versa de o atributo estiver concentrado Manual Técnico de Formando 21
  • 23. Manual de Estatística Aplicada num só indivíduo, temos uma situação extrema de máxima concentração. Em geral, interessa medir o grau de concentração em situações intermédias. Para analisar a concentração, existem dois instrumentos: a Curva de Lorenz e o Índice de Gini. 2.8.1 Curva de Lorenz O objectivo é comparar a evolução das frequências acumuladas (Fi = pi) com a evolução da soma dos valores da variável (qi) Quadro de dados Classes de valores da variável [x1; x2[ [x2; x3[ [x3; x4[ n1 nj yj pj qj [xn-1; xn[ Total nn n yn pn=1 qn=1 ni Quantidade Freq.relativa Proporção atributo acumuladas atrib.acumul, yi p1 q1 Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é a curva de Lorenz. Se houver igual distribuição, a frequência das observações deve ter uma evolução igual à proporção do atributo correspondente, isto é, pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado, que é designada de recta de igual repartição. Quanto mais a curva se afastar da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz designa-se, por isso, de zona de concentração. 2.8.2 Índice de Gini O índice de Gini é calculado pela seguinte expressão Manual Técnico de Formando 22
  • 24. Manual de Estatística Aplicada n −1 G= i =1 ( pi − qi ) n −1 pi i =1 Quando G = 0, a concentração é nula, havendo igual repartição. Caso o valor de G seja 1, a concentração será máxima. O valor de G varia entre 0 e 1, e quanto maior o seu valor, maior a concentração. Exemplo Considere-se a seguinte amostra de dimensão 200, referente aos lucros obtidos por empresas de um dado sector industrial, expressas numa determinada unidade monetária. Lucros [0; 50[ [50; 100[ [100; 200[ [200; 300[ [300; 500] Total ni 20 60 80 30 10 200 Lucro total 600 4400 14000 7500 3500 30000 pi (=Fi) 0.1 0.4 0.8 0.95 1 qi 0.02 0.16(6) 0.63(3) 0.883(3) 1 Curva de Lorenz 1 0,8 0,6 0,4 0,2 0 0 Manual Técnico de Formando 0,2 0,4 0,6 0,8 1 23
  • 25. Manual de Estatística Aplicada n −1 G= i =1 ( pi − qi ) n −1 = pi 0,546(6) = 0,243 2,25 i =1 Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini, conclui-se que esta amostra apresenta concentração moderada, encontrandose os valores razoavelmente repartidos. 2.9. Estatística Descritiva Bidimensional Numa situação em que se observam pares de valores (xi; yj), pode ter interesse estudar as relações porventura existentes entre os dois fenómenos, nomeadamente relações estatísticas. Não se trata de estudar relações funcionais (isto é, a medida em que o valor de uma variável é determinado exactamente pela outra), mas sim de estudar a forma como a variação de uma variável poderá afectar a variação da outra, em média. (por exemplo, o peso e a altura normalmente estão relacionados, mas a relação não é determinística). Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas. Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação dizse negativa. Trata-se então de estudar se: - Se existe alguma correlação entre os fenómenos ou variáveis observadas - A existir, se é traduzível por alguma lei matemática, nem que tendencialmente - A existir, se é possível medi-la 2.9.1 Diagrama de dispersão Manual Técnico de Formando 24
  • 26. Manual de Estatística Aplicada Para ilustrar o estudo de dados bivariados (valores emparelhados), considerese o exemplo seguinte referente ao peso e altura de 10 indivíduos: Indivíduo A B C D E F G H I J Peso (kg) 72 65 80 57 60 77 83 79 67 68 Altura (cm) 175 170 185 154 165 175 182 178 175 173 A representação gráfica dos dados bivariados designa-se de diagrama de dispersão. O diagrama de dispersão é uma representação gráfica em que cada par de dados (xi, yj) é representado por um ponto de coordenadas num sistema de eixos ordenados. Diagrama de Dispersão 190 Altura (cm) 180 170 160 150 50 60 70 80 90 Peso (kg) 2.9.2 Regressão Simples Por vezes, a representação gráfica do conjunto de dados bivariados sugere o ajustamento de uma recta a este conjunto de pontos, indicando a existência de uma tendencial correlação linear entre as duas variáveis, como é o caso do Manual Técnico de Formando 25
  • 27. Manual de Estatística Aplicada exemplo atrás descrito. A essa recta chama-se recta de regressão de y sobre x, que permite descrever como se reflectem em y (variável dependente ou explicada) as modificações processadas em x (variável independente ou explicativa). Essa recta torna possível, por exemplo, inferir (em média) a altura de um indivíduo, conhecendo o respectivo peso. Um dos métodos mais conhecidos de ajustar uma recta a um conjunto de dados é o Método dos Mínimos Quadrados, que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores de y e os obtidos a partir da recta que se pretende ajustar. Obtém-se assim a recta de regressão ou recta dos mínimos quadrados. Assim, se a recta de regressão obedecer à seguinte fórmula geral: y = a + bx o método permite minimizar a soma dos desvios quadráticos yi - (a + bxi). Assim sendo, obtém-se: b= xi y i − n x y 2 xi − n x 2 e a = y − bx Matematicamente, b designa o declive da recta. Em termos estatísticos, b corresponde ao coeficiente de regressão de y sobre x, que indica a variação média de y que acompanha uma variação unitária de x. O valor de a designa a ordenada na origem, isto é, o valor que y assume quando x=0. No exemplo, vem: Recta de Regressão 190 Altura (cm) 180 y = 0,9016x + 109,36 170 160 Manual Técnico de Formando 150 26
  • 28. Manual de Estatística Aplicada A equação desta recta traduz-se em Altura = 109,36 + 0,9016 x Peso Isto é, se um indivíduo pesar 70 kg, a altura esperada será de 109,36 + 0,9016 x 70 = 172,472. Por cada kg de peso adicional, espera-se que a altura do indivíduo aumente 0,9016 cm. 2.9.3 Correlação linear Quando, quer através do diagrama de dispersão, quer através da recta de regressão, se verifica a existência de uma associação linear entre as variáveis, pode-se medir a maior ou menor força com que as variáveis se associam através do coeficiente de correlação linear r: r= s xy s xx s yy , s xy = n i =1 ( xi − x)( y i − y ) Este indicador da correlação tem a vantagem de não depender das unidades ou da ordem de grandeza em que as variáveis estão expressas. O coeficiente de correlação linear está sempre compreendido entre –1 e 1. Se r > 0, então pode dizer-se que existe uma correlação positiva entre as variáveis, isto é, as variáveis variam no mesmo sentido: um aumento (diminuição de x) provoca um aumento (diminuição) de y, mas menos que proporcional. Se r < 0, então pode dizer-se que existe uma correlação negativa entre as variáveis, isto é, as variáveis variam em sentidos opostos: um aumento (diminuição de x) provoca uma diminuição (aumento) de y, mas menos que proporcional. Se r = 0, então pode dizer-se que as variáveis não estão correlacionadas linearmente. Antes de se efectuar um estudo de correlação, deve-se procurar justificação teórica para a existência ou inexistência de correlação. Caso contrário, poderá acontecer que variáveis sem relação de causalidade entre si, variem num certo Manual Técnico de Formando 27
  • 29. Manual de Estatística Aplicada sentido por razões exteriores. A esta correlação ilusória, chama-se correlação espúria. Nos extremos, se r = 1 ou se r = -1, então pode dizer-se que existe uma correlação positiva ou negativa perfeita, respectivamente, entre as variáveis, isto é, uma variação numa variável provoca na outra uma variação exactamente proporcional no mesmo sentido ou em sentido contrário. Isto é, a correlação é máxima. No exemplo, r = 0,90681871, isto é, existe uma correlação positiva forte entre as duas variáveis, quase perfeita. 2.9.4 Correlação ordinal Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa mais conhecer a ordenação dos valores do que os valores observados propriamente ditos. Neste caso, em vez do coeficiente de correlação linear, calcula-se o coeficiente de correlação ordinal: n rs = 1 − 6 i =1 di 2 n(n − 1) 2 x , d i = Ri − Ri y Ordens (“ranks”) das observações de X e de Y, respectivamente Exemplo Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10 estudantes segundo as classificações obtidas em cada uma das provas: Manual Técnico de Formando 28
  • 30. Manual de Estatística Aplicada Prova inicial Rix 1 3 2 5 7 8 9 10 6 4 Aluno A B C D E F G H I J Prova final Riy 1 2 3 4 6 8 7 9 10 5 di Rix - Riy 0 1 -1 1 1 0 2 1 -4 -1 Como não dispomos das classificações dos alunos, mas sim das ordenações das classificações (do 1º ao 10º classificado), para avaliar a correlação existente entre as 2 provas é necessário calcular o coeficiente de correlação ordinal: n rs = 1 − 6 i =1 di 2 n(n − 1) 2 = 1− 6 x(0 + 1 + 1 + 1 + 1 + 0 + 4 + 1 + 16 + 1) = 0,8424 10 x(100 − 1) A correlação é positiva e elevada (rs varia entre –1 e 1), isto é, os alunos que tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na prova final. Manual Técnico de Formando 29
  • 31. Manual de Estatística Aplicada ESTATÍSTICA DESCRITIVA Exercícios resolvidos Exercício 1 Considere a distribuição de 1000 empresas de um sector de actividade segundo os resultados líquidos (em milhares de u.m.): Resultado Líquido [0; 1[ [1; 3[ [3; 5[ [5; 15[ [15; 25[ [25; 50[ Total Frequência. Relativa (%) 10 25 35 15 10 5 100 a) Represente a distribuição graficamente. b) Determine a média e a moda da distribuição. Qual o significado dos valores encontrados? c) Calcule as frequências acumuladas e represente-as graficamente. Determine a mediana da distribuição. d) Determine os quartis da distribuição. Faça a sua representação gráfica. e) Analise a (as)simetria da distribuição em causa. f) Analise a concentração através do Índice de Gini e da Curva de Lorenz. Resolução a) fi/hi 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 10 Manual Técnico de Formando 20 30 40 50 60 30
  • 32. Manual de Estatística Aplicada [0; 1[ [1; 3[ [3; 5[ [5; 15[ [15; 25[ [25; 50] X Total b) x = 1 n fi 10% 25% 35% 15% 10% 5% 1 n i =1 ni c i = n i =1 f i ci hi 1 2 2 10 10 25 fi/hi 0.1 0.125 0.175 0.015 0.01 0.002 Fi 10% 35% 70% 85% 95% 100% ci 0.5 2 4 10 20 37.5 = (0,5 x10%) + (2 x 25%) + ... + (37.5 x5%) = 7,325 Em média, o resultado líquido de uma empresa é de 7325 unidades monetárias. A classe modal é aquela a que corresponde maior frequência por unidade de amplitude. Neste caso, o maior valor de fi / hi é 0,175. correspondente à classe [3; 5[, isto é, os valores de resultado líquido mais prováveis para uma empresa situam-se entre 3000 u.m. e 5000 u.m. c) A representação gráfica das frequências acumuladas (ver tabela) designa-se de polígono integral: Fi 1 0,8 0,6 0,4 0,2 0 0 20 40 60 80 100 120 Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[ 3 : Fi=0,35 5 : Fi = 0,7 Manual Técnico de Formando 31
  • 33. Manual de Estatística Aplicada Cálculo da mediana: 0,7 - 0,35 ------------ 5 - 3 0,5 – 0,35 -------------- Me – 3 Me = 3 + ((2x0,15)/0,35) = 3,857 50% das empresas apresentam resultados líquidos inferiores a 3857 u.m. d) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [1; 3[ 1 : Fi=0,1 3 : Fi = 0,35 Cálculo do Q1: 0,35 - 0,1 ------------ 3 - 1 0,25 – 0,1 -------------- Q1 – 1 Q1 = 1 + ((2x0,15)/0,25) = 2,2 25% das empresas apresentam resultados líquidos inferiores a 2200 u.m. Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [5; 15[ 5 : Fi=0,7 15 : Fi = 0,85 Cálculo do Q3: 0,85 - 0,7 ------------ 15 - 5 0,75 – 0,7 -------------- Q3 – 5 Q3 = 1 + ((10x0,05)/0,15) = 8,333(3) 75% das empresas apresentam resultados líquidos inferiores a 8333 u.m. e) g' = (Q3 − Q 2) − (Q 2 − Q1) (8,333 − 3,857) − (3,857 − 2,2) = = 0,4596 > 0 Q3 − Q1 8,333 − 2,2 A distribuição é assimétrica positiva ou enviesada à esquerda. Manual Técnico de Formando 32
  • 34. Manual de Estatística Aplicada f) X [0; 1[ [1; 3[ [3; 5[ [5; 15[ [15; 25[ [25; 50[ Total fi 10% 25% 35% 15% 10% 5% 1 ni 1000x10%=100 250 350 150 100 50 n=1000 ci 0.5 2 4 10 20 37.5 Atributo 100x0.5=50 250x2=500 1400 1500 2000 1875 7325 pi (=Fi) 0.1 0.35 0.7 0.85 0.95 1 qi 0.007 0.075 0.266 0.471 0.744 1 50 + 500 + 1400 7325 Res.Liq.Totais G= (0,1 − 0,007) + ... + (0,95 − 0,744) = 0,47 0,1 + 0,35 + 0,7 + 0,85 + 0,95 A distribuição dos resultados líquidos apresenta concentração média (G=0,5 Curva de Lorenz 1 corresponde ao centro da escala possível, entre 0 e 1). Por exemplo, 70% das empresas apresentavam resultados até 5000 u.m., mas isso representava apenas 26,6% do total de resultados das empresas 0,8 0,6 0,4 da amostra, o que sugere um tecido empresarial com muitas PMEs, mas em que cada uma tem baixo resultado 0,2 0 0 0,2 0,4 0,6 0,8 1 líquido. Manual Técnico de Formando 33
  • 35. Manual de Estatística Aplicada Exercício 2 O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas em milhares de u.m.) de uma empresa no período de 7 anos: Ano 1 2 3 4 5 6 7 Vendas 10 13 18 19 25 30 35 Desp. Publicidade 3 3 5 6 8 9 13 a) Compare as vendas e as despesas em publicidade quanto à dispersão. b) Analise a correlação existente entre volume e custo de produção. c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima as vendas em função das despesas em publicidade. Resolução a) Para comparar a dispersão das duas distribuições, é necessário calcular os coeficientes de variação (medidas de dispersão relativa): CV = s x Dados não-classificados 1 n x = sx 2 1 = n CV x = n i =1 n i =1 xi = 21,429 (xi − x ) 2 = 69,9408 sx 69,9408 = = 0,39 x 21,429 sy < 2 1 = n CV y = n 1 n y = i =1 i =1 y (yi − y ) 2 n sy yi = 6,714 = = 11,0651 11,0651 = 0,495 6,714 A dispersão das despesas em publicidade é superior à dispersão das vendas. Manual Técnico de Formando 34
  • 36. Manual de Estatística Aplicada b) r= s xy s xx s yy 1 [(10 − 21,429)(3 − 6,714) + ... + (35 − 21,429)(13 − 6,714)] 7 = = 0,98 69,9408 x 11,0651 Existe uma correlação positiva linear forte entre as duas variáveis. Em média, quando as despesas em publicidade aumentam (diminuem), as vendas aumentam (diminuem) de forma quase exactamente proporcional. Recta de Regressão c) y = 2,4649x + 4,8782 Vendas 30 20 10 0 3 8 13 Desp. Public. Manual Técnico de Formando 35
  • 37. Manual de Estatística Aplicada ESTATÍSTICA DESCRITIVA Exercícios para resolver 1. O quadro que se segue descreve a distribuição do rendimento anual (em milhares de u.m.) de 2500 famílias consideradas representativas da população de um país: Rendimento anual [0, 1[ [1, 2[ [2, 5[ [5, 15[ [15, 25[ [25, 50[ Nº de famílias 250 375 625 750 375 125 a) Represente as frequências acumuladas graficamente. b) Determine o rendimento médio e mediano. c) Determine os três primeiros quartis. Que indicações lhe dão sobre a (as)simetria? d) O que pode concluir quanto à dispersão? e) Calcule o índice de Gini. O que conclui sobre a concentração do rendimento? 2. Considere a seguinte tabela que representa a distribuição dos empregados de uma instituição bancária segundo a remuneração bruta mensal (em milhares de unidades monetárias): Remuneração [60; 80[ [80; 100[ [100; 120[ [120; 140[ [140; 160[ [160; 200[ [200; 250[ [250, 300[ [300; 350] Total Manual Técnico de Formando Frequência. Relativa (%) 7.8 15.2 31.2 19.5 7.2 8.1 5.4 2.6 3.0 100 36
  • 38. Manual de Estatística Aplicada a) Calcule os quartis e faça a sua representação gráfica. O que pode concluir? b) Analise a dispersão da distribuição em causa. c) Analise a assimetria da distribuição em causa. 3. Os dados seguintes referem-se ao peso, expresso em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático: Peso (em gramas) [297; 298[ [298; 299[ [299; 300[ [300; 301[ [301; 302[ [302; 303[ [303; 304[ [304; 305[ [305; 306] Total Frequência. Relativa (%) 8 21 28 15 11 10 5 1 1 100 a) Represente graficamente os dados acima. b) Calcule as frequências acumuladas e represente-as graficamente. c) Determine o peso médio, mediano e modal. Qual o seu significado? d) Determine os quartis da distribuição. Faça a sua representação gráfica. e) Analise a dispersão do peso das garrafas. 4. Numa faculdade, mediram-se as alturas de 100 alunos do primeiro ano: Altura (em metros) [1,4; 1,5[ [1,5; 1,55[ [1,55; 1,6[ [1,6; 1,65[ [1,65; 1,7[ [1,7; 1,75[ [1,75; 1,8[ [1,8; 1,9] Total Manual Técnico de Formando Nº Alunos 2 10 25 13 17 20 10 3 100 37
  • 39. Manual de Estatística Aplicada a) Represente graficamente os dados acima. b) Determine a altura média e a altura modal. Qual o seu significado? c) Calcule as frequências acumuladas e represente-as graficamente. d) Determine os quartis da distribuição e diga qual o seu significado. e) Faça a representação gráfica dos quartis. f) Analise a dispersão da distribuição. g) Analise a (as)simetria da distribuição. 5. Em determinada central telefónica, registou-se a duração das chamadas realizadas em Dezembro de 2001: Duração (em minutos) [0; 5[ [5; 10[ [10; 20[ [20; 30[ [30; 50] Total Nº Chamadas 2000 1500 1000 300 200 5000 a) Represente graficamente as frequências simples e acumuladas. b) Determine a duração média das chamadas e respectivo desvio-padrão. c) Qual a duração da chamada mediana? Qual o significado do valor encontrado? d) Sabe-se que as chamadas realizadas durante o ano de 2001 apresentaram uma duração média de 10 minutos, com desvio-padrão de 8,7 minutos. Compare, quanto à dispersão, as chamadas efectuadas em Dezembro com a s que tiveram lugar durante todo o ano de 2001. 6. Uma empresa coligiu dados relativos à produção de 12 lotes de um tipo especial de rolamento. O volume de produção e o custo de produção de cada lote apresentam-se na tabela: Manual Técnico de Formando 38
  • 40. Manual de Estatística Aplicada Lote 1 2 3 4 5 6 7 8 9 10 11 12 Volume (unidades) 1500 800 2600 1000 600 2800 1200 900 400 1300 1200 2000 Custo (contos) 3100 1900 4200 2300 1200 4900 2800 2100 1400 2400 2400 3800 a) Analise a correlação existente entre volume e custo de produção. b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima o custo em função do volume de produção. 7. Um conjunto de empresas do sector da Construção e Obras Públicas cotadas na Bolsa de Valores foram analisadas relativamente aos seguintes indicadores: EPS (Earnings per Share): Resultado Líquido por Acção PBV (Price/Book Value): Preço / Situação Líquida por Acção Empresa 1 2 3 4 5 6 7 8 9 EPS ($) 191 32 104 117 210 95 65 201 81 Custo (mil. u. m.) 0.9 1.0 0.8 0.8 1.5 0.7 0.9 1.3 0.4 a) Analise a correlação existente entre aqueles dois indicadores. b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima a variável EPS em função de PBV. Manual Técnico de Formando 39
  • 41. Manual de Estatística Aplicada 8. Recolheu-se uma amostra em 17 cidades do país relativamente aos seguintes indicadores: Ri: Rendimento médio mensal na cidade i (em 106 unidades monetárias) Gi: Gasto médio mensal em bens de luxo na cidade i (em 106 unidades monetárias) Ri Gi Ri Gi 125 127 130 131 133 135 140 143 169 54 56 57 57 58 58 59 59 66 144 147 150 152 154 160 162 165 61 62 62 63 63 64 65 66 a) Estude a correlação entre rendimento e despesas em bens de luxo. b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima a variável Gi em função de Ri. Manual Técnico de Formando 40
  • 42.
  • 43. Manual de Estatística Aplicada 3. ESTATÍSTICA INDUTIVA A estatística indutiva é o ramo da estatística que se ocupa em inferir das conclusões retiradas sobre a amostra para a população. Claro que o processo de indução implica um certo grau de incerteza associado à tentativa de generalização de conclusões da “parte” (amostra) para o “todo” (universo). O conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não vai ser possível afirmar com toda a certeza que o comportamento da amostra ilustra perfeitamente o comportamento do universo, mas apenas que o faz com forte probabilidade. De seguida, serão apresentadas algumas noções simples de probabilidades e funções de probabilidade, que serão úteis a aplicações de estatística indutiva relacionadas com controlo estatístico de qualidade e fiabilidade de componentes e sistemas. 3.1. Noções básicas de probabilidade A teoria das probabilidades é um ramo da matemática extremamente útil para o estudo e a investigação das regularidades dos chamados fenómenos aleatórios. O exemplo seguinte pretende clarificar o que vulgarmente é designado por experiência aleatória. Exemplo No lançamento de uma moeda, os resultados possíveis são “cara” ou “coroa”. Em cada lançamento não é possível prever o resultado que se irá obter, embora ele seja determinado por causas bem definidas. Manual Técnico de Formando 41
  • 44. Manual de Estatística Aplicada Deve entender-se como experiência qualquer processo ou conjunto de circunstâncias capaz de produzir resultados observáveis; quando uma experiência está sujeita à influência de factores casuais e conduz a resultados incertos, diz-se que a experiência é aleatória. Fundamentalmente, as experiências aleatórias caracterizam-se por: (i) poder repetir-se um grande número de vezes nas mesmas condições ou em condições muito semelhantes (ii) cada vez que a experiência se realiza, obtém-se um resultado individual, mas não é possível prever exactamente esse resultado (iii) os resultados das experiências individuais mostram-se irregulares, mas os resultados obtidos após uma longa repetição da experiência patenteiam uma grande regularidade estatística no seu conjunto Alguns autores consideram inserido no conceito de experiência aleatória um outro, o de espaço de resultados. O espaço de resultados corresponde ao conjunto formado por todos os resultados possíveis de uma experiência aleatória. Por exemplo, num lançamento de um dado ordinário tem-se que o espaço de resultados é { ,2,3,4,5,6}. 1 A importância da definição deste conceito advém sobretudo por ser o meio empregue para a definição de acontecimentos, que não sei mais que subconjuntos do espaço de resultados. Por exemplo, no lançamento de um dado podem definir-se, para além dos 6 acontecimentos elementares correspondentes à saída de cada uma das faces, outros como “saída de um número ímpar” definido pelo subconjunto { ,3,5}. 1 Definidos como conjuntos, aos acontecimentos é aplicável toda a construção disponível para aqueles, isto é, existe um paralelismo perfeito entre álgebra de conjuntos e álgebra de acontecimentos: (i) O acontecimento que contem todos os elementos do espaço de resultados chama-se acontecimento certo (ii) O acontecimento que não contem qualquer elemento do espaço de resultados chama-se acontecimento impossível (iii) Dois acontecimentos são mutuamente exclusivos se não têm em comum qualquer acontecimento do espaço de resultados Manual Técnico de Formando 42
  • 45. Manual de Estatística Aplicada (iv) A união de dois acontecimentos A e B representa-se por A ∪ B e é formado pelos elementos que pertencem a pelo menos um dos dois, A ou B (v) A intersecção de dois acontecimentos A e B representa-se por A ∩ B e é formado pelos elementos comuns a A e B Probabilidade de um acontecimento é expressa na escala de 0 a 1, sendo 0 a probabilidade associada a um acontecimento impossível e 1 a probabilidade associada a um acontecimento certo. A primeira definição foi proposta por Laplace em 1812. Pode definir-se probabilidade de um acontecimento A como sendo: P(A) = Número de casos favoráveis ao acontecimento A Número total de casos possíveis na exp. aleatória Uma das principais críticas a esta definição é a de que ela só é aplicável quando o espaço de resultados é finito e os seus elementos possuem igual probabilidade; daí que ela surja muito ligada aos “jogos de azar”, que possuem essas propriedades. É o que acontece com as duas faces de uma moeda, as 52 cartas de um baralho, as 6 faces de um dado, etc. Para se analisar a probabilidade de ocorrência de determinados acontecimentos, deve ter-se em atenção o seguinte: − Dois acontecimentos são ditos mutuamente exclusivos se não puderem acontecer ao mesmo tempo; se dois acontecimentos forem mutuamente exclusivos, então: P(A ∩ B) = 0 − A probabilidade de união de dois acontecimentos mutuamente exclusivos é dada por P (A ∪ B) = P(A) + P(B) − Para dois acontecimentos quaisquer, vem que P (A ∪ B) = P(A) + P(B) - P(A ∩ B) − Dois acontecimentos dizem-se complementares se: P(A) = 1 – P( A ) Manual Técnico de Formando 43
  • 46. Manual de Estatística Aplicada − Dois acontecimentos são ditos independentes se a ocorrência de um não afectar a probabilidade de ocorrência de outro; a probabilidade de ocorrência de dois ou mais acontecimentos independentes é o produto das probabilidades dos respectivos acontecimentos, isto é: P(A ∩ B) = P(A) x P(B) Exemplo Em determinada população, 9,8% das pessoas adquirem a revista A, 22,9% a revista B e 5,1% ambas. a) Qual a probabilidade de uma pessoa adquirir pelo menos uma das revistas? b) Qual a probabilidade de uma pessoa adquirir somente a revista A? Resolução a) P(A ∪ B) = P(A)+P(B)-P(A ∩ B) = 0,098+0,229-0,051 = 0,276 b) P(A ∩ B ) = P(A) - P(A ∩ B) = 0,098 – 0,051 = 0,047 Após a apresentação desta definição, convém ainda referir que, numa outra perspectiva, a da chamada teoria frequencista, a probabilidade de um acontecimento é definida como sendo o valor para o qual tende a frequência relativa do acontecimento quando o número de repetições da experiência aumenta. 3.2. Probabilidade condicionada Exemplo: Um grupo de pessoas é classificado de acordo com o seu peso e a incidência de hipertensão. São as seguintes as proporções das várias categorias: Obeso Normal Magro Total Hipertenso 0,1 0,08 0,02 0,2 Não Hipertenso 0,15 0,45 0,2 0,8 Total 0,25 0,53 0,22 1,00 a) Qual a probabilidade de uma pessoa escolhida ao acaso ser hipertensa? Manual Técnico de Formando 44
  • 47. Manual de Estatística Aplicada b) Qual a probabilidade de uma pessoa obesa ser hipertensa? Resolução a) Basta ver que a proporção de hipertensos é de 20% b) Há que tomar em atenção que o que se pretende é a proporção de hipertensos na população de obesos, isto é 0,1 = 0,4 . Por outras palavras, 0,25 pretende-se calcular a probabilidade do acontecimento “ser hipertenso”, sabendo que ocorreu o acontecimento “ser obeso”. Repare-se que este quociente resulta da divisão entre a probabilidade de uma pessoa ser hipertensa e obesa e a probabilidade de uma pessoa ser obesa. Pode escrever-se que a probabilidade pretendida é dada por: P( H / O) = P( H ∩ O) P (O) onde P(H/O) é a probabilidade de ocorrer o acontecimento “ser hipertenso”, sabendo que ocorreu ou condicionado pelo acontecimento “ser obeso”. Este exemplo corresponde ao cálculo de uma probabilidade condicionada. Como se viu anteriormente, dois acontecimentos são ditos independentes se a ocorrência de um não afectar a probabilidade de ocorrência de outro, isto é, se: P(A / B) = P(A) e se P(B / A) = P(B). Teorema de Bayes Seja B um acontecimento que se realiza se e só se um dos acontecimentos mutuamente exclusivos A1, A2,…An se verifica. Aos acontecimentos A1, A2,…An dá-se o nome de acontecimentos antecedentes. O teorema de Bayes permite calcular a probabilidade à posteriori de A1, A2,… An, isto é, a probabilidade de ocorrência de A1, A2,… An calculadas sob a hipótese de que B (acontecimento consequente) se realizou. De acordo com este teorema: P ( Ai / B ) = P ( Ai ).P ( B / Ai ) n i =1 P ( Ai ).P ( B / Ai ) Este Teorema utiliza-se em situações em que a relação causal está invertida. Manual Técnico de Formando 45
  • 48. Manual de Estatística Aplicada n i =1 P ( Ai ).P ( B / Ai ) designa-se de probabilidade total de ocorrência do acontecimento B, isto é, é a probabilidade de ocorrência do acontecimento consequente B face a todos os possíveis acontecimentos A1, A2,… An que o podem ter antecedido (ou causado a sua ocorrência). Exemplo: Considere duas urnas, A e B. A urna A contém 1 bola branca e 999 bolas pretas e a urna B contém 1 bola preta e 999 bolas brancas. É escolhida uma urna ao acaso, da qual é extraída uma bola. Se esta é preta, qual a probabilidade de que a urna A tenha sido escolhida? Resolução Acontecimentos antecedentes A: escolha da urna A, com probabilidade 50% B: escolha da urna B, com probabilidade 50% Acontecimento consequente C extracção de bola preta, cuja probabilidade depende (está condicionada) pela urna escolhida P(C/A) = 999/1000 = 0,999 P(C/B) = 1/1000 = 0,001 Logo, pelo Teorema de Bayes, vem que P(A/C) = Substituindo pelos respectivos valores, P(A/C) = P (C ∩ A) P ( A) xP (C / A) + P ( B ) xP (C / B ) 0,5 x0,999 = 0,999 0,5 x0,999 + 0,5 x0,001 3.3. Funções de probabilidade A probabilidade associada aos acontecimentos possíveis numa experiência aleatória obedecem, por vezes, a um padrão. Se associarmos a uma experiência aleatória uma variável X (por exemplo, associar aos resultados da experiência lançamento de um dado - que são 6 (saída de face 1 a 6) – a Manual Técnico de Formando 46
  • 49. Manual de Estatística Aplicada variável X:“Nº da face resultante do lançamento de um dado”), então pode ser constituída uma lei ou função de probabilidade (f(x)) dessa variável X, tal que f(x) = P(X=xi) Por exemplo, para X: nº da face resultante do lançamento de um dado, vem que: xi 1 2 3 4 5 6 f(xi) 1/6 1/6 1/6 1/6 1/6 1/6 que se designa por lei uniforme. Algumas leis de probabilidade servem para explicar (ou aplicam-se a) um maior número de fenómenos estatísticos do que outras. Entre estas, contam-se a lei Binomial, a lei de Poisson e a lei Exponencial. (i) Lei Binomial Há alguns acontecimentos que são constituídos por um conjunto de experiências independentes, cada uma das quais com apenas dois estados possíveis de ocorrência e com uma probabilidade fixa de ocorrência para cada um deles. Por exemplo, os produtos resultantes de uma fábrica podem ser classificados como sendo defeituosos ou sendo não defeituosos, e o facto de um ter saído (ou não) defeituoso não influencia os outros serem (ou não). A distribuição das duas classes possíveis é discreta e do tipo binomial. No exemplo anterior, consideremos uma amostra de n artigos retirados da produção total, em relação aos quais se pretende identificar a variável X: “Nº de artigos defeituosos nos n que constituem a amostra”. A probabilidade de ocorrência do acontecimento “artigo é defeituoso” é dada por p: incidência de defeituosos na produção (convenientemente calculada através de métodos de estimação). A probabilidade do acontecimento complementar “artigo é nãodefeituoso” é dada por 1–p=q Manual Técnico de Formando 47
  • 50. Manual de Estatística Aplicada A probabilidade associada a x artigos defeituosos é dada por px (p x p x p x p...x vezes). Se há x defeituosos, restam n-x artigos não-defeituosos, com probabilidade dada por qn-x. Para calcular o número exacto de combinações de x artigos defeituosos com n-x artigos não-defeituosos, utiliza-se a figura “combinações de n, x a x, oriunda das técnicas de cálculo combinatório. Vem então que a probabilidade de existência de x defeituosos (e logo n-x não defeituosos) é igual a: f ( x) = C xn p x q n − x = n! p x q n− x (n − p )! p! sendo que X segue Bi (n;p), sendo n e p os parâmetros caracterizadores da lei. Um acontecimento deve ter 4 características para que se possa associar a uma lei binomial: - número fixo de experiências (n) - cada experiência ter apenas duas classes de resultados possíveis - todas as experiências terem igual probabilidade de ocorrência (p) - as experiências serem independentes Exemplo: Se 20% das bobinas de um determinado cabo eléctrico forem defeituosas, calcule a probabilidade de, entre as 4 bobines necessárias a um determinado cliente, escolhidas ao acaso uma ser defeituosa. Resolução: X: número de bobines defeituosas no conjunto de 4 bobines necessárias a um determinado cliente (0,1,2,3,4) n=4 p=0,2 q=1-p=0,8 P(X=1)=C4p1q4-1 = 4*0,2*0,83 = 0,4096 = 41% 1 Em sistemas eléctricos de energia é possível, por exemplo, aplicar a distribuição binomial quando se pretende calcular a fiabilidade de uma central eléctrica, com várias unidades iguais e admitindo que cada unidade apenas pode residir em dois estados, a funcionar ou avariada. Manual Técnico de Formando 48
  • 51. Manual de Estatística Aplicada (ii) Lei de Poisson A lei de Poisson (ou lei dos acontecimentos raros ou cadenciados) dá a probabilidade de um acontecimento ocorrer um dado número de vezes num intervalo de tempo ou espaço fixado, quando a taxa de ocorrência é fixa (por exemplo, nº de chamadas que chegam a uma central telefónica por minuto; nº de varias que ocorrem numa máquina por dia). Os números de acontecimentos de “sucesso” ocorridos em diferentes intervalos são independentes. O parâmetro caracterizador da distribuição de Poisson é λ, que corresponde ao número médio de ocorrências por unidade de tempo ou espaço. Como o número médio de ocorrências do acontecimento é proporcional à amplitude do intervalo de tempo ou espaço a que se refere, a variável X: “Nº de ocorrências do acontecimento no intervalo [0,t[” segue lei de Poisson de parâmetro λt (isto é, se para 1 unidade de tempo o nº médio de ocorrências é λ, para t unidades de tempo o número médio de ocorrências é λt). A expressão (λt )x e −λt x! dá a probabilidade de acontecerem x ocorrências no intervalo de tempo [0,t[, e corresponde à expressão da lei de probabilidade de Poisson : Po(λt) Exemplo: O número médio de chamadas telefónicas a uma central, por minuto, é 5. A central só pode atender um número máximo de 8 chamadas por minuto. Qual a probabilidade de não serem atendidas todas as chamadas no intervalo de tempo de 1 minuto? Resolução: X: número de chamadas telefónicas atendidas numa central, por minuto (0,1,2,3,4, 5, 6, 7, 8) λ=5 p=0,2 q=1-p=0,8 −5 x 8 e 5 P(X ≤ 8) = = 0,932 Logo P(X>8) = 1-0,932 = 0,068 x! x =0 Se X fôr o “Nº de avarias que ocorrem no intervalo de tempo [0,t[”, então a probabilidade de não ocorrerem avarias nesse intervalo, isto é, a fiabilidade do componente/sistema como função do tempo, é dada por: Manual Técnico de Formando 49
  • 52. Manual de Estatística Aplicada (λt )0 e −λt = e −λt 0! (iii) Lei Exponencial Seja T a variável “Tempo ou espaço que decorre entre ocorrências consecutivas de um acontecimento”. Então T segue lei exponencial Exp (λ), sendo 1 λ o tempo que, em média, decorre entre ocorrências sucessivas do acontecimento. Note-se que é possível estabelecer uma relação entre a lei exponencial e a lei de Poisson. Assim, se X fôr o “Nº de avarias que ocorrem no intervalo de tempo [0,t[”, e T fôr o “Tempo que decorre entre avarias consecutivas”, então: P (T>t) = P(tempo que decorre entre avarias exceder t) = P(até ao instante t, não ocorre qualquer avaria) = P (ocorrerem zero avarias no intervalo [0,t[) = P(X=0) = e − λt A distribuição exponencial é a mais usada em estudos de fiabilidade, já que a probabilidade de um componente sobreviver até ao instante t é dada por e − λt A probabilidade de avariar até ao instante t é dada por 1 − e − λt Exemplo: O tempo de funcionamento sem avarias de uma determinada máquina de produção contínua segue uma lei exponencial negativa com valor esperado igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no instante t=0 horas. Qual a probabilidade de não ocorrerem avarias antes do instante t=6 horas? Resolução: Seja Manual Técnico de Formando 50
  • 53. Manual de Estatística Aplicada T: tempo de funcionamento sem avarias (ou entre avarias consecutivas) de uma máquina, e X: numero de avarias que ocorrem no intervalo [0,6[, isto é, num período de 6h λ=1/4,5 corresponde ao número de avarias por unidade de tempo (por hora) Logo P(T ≥ 6) = P(X=0)= e − 1 *6 4,5 = e −1,333 = 0,264 (iv) Lei Normal A lei Normal tem como parâmetros caracterizadores a média µ e o desviopadrão σ. Isto é, os valores observados têm uma determinada tendência central e uma determinada dispersão em torno da tendência central. A expressão 1 − 1 e 2 σ 2∏ ( Xi − µ ) 2 σ2 representa a função densidade de probabilidade da distribuição Normal. Se se fizer o valor médio µ igual a zero e todos os desvios forem medidos em relação à média, a equação será: Z= X −µ σ que corresponde a uma distribuição normal estandardizada (0;1) com os valores tabelados, a qual é caracterizada por uma curva de Gauss: Manual Técnico de Formando 51
  • 54. Manual de Estatística Aplicada Esta distribuição apresenta 99,73% dos valores entre os extremos –3 e 3. Existem muitos tipos de distribuição, mas a curva normal é a forma de distribuição mais frequente nos processos industriais para características mensuráveis, e pode considerar-se como estabelecida pela experiência prática. Exemplo: Considere que o comprimento médio de determinado fio condutor é 120, com desvio padrão 0,5. Qual a percentagem de fio com comprimento superior a 121? Resolução: X: comprimento de determinado fio condutor Calculando a variável reduzida correspondente, vem: 121 − 120 =2 0,5 Consultando a tabela, verifica-se que o valor da função Z é P(X ≤ 2) = 0,9772. Z= Logo P(X>2) = 1-0,9772 = 2,28%. Manual Técnico de Formando 52
  • 55. Manual de Estatística Aplicada (v) Lei Qui-Quadrado Considere-se um conjunto de n variáveis aleatórias Zi, obedecendo às seguintes condições: - cada variável Zi segue distribuição N(0,1); - as variáveis Zi são mutuamente independentes Então, a variável aleatória X, construída a partir da soma das n variáveis Zi elevadas ao quadrado, segue distribuição Qui-Quadrado com n graus de liberdade, denotada por X= n i =1 2 2 Z i2 = Z12 + Z 2 + ... + Z n 2 X ∩ χn O termo “Graus de Liberdade” (d.f: degrees of freedom) é habitualmente usado para designar o número n de parcelas (variáveis Zi) adicionadas. É possível demonstrar que o valor esperado e a variância da distribuição de uma variável Qui-Quadrado são respectivamente µ =n σ 2 = 2n A distribuição Qui-Quadrado é uma distribuição assimétrica à esquerda, aproximando-se da distribuição Normal à medida que n cresce. Manual Técnico de Formando 53
  • 56. Manual de Estatística Aplicada 3.4. Estimação por intervalos Conhecendo-se uma amostra em concreto, é possível estimar os valores dos seus parâmetros caracterizadores através de métodos probabilísticos. Por exemplo, suponhamos que numa fábrica produtora de açúcar se pretende averiguar se o peso dos pacotes produzidos está, em média, dentro das normas de qualidade exigíveis. Na impossibilidade de medição do peso de todos os pacotes, pela morosidade e dispêndio de recursos que tal implicaria, a estatística permite que, a partir da observação de uma única amostra, seja possível inferir entre que valores varia o peso médio com um grau de confiança ou probabilidade elevado. Assim, ao recolher um determinado número de pacotes da produção total aleatoriamente, é possível calcular o peso médio de acordo com as técnicas de estatística descritiva apreendidas atrás. Claro que nada nos garante que esse valor coincide com o valor do parâmetro da população em estudo. De facto, é até provável que não coincida e, mais, se recolhermos outro conjunto idêntico de pacotes, o valor seja diferente. Isto é, para cada amostra de dimensão n recolhida, a estimativa do parâmetro assumiria valores distintos. Então, como retirar conclusões? Como garantir algum nível de rigor? O método a estudar neste capítulo – a estimação por intervalos – permite, a partir da recolha de uma única amostra, aferir entre que valores seria de esperar que variasse o parâmetro de interesse se nos empenhássemos a recolher um número infinito de amostras. Isto é, por exemplo, caso o valor amostral fosse de 1,02 kg, este método poderia, por exemplo, permitir afirmar que seria altamente provável que o peso dos pacotes produzidos estivesse a variar entre 0,92 kg e 1,12 kg. E esse resultado tem um determinado nível de confiança associado: por exemplo, se dissermos que o nível de confiança ou certeza implicado é de 95%, tal significa que, se nos fosse possível observar um número infinito de amostras, o intervalo de valores apresentado corresponderia aos resultados obtidos em 95% delas (os valores mais usualmente utilizados são 90%, 95% ou 99% de confiança). Caberia depois à Manual Técnico de Formando 54
  • 57. Manual de Estatística Aplicada empresa julgar se esses seriam ou não valores aceitáveis e proceder aos eventuais reajustes necessários. A partir do conceito de intervalo de confiança para um parâmetro, é fácil concluir que a sua especificação implica conhecer: - o estimador do parâmetro em causa - a sua distribuição de probabilidade - uma estimativa particular daquele parâmetro Como parâmetros de interesse e para efeitos de exemplificação, vão considerar-se duas tipologias de intervalo: o intervalo de confiança para a média de uma população normal e o intervalo de confiança para a proporção de uma população binomial. Para efeitos de simplificação, vão considerar-se apenas exemplos relativos a amostras de grande dimensão (na prática, n ≥ 100) (i) Intervalo de confiança para a média µ de uma população normal Seja X (média amostral) o estimador da média da população. Porque a distribuição é Normal, a distribuição deste estimador será: X ∩ N (µ ; σ n ) Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se necessário calcular a variável reduzida correspondente: Z= X −µ σ ∩ N (0;1) n Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a média µ de uma população normal: X −c σ n ;X +c σ n Isto é, em torno do valor do estimador, é definido um intervalo de variação onde é possível afirmar que o parâmetro a estimar está contido com um grau de confiança δ . Esse intervalo de variação depende: Manual Técnico de Formando 55
  • 58. Manual de Estatística Aplicada - da dimensão da amostra (n): quanto maior a dimensão da amostra, menor a amplitude do intervalo. Este resultado explica-se facilmente: no limite, se fosse possível observar todo o universo de dados (n= ∞ ), o valor amostral calculado corresponderia ao valor da população. - do desvio - padrão da população ( σ ): quanto maior o desvio - padrão, maior a amplitude do intervalo. Como se sabe, o desvio - padrão é uma medida que caracteriza a dispersão da distribuição. Quanto maior o seu valor, maior a variabilidade apresentada pelos dados, sendo natural que a margem de variação de prever em torno do valor amostral recolhido seja também, naturalmente, maior. - do valor crítico (c): quanto maior o valor c, maior a amplitude do intervalo. O valor crítico reflecte o nível de confiança adoptado. Naturalmente, para que aumente a confiança de que o valor do parâmetro a estimar está contido no intervalo, a sua amplitude deve aumentar também (no limite, se o intervalo se alongasse de - ∞ a + ∞ a confiança seria total ou 100%). É possível encontrar o valor c na tabela da normal (pois esta é a lei do estimador), da seguinte forma: P ( −c ≤ Z ≤ c ) = δ já que assim é possível definir a fórmula geral do intervalo, resolvendo a inequação em ordem ao parâmetro, µ : P (−c ≤ X −µ σ ≤ c) = δ ⇔ P( X − c σ n ≤ µ ≤ X −c σ n )=δ n Exemplo: Suponha-se que se tem uma população normal com média µ desconhecida e desvio - padrão 3, N (µ, 9) e uma amostra de 121 observações. Deduza um intervalo de confiança para a µ com 95% de confiança. Resolução: Para os dados deste exemplo, vem: n=121 σ =3 c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96 Manual Técnico de Formando 56
  • 59. Manual de Estatística Aplicada e logo X −c σ n ;X +c σ n = X− [ 1,96 x3 1,96 x3 ;X − = X − 0,535; X + 0,535 11 11 [ ] ] O intervalo X − 0,535; X + 0,535 contém o verdadeiro valor do parâmetro µ com probabilidade ou confiança de 95%. Conhecida uma estimativa particular daquele parâmetro, torna-se possível calcular entre que valores seria de esperar que, com 95% de confiança, variasse µ . Se o desvio - padrão da população fôr desconhecido, utiliza-se este intervalo considerando-se como estimativa de σ o desvio - padrão corrigido da amostra, ou seja, s’= ( xi − x ) 2 n −1 , tal que: X −c s' n ;X +c s' n (ii) Intervalo de confiança para a proporção p de uma população binomial ˆ Seja p (proporção amostral ou frequência observada na amostra) o estimador da proporção p de uma população binomial. Sendo a amostra de grande dimensão, a distribuição deste estimador será: ˆ p ∩ N ( p; p(1 − p ) ) n Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se necessário calcular a variável reduzida correspondente: Z= ˆ p− p p (1 − p ) n ∩ N (0;1) Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a proporção p de uma população binomial: ˆ p−c ˆ ˆ ˆ ˆ p (1 − p ) p (1 − p ) ˆ ;p+c n n ˆ ˆ (como estimativa de p (1 − p ) foi utilizado p (1 − p )) Manual Técnico de Formando 57
  • 60. Manual de Estatística Aplicada Exemplo: Numa cidade pretende-se saber qual a proporção da população favorável a certa modificação de trânsito. Faz-se um inquérito a 100 pessoas, e 70 declaram-se favoráveis. Determine um intervalo de confiança a 95% para a proporção de habitantes dessa cidade favoráveis à modificação de trânsito. Resolução: n=100 ˆ p= 70 = 0,7 100 c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96 e logo ˆ p−c ˆ ˆ ˆ ˆ p (1 − p ) 0,7 x0,3 p (1 − p ) 0,7 x0,3 ˆ ;p+c = 0,7 − 1,96 ;0,7 − 1,96 = n 100 n 100 = [0,6102;0,7898] O intervalo [0,6102;0,7898] contém o verdadeiro valor do parâmetro p com probabilidade ou confiança de 95%. Ou seja, a proporção de habitantes favoráveis à modificação de trânsito está situada entre 61,02% e 78,98%, com probabilidade de 95%. Como é óbvio, pretende-se que o resultado possua o máximo de confiança possível. No entanto, se uma maior confiança é pretendida na estimação, esta conduz a possibilidades de erro maiores, dado que um elevado nível de confiança conduz a um intervalo maior e, como tal, a precisão da estimação diminui. Exemplo: Consideremos 3 afirmações de alunos que aguardam a saída das pautas de um exame de Estatística: Afirm. 1: “Tenho a sensação que as pautas serão afixadas durante a manhã” Afirm. 2: “Tenho quase a certeza que as pautas serão afixadas entre as 10h e as 11h Manual Técnico de Formando 58
  • 61. Manual de Estatística Aplicada Afirm. 3: “Tenho a certeza absoluta que as pautas ou são afixadas às 10h30 ou já não são afixadas hoje” Estas 3 afirmações permitem constatar facilmente que se se pretende maior confiança na estatística, se tem que permitir que a possibilidade de erro aumente. Por outro lado, se se permitir que o erro diminua, os extremos do intervalo aumentam, embora o resultado perca alguma precisão. No entanto, há que ter em atenção que, se um intervalo de confiança tem uma amplitude demasiado grande, a estimativa não tem utilidade. Cabe ao investigador gerir este “trade-off”. Isto leva a uma questão importante: o dimensionamento de amostras. Até aqui, sempre se assumiu que as dimensões são conhecidas à partida, sem referir como se determinam. No entanto, a resolução deste problema tem um enorme interesse prático, já que (i) recolher e tratar uma amostra demasiado grande para os resultados que se pretendem obter constitui um evidente desperdício de recursos e (ii) recolher uma amostra cuja dimensão é insuficiente para retirar conclusões constitui um erro. A dimensão das amostras aumentará se se pretender garantir maior precisão ao intervalo e/ou maior grau de confiança. No capítulo dedicado a aplicações estatísticas, será possível ver como é possível utilizar o conceito de intervalo de confiança ao controlo estatístico de processos de qualidade. Manual Técnico de Formando 59
  • 62. Manual de Estatística Aplicada INTERVALOS DE CONFIANÇA Exercícios 1. Uma máquina fabrica cabos cuja resistência à ruptura (em kg/cm2) é uma variável com distribuição Normal de média 100 e desvio - padrão 30. Pretendese testar uma nova máquina que, segundo indicações do fabricante, produz cabos com resistência média superior. Para isso, observam-se 100 cabos fabricados pela nova máquina, que apresentam uma resistência média de 110 kg/cm2. Admita que o novo processo não altera o desvio padrão da resistência à ruptura dos cabos. Determine um intervalo de confiança a 95% para a resistência média à ruptura dos cabos produzidos pela nova máquina. 2. Uma máquina de cortar madeira corta pranchas cujo comprimento é uma variável aleatória normalmente distribuída com desvio padrão 0,09 cm. Foram efectuadas algumas medidas de prancha efectuadas aleatoriamente: 221,3 219,1 218,7 220 215,1 Construa um intervalo de confiança a 95% para o comprimento médio das pranchas. 3. Admita-se que a altura dos alunos de uma escola segue distribuição Normal com variância conhecida e igual a 0,051. Admita-se ainda que foi recolhida uma amostra aleatória com dimensão n=25 alunos e calculada a respectiva média amostral, tendo-se obtido o valor de 1,70m. Defina um intervalo que, com probabilidade 95%, contenha o valor esperado da altura µ. 4. Um construtor civil utiliza um tipo de cimento, fornecido em sacos de 50 kg. No entanto, os 50 kg podem não ser respeitados, pois existe uma tolerância para o peso do saco. Contudo, existe uma norma de 4 kg2 em relação à variância, que é respeitada. O construtor suspeita que os sacos costumam vir Manual Técnico de Formando 60
  • 63. Manual de Estatística Aplicada com menos cimento. Para averiguar se a sua suspeita se verifica, recolheu a seguinte amostra: 49,4 48,6 51 50,2 49,5 48,7 49 49,1 a) Construa o intervalo de confiança a 95% para a média do peso do cimento. b) Qual a amplitude máxima do intervalo para a média do peso de cimento que é possível obter com esta amostra e com níveis de confiança não superiores a 99%? 4. Numa fábrica, procura conhecer-se a incidência de defeituosos na produção de uma máquina. Para tanto, colhe-se uma amostra de dimensão suficientemente grande (1600 artigos), onde 10% dos artigos são defeituosos. Determine o intervalo de confiança para a referida proporção com 90% de confiança. 5. Uma amostra de 20 cigarros é analisada para determinar o conteúdo de nicotina, observando-se um valor médio de 1,2 mg. Sabendo que o desvio padrão do conteúdo de nicotina de um cigarro é 0,2 mg, diga, com 99% de confiança, entre que valores se situa o teor médio de nicotina de um cigarro. 6. Num lote de 150 peças fabricadas numa determinada máquina encontraramse 12 defeituosas. Defina o intervalo de confiança a 95% para a proporção de peças defeituosas que aquela máquina produz. 7. O gabinete de projectos de uma empresa de material de construção civil pretende estimar a tensão de ruptura do material usado num determinado tipo de tubos. Manual Técnico de Formando 61
  • 64. Manual de Estatística Aplicada Com base num vasto conjunto de ensaios realizados no passado, estima-se que o desvio - padrão da tensão de ruptura do material em causa é de 70 psi. Deseja-se definir um intervalo de confiança a 99% para o valor esperado da tensão de ruptura, pretendendo-se que a sua amplitude não exceda 60 psi. Qual o número de ensaios necessário para definir tal intervalo? 8. O director fabril de uma empresa industrial que emprega 4000 operários emitiu um novo conjunto de normas internas de segurança. Passada uma semana, seleccionou aleatoriamente 300 operários e verificou que apenas 75 deles conheciam suficientemente bem as normas em causa. Construa um intervalo de confiança a 95% para a proporção de operários que conheciam adequadamente o conjunto das normas uma semana após a sua emissão. 9. A empresa SCB controla regularmente a resistência à ruptura dos cabos por si produzidos. Recentemente, foram analisadas as tensões de ruptura de 10 cabos SCB-33R, seleccionados aleatoriamente a partir de um lote de grandes dimensões, tendo sido obtida uma média de 4537 kg/cm2. Existe uma norma de 112 kg/cm2 em relação à variância, que é respeitada. O director comercial pretende saber qual o intervalo de confiança, a 95%, para o valor esperado da tensão de ruptura dos cabos do lote em causa. Defina esse intervalo. 10. Uma amostra de 50 capacetes de protecção, usados por trabalhadores de uma empresa de construção civil, foram seleccionados aleatoriamente e sujeitos a um teste de impacto, e em 18 foram observados alguns danos. Construa um intervalo de confiança, a 95%, para a verdadeira proporção p de capacetes que sofre danos com este teste. Interprete o resultado obtido. Manual Técnico de Formando 62
  • 65. Manual de Estatística Aplicada 3.5. Testes de hipóteses Todos os dias temos de tomar decisões respeitantes a determinadas populações, com base em amostras das mesmas (decisões estatísticas). Nesta tomada de decisões, é útil formular hipóteses sobre as populações, hipóteses essas que podem ou não ser verdadeiras. A essas hipóteses chamamos hipóteses estatísticas, as quais geralmente se baseiam em afirmações sobre as distribuições de probabilidade das populações ou sobre alguns dos seus parâmetros. Uma hipótese pode então ser definida como uma conjectura acerca de uma ou mais populações. Desta forma, os testes de hipóteses podem considerar-se uma segunda vertente da inferência estatística, tendo por objectivo verificar, a partir de dados observados numa amostra, a validade de certas hipóteses relativas à população. O resultado do teste corresponde inevitavelmente a uma das duas respostas possíveis para cada questão: afirmativa ou negativa. Em ambos os casos corre-se o risco de errar. Uma das características do teste de hipóteses é, justamente, a de permitir controlar ou minimizar tal risco. Nos testes de hipóteses, e ao contrário dos intervalos de confiança, em vez de procurar uma estimativa ou um intervalo para um parâmetro, admite-se ou avança-se um valor hipotético para o mesmo, utilizando depois a informação da amostra para confirmar ou rejeitar esse mesmo valor. A hipótese a testar denomina-se, pois, de H0 ou de hipótese nula. O objectivo é verificar se os factos observados a contradizem, levando a optar pela hipótese alternativa H1. Isto é, a estratégia básica seguida no método de teste de hipóteses consiste em tentar suportar a validade H1 de uma vez provada a inverosimilhança de H0. Exemplo: Registos efectuados durante vários anos permitiram estabelecer que o nível de chuvas numa determinada região, em milímetros por ano, segue uma lei normal N(600;100). Certos cientistas afirmavam poder fazer aumentar o nível médio µ das chuvas em 50 mm. O seu processo foi posto à prova e anotaram- se os valores referentes a 9 anos: 510 614 780 512 501 534 603 788 650 Que se pode concluir? Adopte um nível de significância de 5%. Manual Técnico de Formando 63
  • 66. Manual de Estatística Aplicada Resolução: Duas hipóteses se colocavam: ou o processo proposto pelos cientistas não produzia qualquer efeito, ou este aumentava de facto o nível médio das chuvas em 50 mm. Estas hipóteses podem formalizar-se do modo seguinte: H0: µ=600 mm H1: µ=650 mm Este é um problema clássico de teste de hipóteses, em que está em causa aceitar ou rejeitar a hipótese nula, em função dos resultados de uma amostra. Ao utilizar uma amostra de uma população, estamos a lidar com leis de probabilidades, logo não é possível de saber se a hipótese nula é verdadeira ou falsa, mas apenas medir as probabilidades envolvidas na tomada de decisão. Podem-se definir 2 formas de especificar Ho e H1: (i) hipótese simples contra hipótese simples Ho: θ = θ0 H1: θ = θ1 (ii) hipótese simples contra hipótese composta Ho: θ = θ0 H1: θ > θ0 ou θ < θ0 ou θ ≠ θ0 Estes testes designam-se respectivamente de teste unilateral à direita, teste unilateral à esquerda e teste bilateral Sendo os testes de hipóteses, portanto, um processo de inferência estatística onde se procuram tomar decisões sobre a população com base numa amostra, é natural que envolvam alguma margem de erro e que ocorram em situação de incerteza. Estes erros não podem ser completamente evitados mas, no entanto, pode-se manter pequena a probabilidade de os cometer. Compete ao investigador decidir qual a dose de risco de se enganar em que está disposto a incorrer. Vamos supor uma probabilidade de erro de, por exemplo, 5%. Nesse caso, e avançada a hipótese nula Ho, o investigador só estaria disposto a rejeitá-la se o resultado obtido na amostra fizesse parte de um conjunto de resultados improváveis que teriam apenas, por exemplo, 5 chances em 100 de Manual Técnico de Formando 64
  • 67. Manual de Estatística Aplicada se produzir. Este tipo de formulação é conhecida como postura conservadora. Ou seja, estamos mais propensos a achar que o novo processo não tem qualquer efeito sobre o nível das chuvas (isto é, que tudo se mantém igual) do que investir no novo processo (mudar), arriscando apenas quando houver evidências da amostra muito fortes a favor do novo. Para que esta decisão possa ser tomada de uma forma controlada, é conveniente pois que, à partida, se fixe o valor a partir do qual se considera improvável a validade da hipótese nula. Tal fixação corresponde à fixação da regra de decisão do teste. A formalização desta regra passa pela especificação de uma região de região de rejeição. A essa região, isto é, ao conjunto de valores “improváveis” que conduzem à rejeição da hipótese nula dá-se o nome de Região Crítica. Ao limite superior de risco, que na maior parte dos casos é de 10%, 5% ou 1%, dáse o nome de Nível de Significância do teste, sendo este que permite definir a condição de rejeição de Ho. O Nível de Significância designa-se de α e corresponde, então, à probabilidade de o resultado amostral levar à rejeição de Ho, supondo Ho verdadeira, isto é, à probabilidade de se estar a cometer aquilo a que se convenciona chamar de erro de 1ª espécie. Como veremos no exemplo, existem também erros de 2ª espécie, cuja probabilidade se designa pela letra β. Em resumo: Quadro de decisão em condição de incerteza Hipótese nula Ho Decisão Hipótese Ho ser verdadeira: Hipótese Ho ser falsa Aceitar Ho Decisão correcta (1-α) Rejeitar Ho Erro de tipo I Alfa (α) Erro de tipo II Beta (β) Decisão correcta (1-β) Como decidir? Visto que se trata de testar o valor de µ, a variável de decisão será X . Considerando Ho verdadeira vem que X ∩ N (600; Manual Técnico de Formando 100 9 ). 65
  • 68. Manual de Estatística Aplicada Em princípio, grandes valores de X são improváveis, pelo que se opta pela seguinte regra de decisão: Se X fôr demasiado grande, isto é, superior a um valor crítico c que tem apenas 5 chances em 100 de ser ultrapassado, opta-se por H1 com probabilidade 5% de se estar a cometer um erro. Se tal não acontecer, conserva-se Ho, por falta de provas suficientes para não o fazer. Logo, sendo P(Rejeitar Ho / Ho) = α = 5%, vem que P ( X > c / µ = 600) = 0,05 ⇔ P ( X −µ σ > c − 600 ) = 0,05 ⇔ 100 n ⇔ c = 600 + 1,645 x 9 100 = 654,83(3) 3 A regra de decisão é, então, a seguinte: - rejeitar H0 em favor de H1, se o valor amostral fôr superior a 654,83(3) - conservar H0 em detrimento de H1 se fôr inferior a 654,83(3) Isto é, a Região Crítica deste teste, isto é, o conjunto de acontecimentos que levam à rejeição de H0 corresponde a todos os valores de X >654,83(3). RA: Região de Aceitação RR: Região Crítica ou de Rejeição RA=(1-α) µ = 600 RR=α 654,83(3) X Os dados recolhidos indicavam X =610,2 mm, pelo que a decisão é conservar H0 , isto é, considerar que o processo científico não produz efeitos. Manual Técnico de Formando 66
  • 69. Manual de Estatística Aplicada No entanto, os erros incorridos não se ficam apenas pelos de 1ª espécie. Existem também erros de 2ª espécie. Isto é, à partida parte-se do princípio que H0 é verdadeira e só se rejeitará essa hipótese se ocorrerem acontecimentos pouco prováveis. No entanto, é possível alternativamente partir do princípio que é H1 que é verdadeira, ou seja, considerar que o processo científico é realmente eficaz no aumento do nível médio das chuvas, mas que, infelizmente, o número de valores observado não permite observar resultados ou esses resultados foram insuficientes. Supondo então que H1 é verdadeira (µ=650 mm), então vem que: X ∩ N (650; β RA 100 9 ) 1-β β RR µ = 650 X A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª espécie, vem então igual a: P(Rejeitar H1 / H1)=β P ( X ≤ 654,83(3) / µ = 650) = P ( X −µ σ n ≤ 654,83(3) − 650 ) = P ( N (0,1) ≤ 0,14) = 55,57% 100 9 É através das probabilidades α e β que se procura o melhor teste de hipóteses, sendo o teste ideal o que minimiza simultaneamente ambos os valores. No entanto, e como α e β se referem a realidades opostas e variam em sentido contrário, tal não é possível. O que na maior parte dos casos se faz é fixar o α (para amostras de dimensão n) e tentar minimizar β. Manual Técnico de Formando 67
  • 70. Manual de Estatística Aplicada Região de rejeição e de aceitação da hipótese nula Unilateral à esquerda H1: µ < 600 Bilateral H1: µ ≠ 600 RA RR α RR α/2 1−α RA Unilateral à direita H1: µ > 600 RA RR α/2 1−α RR 1−α α Chama-se potência de um teste à probabilidade de rejeitar H0 quando esta é falsa. Esta é uma decisão certa, não implica erro, e é complementar do erro de 2ª espécie. Logo, quanto menor o erro de 2ª espécie, maior será o valor da potência do teste e, logo, maior a sua qualidade (diz-se que o teste é mais potente) . Quando H1 é uma hipótese composta (>, < ou ≠ ), a potência do teste é variável, dependendo do valor do parâmetro que não é fixo. Nesse caso falase em função potência do teste = 1 -β (µ1) Resumindo: passos para construção de um teste de hipóteses: Passo No 1: Formular as hipóteses nula e alternativa Passo No 2: Decidir qual estatística (estimador) será usada para julgar a Ho e a variável de decisão Passo No 3: Definir a forma da Região Crítica, em função da hipótese H1 Passo Nº 4: Fixar o nível de significância Passo Nº 5: Construir a Região Crítica em função do nível de significância Passo Nº 6: Cálculo (eventual) da potência do teste Passo Nº 7: Calcular a estatística da amostra Passo No 8: Tomar a decisão: rejeição ou não de Ho Manual Técnico de Formando 68
  • 71. Manual de Estatística Aplicada (i) Teste de hipóteses para a média de uma população normal Exemplo Suponha que o director de qualidade pretende averiguar se o peso dos pacotes de arroz produzidos corresponde ao valor assinalado na embalagem. Seja X a variável que representa o peso de um pacote de arroz. Suponha que X ∩ N ( µ ;0,012 ) e que se conhece a seguinte amostra: 1,02 0,98 0,97 1,01 0,97 1,02 0,99 0,98 1,00 Será que, para um nível de significância de 5% se pode dizer que o peso médio corresponde ao peso de 1 kg assinalado na embalagem? Conceitos Notação Definição População Todos os pacotes produzidos Amostra Os pacotes recolhidos na amostra Variável X Peso de um pacote de arroz Parâmetro µ Quantidade média de arroz por pacote produzido Estimador X Quantidade média de arroz por pacote da amostra Estimativa Hipótese nula Hipótese alternativa Erro de tipo I Alfa (α) Erro de tipo II Beta (β) Valor da média daquela amostra Ho: µ = 1 H1: µ < 1 Considerar que o peso médio corresponde ao da embalagem quando é inferior Considerar que o arroz contido em cada pacote era inferior ao indicado quando estava de facto de acordo com o valor da embalagem Resolução Passo 1 Formular as hipóteses: Ho: µ = 1 H1: µ < 1 Passo 2 A estatística a ser utilizada será a média amostral Manual Técnico de Formando 69
  • 72. Manual de Estatística Aplicada Passo 3 A região crítica é formada por todos os valores menores ou iguais a c Passo 4 Assumir um nível de significância de 5% Passo 5 Para α=5%, determinar a região de rejeição e aceitação. Logo, sendo P(Rejeitar Ho / Ho) = α = 5%, vem que P ( X < c / µ = 1) = 0,05 ⇔ P ( X −µ σ < n c −1 ) = 0,05 ⇔ 0,01 9 0,01 = 0,9945 3 Logo, RC = ]− ∞;0,9945] ⇔ c = 1 − 1,645 x Passo 6 Potência do teste se o verdadeiro valor fôr 0,99: A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª espécie, vem então igual a: P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β: P ( X ≤ 0,9945 / µ = 0,99) = P ( X −µ σ n Passo 7 Calcular a estatística X = 1 9 ≤ 0,9945 − 0,99 ) = P ( N (0,1) ≤ 1,35) = 91,15% 0,01 9 xi = 0,9933 Passo 8 Tomar a decisão Como o valor da amostra foi 0,9933 e é menor que o valor crítico 0,9945, rejeita-se Ho Ou seja, considera-se que o arroz contido em cada pacote era inferior ao indicado. No entanto, há o risco de se mandar parar a produção para revisão do equipamento sem necessidade. Reduzindo a probabilidade de isso ocorrer de 5% para 1%, vem: Manual Técnico de Formando 70
  • 73. Manual de Estatística Aplicada α=1% α=5% RA: Continuar a produção RR: Parar a produção -∞ 0 0,9922 0.9945 +∞ Valor da amostra: 0,9933 A única mudança será no Valor Crítico, que de 0,9945 para 0,9922. Neste caso, aceitaremos Ho, ou seja, consideraremos que não há qualquer anomalia na produção. (ii) Teste de hipóteses para a proporção de uma população binomial Seja (x1, x2, …, xn) uma amostra aleatória de uma população com parâmetro p desconhecido, e considere-se que n é grande (na prática, n>100). Vamos supor que se pretende testar o valor teórico da percentagem (parâmetro p). Fixando-se o nível de significância, determina-se a região crítica. Sendo o estimador a proporção amostral, a variável de decisão é Z= ˆ p− p p (1 − p ) n ∩ N (0;1) Exemplo Numa cidade, pretende-se saber se metade da população é favorável à construção de um centro comercial. Faz-se um inquérito a 200 pessoas, e 45% declaram-se favoráveis. Estes valores contradizem a hipótese? Conceitos Notação Definição População Os habitantes da cidade Amostra Os habitantes inquiridos Manual Técnico de Formando 71
  • 74. Manual de Estatística Aplicada Conceitos Notação Parâmetro p Percentagem ou proporção de habitantes da cidade favoráveis à construção de um centro comercial Estimador ˆ p Percentagem ou proporção de habitantes da amostra favoráveis à construção de um centro comercial Estimativa Definição Valor da proporção daquela amostra Hipótese nula Hipótese alternativa Erro de tipo I Alfa (α) Erro de tipo II Beta (β) Ho: p = 0,5 H1: p < 0,5 Considerar que a maioria dos habitantes não é favorável à construção do centro comercial quando de facto são Considerar que a maioria dos habitantes é favorável à construção do centro comercial quando são contra Resolução Passo 1 Formular as hipóteses: Ho: p = 0,5 H1: p < 0,5 Passo 2 A estatística a ser utilizada será a proporção amostral, onde o cuidado deve ser trabalhar com grandes amostras. Passo 3 A região crítica é formada por todos os valores menores ou iguais a c Passo 4 Assumir um nível de significância de 5% Passo 5 Para α=5%, determinar a região de rejeição e aceitação. Logo, sendo P(Rejeitar Ho / Ho) = α = 5%, vem que ˆ P ( p < c / p = 0,5) = 0,05 ⇔ P ( ⇔ c = 0,5 − 1,645 x ˆ p− p p (1 − p ) n 0,5(1 − 0,5) = 0,442 200 Manual Técnico de Formando < c − 0,5 0,5(1 − 0,5) 200 ) = 0,05 ⇔ Logo, RC = ]− ∞;0,442] 72
  • 75. Manual de Estatística Aplicada Passo 6 Potência do teste se o verdadeiro valor fôr 0,4: P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β: ˆ P ( p ≤ 0,442 / p = 0,4) = P ( ˆ p− p p (1 − p ) n ≤ 0,442 − 0,4 0,4(1 − 0,4) 200 ) = P ( N (0,1) ≤ 1,21) = 88,69% Passo 7 ˆ p =0,45 Passo 8 Como o valor amostral 0,45 é maior que o valor crítico 0,442, não se rejeita Ho RR: Não construir o centro comercial α=5% RR: Parar a produção -∞ RA: Continuar a produção +∞ Valor amostral: 0,45 0,442 Ou seja, apesar de apenas 45% dos habitantes se terem manifestado a favor 0 da construção do centro comercial, essa margem não é suficiente para decidir deixar de o construir. Manual Técnico de Formando 73
  • 76. Manual de Estatística Aplicada TESTES DE HIPÓTESES Exercícios 1. O peso dos pacotes de farinha de 1 kg, produzidos por uma fábrica, é uma variável normalmente distribuída, com desvio padrão 0,01. Da produção de determinado dia é retirada uma amostra de 49 pacotes, com peso médio de 0,998 Kg. Pode-se afirmar, a um nível de significância de 1%, que o peso médio dos pacotes de farinha nesse dia não está de acordo com o peso indicado? 2. Numa região onde existem entre os maiores de 18 anos 50% de fumadores, é lançada uma intensa campanha anti-tabaco. Ao fim de três meses, realiza-se um mini-inquérito junto de 100 cidadãos com mais de 18 anos, registando-se 45 fumadores. Pode concluir-se que a campanha surtiu efeito? 3. Um fabricante afirma que o tempo médio de vida de um certo tipo de bateria é de 240 horas, com desvio-padrão de 20 horas. Uma amostra de 18 baterias forneceu os seguintes valores: 237 242 232 242 248 230 244 243 254 262 234 220 225 236 232 218 228 240 Supondo que o tempo de vida das baterias se distribui normalmente, poder-seá concluir, com 5% de significância, que as especificações não estão a ser cumpridas? Manual Técnico de Formando 74