Ipaee capitulo5

UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA
DEPARTAMENTO DE ESTATÍSTICA

INTRODUÇÃO AO PLANEJAMENTO E ANÁLISE
ESTATÍSTICA DE EXPERIMENTOS

CAPÍTULO # 5

EXPERIMENTOS COM UM ÚNICO FATOR
(ONEWAY)

PROF. PEDRO FERREIRA FILHO
PROFa. ESTELA MARIS P. BERETA

2º SEMESTRE DE 2010

Capítulo 5 – Experimentos com um Único Fator(Oneway)

5. EXPERIMENTOS COM ÚNICO FATOR (ONEWAY)

5.1. INTRODUÇÃO:

Experimentos com um único fator são aqueles onde existe uma única variável de interesse
no estudo . Os testes de hipótese para comparação de duas médias (ou dois tratamentos) vistos
no capítulo 3 são um caso particular desse tipo de situação. No entanto, os procedimentos vistos
anteriormente somente podem ser utilizados em situações onde o número de tratamentos em
estudos é no máximo igual a dois.
Usualmente os estudos experimentais tem por objetivo comparar três ou mais tratamentos,
ou ainda, nessa situação, estudar um fator de interesse que apresenta três ou mais possíveis
valores (tratamentos). Por exemplo, num exemplo anterior, havia interesse e, estudar o
rendimento de uma dada reação química considerando três diferentes tipos de catalisadores.
Nesse caso existe um único fator: Catalisadores e três tratamentos que são os três (ou mais) tipos
de catalisadores a serem investigados. Abordaremos os experimento com único fator nsa situação
onde não existe restrição a aleatorização (experimentos completamente aleatorizados) e na
presença de uma única fonte de restrição (experimentos aleatorizados em blocos).

5.2. EXPERIMENTOS COMPLETAMENTE ALEATORIZADOS:

5.2.1. INTRODUÇÃO:

Um experimento completamente aleatorizado com um único fator (ONEWAY) é um
planejamento experimental que envolve apenas um fator com “a” níveis onde os tratamentos são
atribuídos as unidades experimentais sem qualquer restrição, ou ainda, toda unidade experimental
tem a mesma probabilidade de receber qualquer um dos tratamentos (níveis do fator) em estudo.
A eficiência deste tipo de planejamento esta diretamente relacionada a homogeneidade das
unidades experimentais com respeito aos objetivos do estudo. Quanto maior for a
homogeneidade melhores serão os resultados obtidos nesse tipo de planejamento experimental.

Consideremos o seguinte exemplo:

Um experimento foi realizado para verificar a produtividade de 4 tipos de variedade de
milho. A produção em cada unidade experimental (lotes homogêneos) foi a seguinte:

Introdução ao Planejamento e Análise Estatística de Experimentos – 2o Semestre de 2010 – Prof. Pedro Ferreira Filho & Profa. Estela Maris P. Bereta Página 2


Varie- Repetições
dade 1 2 3 4 5

A 25 26 20 23 21
B 31 25 28 27 24
C 22 26 28 25 29
D 33 29 31 34 28

Problema:
Existe uma variedade que apresenta produtividade melhor que as demais?
Visualizando os dados observados:

Situação:
Experimento:
 Completamente Aleatorizado
 Um único fator – Variedades de milho
 Efeitos Fixos (interesse em identificar qual das quatro variedades é a melhor).
 Balanceado: todos os tratamentos foram aplicados ao mesmo número de unidades
experimentais;

Questão:



Como definir um teste para verificação da hipótese de existência ou não de diferença entre
os tratamentos?

5.2.2. ANÁLISE ESTATÍSTICA:

5.2.2.1. NOTAÇÃO:

Seja:
Yij = variável resposta observada no i-ésimo tratamento e j-ésima unidade experimental;

i = 1, 2, …, a (tratamentos)
j = 1, 2, ..., ni (número de unidades experimentais por tratamento)
a
N= ni
i 1 (número total de unidades experimentais)

No exemplo:

Yij = produtividade da i-ésima variedade na j-ésima unidade experimental.
i = A, B, C, D
j = 1,2, 3, 4, 5 (para todo i)
e n1 = n2 = ... = na = n n.a = N 5*4= 20
Neste caso temos um experimento balanceado, isto é, todos os tratamentos são
aplicados no mesmo número de unidades experimentais.

APRESENTAÇÃO DOS DADOS:

Tratamentos Observações Totais Médias
1 y11 y12 ... y1n1 y1. y 1.

2 y21 y22 ... y2n2 y2. y 2.

   

a ya1 ya2 ... yan ya. y a.

y..



ni

y i. y ij (total do i-ésimo tratamento)
j 1

ni
1 yi.
y i. y ij (média do i-ésimo tratamento)
ni j 1 ni

a ni

y .. y ij (total das observações)
i 1 j 1

No exemplo:

Varie- Repetições
yi. y i.
dade 1 2 3 4 5

A 25 26 20 23 21 115 23
B 31 25 28 27 24 135 27
C 22 26 28 25 29 130 26
D 33 29 31 34 28 155 31

Totais y.. y .. = 26.75

5.2.2.2. MODELO ESTATÍSTICO:

A análise estatística para verificar o problema em estudo (igualdade ou não dos
tratamentos) passa pelo ajuste de um modelo linear estatístico definido da seguinte forma:

yij = + i + ij (chamado modelo de desvio médio) (5.1)

onde

Yij = variável resposta observada no i-ésimo tratamento e j-ésima unidade experimental;

µ = efeito comum a todos os tratamentos, parte da resposta que não depende dos tratamentos;

i = efeito específico do i-ésimo tratamento

i = erro aleatório (parte da resposta não representada pelo modelo)



Interpretação:

A resposta yiz é devida a um “efeito comum” mais um efeito específico do i-ésimo

tratamento mais um efeito aleatório.

Do ponto de vista do modelo temos na forma matricial:
Situação a = 3; ni = 3, todo i;

Problemas:
 Estimar os parâmetros
 Teste de Hipótese
 Verificar a adequabilidade do modelo

5.2.2.3. ESTIMAÇÃO DE PARÂMETROS:

Alternativas:

Estimadores de Máxima Verossimilhança

Estimadores de Mínimos Quadrados

a

Usando o métodos dos mínimos quadrados coma restrição de que ciτi 0 , temos:
i 1

ˆ
μ y ..

ˆi y i. y i.. i= 1,2,....a

Interpretação:
O efeito comum é estimado pela média geral dos dados observados;
O efeito específico é estimado pela diferença entre a média das observações do especifico
tratamento em relação a média geral.



No Exemplo:

Estimativa dos Parâmetros:

ˆ
μ 26.75 ˆ1 3 . 75 ˆ2 0 . 25 ˆ3 0 . 75 ˆ4 4.25

Interpretação:

O tratamento 1 (adubo A) tem em média um rendimento médio 3.75 unidades a menos
que o efeito comum (efeito obtido independente dos tratamentos).
O tratamento 2 (adubo B) tem em média um rendimento médio 0.25 unidades a mais que
o efeito comum (efeito obtido independente dos tratamentos).
O tratamento 3 (adubo C) tem em média um rendimento médio 0.75 unidades a menos
que o efeito comum (efeito obtido independente dos tratamentos).
O tratamento 4 (adubo D) tem em média um rendimento médio 4.25 unidades a mais que
o efeito comum (efeito obtido independente dos tratamentos).

Observação:
Alguns autores preferem o modelo estatístico dado por:

Yij= i + ij

Onde

i = + i

definido anteriormente.
Alguns resultados apresentam diferenças em relação ao modelo apresentado, porém as
conclusões obtidas usando qualquer uma das alternativas são exatamente as mesmas.

5.2.2.4. TESTE DE HIPÓTESES:

O interesse no estudo é o de comparar os tratamentos que estão sendo investigados.
Como agora, três ou mais tratamentos, a hipótese inicial a ser investigada é a de que se todos os
tratamentos são iguais, ou seja, se todos são igualmente “eficientes”. No caso de não rejeição
desta hipótese, concluí-se pela igualdade dos tratamentos envolvidos, ou ainda, que não existe um


tratamento com maior efeito que os demais. No caso de rejeição de hipótese de igualdade,
conclui-se que pelo dois tratamentos são diferentes e, nesse caso, novos procedimentos devem
ser realizado para se identificar os tratamentos diferem, ou ainda, que tratamento ou tratamentos
são mais eficientes.
O teste de igualdade de tratamentos utilizando o modelo definido em (5.1) implica no teste
da seguinte hipótese.

Ho : i =0 i = 1, ..., a

H1 : i 0 para pelo menos um i.

Interpretação:

Se a hipótese Ho não é rejeitada todos os parâmetros i são iguais a zero, ou seja, os
efeitos específicos de todos os tratamentos são iguais a zero (não existem), portanto o modelo
(5.1) fica:

yij = + ij
que não depende dos tratamentos, ou ainda, mudança nos níveis do fator não tem efeito sobre a
resposta.

Se a hipótese Ho é rejeitada todos os parâmetros, pelo menos um i diferente de zero,
ou seja, os existe pelo menos um dos tratamentos com um efeito específico que o torna melhor
(ou pior) que os demais tratamentos.

Vamos considerar alguns pressupostos sobre a componente aleatória ij do modelo 5.1.:
a) E[ ij] = 0 (os erros têm valor esperado igual a zero, ou a média dos erros é zero)
2 2
b) V[ ij] = (a variância do erros éconstante e igual a uma dados valor )

c) ij são não correlacionados. (o que não é ajustado pelo modelo para uma unidade

experimental, não esta relacionado com o que não é explicado para uma
unidade de observação j)

Conseqüência:
E(Yi) = E ( + i + i) = + i + E( ij )= + i



2
V(Yi) = E ( + i + i) = V( ij )=

Se considerarmos ainda que:
2
ij ~ N (0, )
isto é, erros aleatórios, distribuídos segundo um modelo normal com média zero e variância
constante.
Portanto temos que:
2
Yij ~ N ( + i , )

Desta forma, sob a suposição acima, podemos representar nossa hipótese da seguinte
forma:

Ou seja, o teste de hipóteses, considerando as suposições acima, significa que cada

tratamento segue um modelo normal com uma dada média específica ( + i) e uma
2
mesma variância constante . O teste de hipóteses tem por objetivo verificar se estas
diferentes médias especificas são iguais, ou ainda se todos efeitos específicos i são

iguais a zero.

Problema:

Como testar as hipóteses acima?

1) No caso de dois tratamentos: Teste t
2) Dois ou mais tratamentos: Teste F – ANOVA = Análise de Variância



5.2.2.5. ANOVA – ANÁLISE DE VARIÂNCIA:

O princípio da ANOVA é o de estudar a variabilidade dos dados de forma a identificar que
parcela desta variabilidade é devida ao efeitos dos diferentes tratamentos e que parcela dela é
devida aos erros aleatórios não controláveis.
Proposta:

Particionar a variabilidade total dos valores observados para a medida de comparação Yiz,
em duas componentes: uma devida ao modelo (parte não aleatória) e outra devida aos erros
aleatórios, isto é:

Variabilidade Total = Variabilidade Modelo + Variabilidade dos Erros

Vamos considerar como medida de variabilidade total, a soma de quadrados de desvios em
torno da média para cada uma das observações, ou seja:
a ni
2
Variabilid ade Total SQT y ij - y ..
i 1 j 1

A partir de alguns procedimentos algébricos temos:

a ni
2
SQT y ij - y ..
i 1 j 1

a ni
2
y ij y i. y i. y ..
i 1 j 1

a ni
2
y ij y i. yi y ..
i j

a ni a ni a ni
2 2
y i. y .. y ij y i. 2 y ij y i. y i. y ..
i j i j i 1 j 1

a ni a ni
2 2
y i. y .. y ij y i. 0
i j i j

a a ni
2 2
ni yi . y .. y ij y i.
i i j

SQT SQTr SQE


onde:
SQTr = SQM = Soma de Quadrados Tratamentos (modelo) : quantifica a
variabilidade entre tratamentos;
SQE = Soma quadrados dos erros: quantifica a variabilidade dos erros;

Idéia Geométrica:

Interpretando:
SQE : soma dos quadrados dos desvios das observações em relação a média de
cada tratamentos;
SQTr : soma dos quadrados dos desvios da média de cada tratamento em relação a
média geral;
A medida que cresce a soma de quadrados de tratamentos temos uma maior
variabilidade entre os tratamentos, conseqüentemente temos que existe diferença
entre os tratamentos. Caso contrário, maior variabilidade dentro dos tratamentos e
menor variabilidade entre tratamentos, temos a não existência de diferença entre
tratamentos.

Problema:
Como quantificar o quanto “pequeno” é a soma de quadrados de tratamentos?



Expressões:
a ni a ni 2
2 2 y ..
SQT y ij - y .. y ij
i 1 j 1 i 1 j 1 n

a 2
2 1 a 2 y ..
SQTr ni yi . y .. yi .
i 1 ni 1 n

SQE SQT SQTr

2
y ..
Nota: é usualmente chamado de fator de correção (FC)
n

Consideremos o seguinte quadro:
Tabela ANOVA

Fonte de Graus de Soma de Quadrados E(QM)* F
Variação Liberdade Quadrados Médios

Modelo a-1 SQTr SQ Tr/a-1 σ
2 1 ni τ i
2 QMTr
a 1
(Tratamentos) QME

Erro N-a SQE SQE/N-a σ
2

Total N-1 SQT - -

* Esta coluna não é usualmente apresentada.

A tabela acima nos mostra que se a hipótese H0 é verdadeira ( todos i = 0) em
média(E(QM)) o quadrado médio de tratamentos e o quadrado médio de erros são iguais a um
2
mesmo valor ( no caso!). Portanto, se a hipótese H0 é verdadeira a razão entre QMTr/QME

deve ser próxima de 1.

Problema:
Como quantificar o quanto “próxima de 1” esta razão?



2
Considerando que a suposição: ij ~ N (0, ) é verdadeira podemos provar que
(ver Mongomery páginas 270 a 273) que:

QMTr
Fc ~ Fa 1, N a
QME

Consequentemente:

Rejeitamos H0 com u m nível se significância (erro tipo I) se:

QMTr
Fc Ft Fa 1, N a
( )
QME

Graficamente:

Gráfico 1 – Região Critica para o Teste F.



Uma alternativa usando softwares estatísticos é:

Valor P = P[ Fa-1,N-a > Fc] = c

Isto é:

Gráfico 2 – Valor para estatística F calculada

Logo:
Se c > não se rejeita H0
Se c < rejeita-se H0

Retornando ao exemplo:

Source DF Sum of Squares Mean Square F Value Pr > F

Model 3 163.7500000 54.5833333 7.80 0.0020

Error 16 112.0000000 7.0000000

Corrected Total 19 275.7500000



R-Square Coeff Var Root MSE Y Mean

0.593835 9.890659 2.645751 26.75000

Source DF Type I SS Mean Square F Value Pr > F

F 3 163.7500000 54.5833333 7.80 0.0020

Temos Fc = 7.80
Considerando = 5% temos F3,16(5%) = 3.24
Logo:

QMTr
Fc 7 . 80 3 . 24 Ft F 3 ,16 ( 5 %)
QME
Portanto REJEITA-SE Ho, isto é, pelo menos dois tratamentos diferem, ou ainda existe
pelo menos um tratamento que é mais eficiente que outro (maior produtividade no caso!).

De outra forma:

Da tabela da Anova (obtida através de um software estatístico) temos que:

c
Pr F 0 . 0020 0 . 05 ( 5 %) )

Portanto REJEITA-SE Ho.



Complementação:

O ajuste do modelo :

yij = + i + ij
a partir dos dados do experimentos é dado pela estimativa dos parâmetros :

ˆ
μ 26.75 ˆ1 3 . 75 ˆ2 0 . 25 ˆ3 0 . 75 ˆ4 4.25

Consequentemente temos a seguinte decomposição dos valores observados:

25 31 22 33 26 . 75 26 . 75 26 . 75 26 . 75 3 . 75 0 . 25 0 . 75 4 . 25 2 .0 4 .0 4 .0 2 .0
26 25 26 29 26 . 75 26 . 75 26 . 75 26 . 75 3 . 75 0 . 25 0 . 75 4 . 25 3 .0 2 .0 0 .0 2 .0
20 28 28 31 26 . 75 26 . 75 26 . 75 26 . 75 3 . 75 0 . 25 0 . 75 4 . 25 3 .0 1 . 75 2 .0 0 .0
23 27 25 34 26 . 75 26 . 75 26 . 75 26 . 75 3 . 75 0 . 25 0 . 75 4 . 25 0 .0 0 .0 1 .0 3 .0
21 24 29 28 26 . 75 26 . 75 26 . 75 26 . 75 3 . 75 0 . 25 0 . 75 4 . 25 2 .0 3 .0 3 .0 3 .0

Ou ainda:

O Valor observado yij é decomposto em um efeito comum (não depende dos tratamento) +

efeito especifico i do tratamento aplicado a unidade experimental mais uma aquilo que não

pode ser incorporado pelo modelo, erro observado ij chamado de RESIDUOS do modelo e que
obtidos e denotados por:

ˆ ij Y ij - ˆ - î
Por sua vez:

ˆ
Y ij ˆ î
É chamado valor estimado ou valor PREDITO pelo modelo.
Consequentemente:

îj ˆ
Y ij - Yij
Resíduos = Valor Observado – Valor Predito



PROBLEMA:

2
Inferências foram realizadas a partir da hipótese de que i são iid N (0, )
ou seja:

a) E[ ij] = 0 (os erros têm valor esperado igual a zero, ou a média dos erros é zero)
2 2
b) V[ ij] = (a variância do erros é constante e igual a uma dados valor )

c) ij são não correlacionados. (o que não é ajustado pelo modelo para uma unidade

experimental, não esta relacionado com o que não é explicado para uma
unidade de observação j)

d) ij seguem os padrão de um modelo de probabilidade Normal.

 Como verificar se as suposições acima são verdadeiras para os dados
observados no experimento?

5.2.3. DIAGNÓSTICO DE MODELO:

Objetivo:
Verificar se as suposições estabelecidas para obtenção do ajuste e teste dos parâmetros,
são satisfeitas.
Suposição:
2
i são iid N (0, )
Questões:
 Presença de Valores Extremos (Dados aberrantes-discrepantes)
 Independência (Aleatoriedade)
 Normalidade
 Homocedasticidade (Variância Constante)

Instrumentos:
Histograma e Box-Plot dos resíduos
Gráfico normal probabilístico
Gráfico de resíduos em ordem temporal (para situações onde existe uma seqüência
temporal na coleta dos dados)
Gráfico de resíduos versus predito



Gráfico de resíduos versus fatores
Testes de Igualdade de Variâncias

5.2.3.1. IDENTIFICAÇÃO DE VALORES EXTREMOS – PONTOS DISCREPANTES
(ABERRANTES):

A identificação de valores extremos (dados discrepantes ou aberrantes) faz parte da
análise descritiva e exploratória dos dados. No caso de planejamento de experimentos alguns
procedimentos específicos podem ser destacados na busca da verificação da existência de valores
extremos.
Procedimentos usuais que auxiliam na análise descritiva e exploratória destes dados são:
Ramos e Folhas, Diagrama de Pontos e Box Plot.
Consideremos os seguintes dados:
Tabela: Dados provenientes de um Experimento Completamente Aleatorizado – Oneway (Exemplo
Anterior)

Varie- Repetições
dade 1 2 3 4 5

A 25 26 20 23 21
B 31 25 28 27 24
C 22 26 28 25 29
D 33 29 31 34 28

Dados Originais:
Para se verificar a presença de valores extremos(ou dados discrepantes) podemos utilizar
procedimentos simples, como gráfico de dispersão e Box-Plots. Devemos verificar, neste caso,
valores que se destacam dos demais na apresentação dos valores observados. O Ramo e Folhas
pode ser uma outra alternativa para identificação destes valores. Nos dados abaixo, podemos
observar claramente a não presença de valores extremos.



Resíduos:
Uma alternativa para identificação de valores extremos é a utilização dos resíduos do
modelo estimado, ou seja:

ˆ ij e ij y ij ˆ ij
y

Os procedimentos acima descritos podem ser utilizados, agora não mais com os dados
originais mas sim com os resíduos estimados.
Observando as figuras abaixo podemos observar que, também neste caso, não existe
evidências da existência de algum valor extremo.

Nota:
Diversos autores propõem o uso dos chamados resíduos padronizados no lugar dos
resíduos ordinários acima definidos. Os resíduos padronizados são definidos por:

ˆ ij ˆ ij

Var ˆ ij QME



Figura – Identificando Valores Extremos a partir dos Resíduos Estimados

PROCEDIMENTO ALTERNATIVO;
Considerando que os erros têm distribuição N(0, 2), pode-se esperar que a média
contém aproximadamente 68% dos dados, a média 2 contém aproximadamente 95% dos
dados e a média 3 contém aproximadamente 99% dos dados. Desta forma, podem ser
considerados valores extremos aqueles que forem superiores a 3 .

CONCLUSÃO:
Identificado um valor extremo, usualmente ele é excluído da análise. Porém, na pratica, é
o pesquisador quem deve determinar se um valor extremo pode realmente ser assim considerado.
Pois os valores extremos podem fornecer informações importantes sobre o experimento e
estatisticamente podem demonstrar que uma outra distribuição deve melhor representar o
comportamento dos dados.

5.2.3.2. VERIFICANDO A INDEPENDÊNCIA: (ERROS NÃO CORRELACIONADOS)

A independência dos resíduos, é usualmente avaliada através de um gráfico dos resíduos
vs valores preditos. Na hipótese de ser satisfeita a suposição de independência não deverá existir
nenhum padrão neste gráfico, ou seja, nenhum comportamento não aleatório dos valores
observados.
No exemplo temos:
Figura – Independência



Figura – Situações de Não Independência

NOTAS:
Existindo o registro da ordem de obtenção dos valores, recomenda-se o uso do gráfico dos
resíduos vs a ordem de coleta de forma a verificar algum padrão na resposta e,
conseqüentemente uma dependência entre as observações.

5.2.3.3 VERIFICANDO A NORMALIDADE:

A suposição de normalidade dos resíduos pode ser verificada graficamente ou através de
testes. Graficamente é usualmente utilizado o gráfico normal probabilístico e os testes mais
utilizados e implementados em softwares são: Teste de Shapiro-Wilk, Anderson-Darling,
Kolmogorov-Smirnov, Cramer-von Mises, Liliefors.
O gráfico de probabilidade e um método para determinar se os dados da amostra (erros
estimados, nessa situação) seguem uma distribuição hipotética, baseada no exame visual dos
dados. O procedimento geral e muito simples e pode ser feito rapidamente. Gráfico de


probabilidade usa tipicamente um papel gráfico especial, conhecido como papel de probabilidade,
que tem sido projetado para a distribuição hipotética. A papel de probabilidade e largamente
disponível para as distribuições normal, lognormal, Weibull e varias distribuições quadrado e
gama. Softwares estatísticos atualmente substituem o uso destes papéis, necessários durante
longo tempo.
Para construir um gráfico de probabilidade, as observações na amostra são primeiro ordenadas
da menor para a maior. Ou seja, a amostra X1., X2, .. .'Xn e arrumada como x(1),x(2) ...,x(n) em
que x(I) é a menor observação, X(2) e a segunda menor observaçao e assim por diante, com x(n)
sendo a maior. As observações ordenadas Xa(U) sao então grafadas contra suas freqüências
cumulativas observadas (j - 0,5)/n em um papel apropriado de probabilidade. Se a distribuição
hipotética descrever adequadamente os dados, os pontos picotados cairão, aproximadamente, ao
longo de uma linha reta; se os pontos plotados desviarem significativamente de uma linha reta,
então o modelo hipotético não será apropriado. Geralmente, determinar se os dados plotados
seguem ou nao a linha reta e algo subjetivo. O procedimento e ilustrado no seguinte exemplo.

Um Exemplo:
Dez observações sobre o tempo (em minutos) efetivo de vida de serviço de baterias usadas
em um computador pessoal sao: 176,191,214,220,205, 192,201,190, 183,185. Imaginemos que
a vida da bateria seja modelada adequadamente por uma distribuição normal. Para usar o gráfico
de probabilidade de modo a investigar essa hipótese, arranje primeiro as observações em ordem
crescente e calcule suas freqüências cumulativas (j- 0,5)/10 conforme segue.

j X9i) (j - 0,5)/10
1 176 0,05
2 183 0,15
3 185 0,25
4 190 0,35
5 191 0,45
6 192 0,55
7 201 0,65
8 205 0,75
9 214 0,85
10 220 0,95



Os pares de valores x(i) e (j - 0,5)/10 são agora plotados em um papel de probabilidade
normal. Esse gráfico é mostrado na figura abaixo. A maioria dos papeis de probabilidade normal
plotam 100(j - 0,5)/n na escala vertical da esquerda e 100[ 1 - (j - 0,5)/n] na escala vertical da
direita, com o valor da variável plotada na escala horizontal. Uma linha reta, escolhida
subjetivamente, foi desenhada através dos pontos plotados. Desenhando a linha reta, você deve
estar mais influenciado pelos pontos perto do meio do gráfico do que pelos pontos extremos. Uma
boa regra pratica e desenhar a linha aproximadamente entre 0 25.0 e 0 75.0 pontos percentis.
Essa é a maneira como a linha na foi determinada. Na estimação de quão perto os pontos estão
da linha reta, imagine um "lápis grosso" repousando ao longo da linha. Se todos os pontos forem
cobertos por esse lápis imaginário, então distribuição normal descreverá adequadamente os
dados. Uma vez que os pontos na Figura abaixo passaram no teste do "lápis gordo", conc1uimos
que a distribuição normal é um modelo apropriado.

Um gráfico de probabilidade normal pode também ser construído em um papel gráfico normal,
plotando os escores normais padrões Zj contra x(i), em que os escores normais padrões satisfazem:

j 0 .5
P[Z z] (z j )
n
Por exemplo, se (j-0.5)/n = 0.05 então (zj) = -1.64. Para ilustrar, consideremos os dados
do exemplo acima.



j X9i) (j - 0,5)/10 Zj
1 176 0,05 -1.64
2 183 0,15 -1.04
3 185 0,25 -0.67
4 190 0,35 -0.39
5 191 0,45 -0.13
6 192 0,55 0.13
7 201 0,65 0.39
8 205 0,75 0.67
9 214 0,85 1.04
10 220 0,95 1.64

O gráfico normal probabilístico é então dado pela seguinte figura:

Retornando ao exemplo das variedades de milho temos:



Gráfico Normal Probabilístico:
Figura – Gráfico Normal Probabilístico dos Resíduos

Neste gráfico, se os valores observados formarem uma reta, portanto os erros seguem
uma distribuição normal. A maioria dos dados deve também estar concentrada no meio da reta
para satisfazerem a suposição de normalidade. Os valores das caudas da distribuição não devem
ser considerados com tanto rigor, mas sim analisados para se verificar se são valores extremos ou
não.

5.2.3.4. VERIFICANDO A HOMOCEDASTICIDADE:

A suposição de homocedasticidade significa que a variabilidade entre repetições de um
mesmo tratamento deve ser semelhante a dos demais tratamentos. A verificação desta suposição
pode ser feita através do uso de testes ou por meio de análise gráfica.

Testes para Verificação de Homocedasticidade:
Hipóteses:
2 2 2
Ho : 1 = 2 = ... = a
2 2
H1 : i = i para pelo menos i j,

Diferentes testes são propostos na literatura para teste da hipótese acima. Os testes mais
conhecidos são:
a) Teste de Hartley: Exige um mesmo número de repetições entre os tratamentos.



b) Teste de Bartlett: Pode ser utilizado para qualquer número de repetições nos tratamentos.
c) Teste de Cochran: Pode ser utilizado para qualquer número de repetições nos tratamentos.
d) Teste de Levene: Anova para resíduos .

TESTE DE HARTLEY : F máximo
O teste de Hartley também é conhecido como teste do F máximo. A estatística do teste é
dada por:

2
S max
F max
2
S min

onde:

S max = maior variância dentre os “a” tratamentos;
2

S min = menor variância dentre os “a” tratamentos;
2

Fmax é comparado com o valor tabelado para H(g,r-1) da tabela de Pearson e Hartley, onde
g=número de tratamentos e r= número de repetições (mesmo para todos os tratamentos).
Se Fmax > H(g,r-1) rejeita-se H0 e conclui-se que não existe homogeneidade de variância
entre os tratamentos. Caso contrário H0 não é rejeitada.

Análise Gráfica para Verificação da Homocedasticidade:

Box-Plot dos Tratamentos vs Resíduos:

Se existe homocedasticidade, espera-se que os Box-plots seja semelhantes, ou seja,
apresentem um variabilidade muito próxima nas “caixas” dos diferentes tratamentos. Se existe
heterocedasticidade, a variabilidade é diferente entre as caixas. As vezes, a heterocedasticidade
pode ser também um indicio da falta de normalidade.



Figura – Box Plot para Residuos

Problema: Pequenas Amostras.

Gráfico de Dispersão de Resíduos vs Predito:

O gráfico de resíduos vs predito é, no caso de experimentos com um fator (ONEWAY),
semelhante ao gráfico de resíduos vs tratamento. Este não será o caso quando dois ou mais
fatores estiverem envolvidos na análise.
Se existe homocedasticidade, espera-se que os desvios se distribuam de forma homogênea
dentre de um mesmo intervalo. Se os desvios apresentarem variação com diferentes amplitudes,
temos a situação de heterocedasticidade.



Figura – Variância Constante

Situação ideal: A variabilidade é constante, isto é, aproximadamente a mesma nos
diferentes tratamentos.

Figura – Variância não Constante

Situação de não homocedasticidade: A variabilidade cresce a medida que cresce o
valor predito.




Situação de não homocedasticidade: A variabilidade decresce a medida que cresce
o valor predito.


Situação de não homocedasticidade: A variabilidade cresce para valores próximos a
média o valor predito.




Situação de não homocedasticidade: A variabilidade decresce para valores
próximos a média o valor predito.

QUESTÃO:

O que fazer quando alguma das suposições ( normalidade e/ou homocedasticidade)
não são satisfeitas?

O procedimento usualmente nestes casos é o uso de transformações na variável resposta.
O uso de transformações é um artifício matemático com bons resultados quando existe uma
relação entre média e variância (heterocedasticidade regular). Nos demais casos, as
transformações dificilmente apresentam resultados satisfatórios.
Atualmente, novos procedimentos estatísticos são propostos como alternativa ao uso de
transformação dos dados. Além dos já tradicionais procedimentos de métodos não
paramétricos, hoje estão disponíveis, inclusive em todos os softwares mais conhecidos, os
métodos de Modelos Lineares Generalizados, que levam em conta a natureza da distribuição
da variável em estudo.



5 . 2 . 4 . COMPARAÇÕES MULTIPLAS:

5 . 2 . 4 . 1 . INTRODUÇÃO:

A análise estatística de um problema de comparação de “a” médias nem sempre chega ao
seu final com os resultados da tabela da Análise de Variância. Se não rejeitamos H0 não existe
mais nada a ser investigado, porém se rejeitamos Ho estamos concluindo pela evidencia de que
pelo menos dois dos tratamentos em estudo, diferem significativamente. Desta forma é de
interesse prosseguir a análise a fim de se identificar as diferenças entre as médias dos diferentes
tratamentos. Esta continuação da análise é feita através de técnicas estatísticas denominadas
“Comparações Múltiplas”.

Objetivo:
Identificar, quando rejeitamos Ho numa ANOVA, que tratamentos diferem
significativamente.

Proposta:
Estabelecer uma “diferença mínima significativa(d.m.s)” entre duas médias. Toda vez
que o valor absoluto da diferença entre duas médias for maior ou igual d.m.s., as médias são
consideradas estatisticamente diferentes, ao nível de significância estabelecido.
Foram propostas diversas maneiras de estabelecer uma d.m.s. Cada proposta é na
realidade, um teste que, em geral, leva o nome do seu autor. Não existe um procedimento para a
comparação de médias que seja definitivamente o “melhor”. Vários trabalhos são encontrados na
literatura fazendo estudos comparativos dos diferentes métodos que, incluindo-se novas propostas
que freqüentemente são apresentadas. Em geral é possível mostrar a existência de procedimentos
mais eficientes para situações especificas, porém não se mostrou, até hoje, um método que seja
mais eficaz para um caso geral.
Procedimentos gráficos também são propostos, mais como uma forma descritiva de
investigar as diferenças entre tratamentos (ou grupos de tratamentos).

5.2.4.2. TESTE T- TESTE LSD (LEAST SIGNIFICANT DIFFERENCE):



Teste proposto por Fisher que também propos a expressão diferença mínima
significativa (least significant difference). É provavelmente, o teste menos usado.
Características:
A d.m.s. é definida por:

QME
LSD t
,N a
2 (dados balanceados)
2 n

1 1
LSD t QME (dados não balanceados)
,N a ni nj
2

Rejeita-se a igualdade entre dois tratamentos se:

yi . y j. LSD

5.2.4.3. TESTE DE TUKEY:

O teste proposto por Tukey (1953) permite testar qualquer contraste, sempre, entre duas
médias de tratamentos, ou seja, não permite comparar grupos entre si. A d.m.s. é neste caso
definido por:

QME
q (a, f ) (dados balanceados)
n

q (a, f ) 1 1
QME (dados não balanceados)
2 ni nj

onde q é chamada de amplitude total studentizada que depende do número de tratamentos (a) e
do número de graus de liberdade dos erros (f). (tabela encontrada em Montogomery ). O teste
preserva o nivel de significância para todos os contrastes.
Rejeita-se a igualdade entre dois tratamentos se:

yi . y j.

Nota:
O teste de Tukey foi proposto depois do teste t. O autor denominou a diferença mínima
significativa que obteve pelo teste de diferença honestamente significante. Deste fato resulta
que alguns softwares denominam este teste de HSD (honestly significant difference).

5.2.4.4. APRESENTAÇÃO DOS RESULTADOS:



Os resultados de um teste de comparações múltiplas, qualquer que seja o método
utilizado, é usualmente apresentado através de um método de letras, da seguinte forma:
Inicialmente ordena-se as médias de tratamentos em ordem crescente (ou decrescente).
Coloca-se uma letra do alfabeto na primeira média e em seguida compara-se com as médias
seguintes. Se a diferença for superior ao valor da d.m.s. a diferença é considerada significativa e
portanto é atribuída uma outra letra a média que foi comparada.
Ao final temos que médias de tratamentos que não diferem significativamente tem em
comum uma letra enquanto que médias que diferem não tem nenhuma letra em comum.
Consideremos as seguintes situações onde as médias estão ordenadas em ordem
decrescente ( A > C > D > B):

Situações
Tratamentos
Caso 1 Caso 2 Caso 3 Caso 4 Caso 5

A a a a a a
C a b b b a b
D a c c b c b c
B a d c c c

Interpretando:
Caso 1: Situação onde não foi rejeitado H0 na tabela de ANOVA, ou seja, não
existem diferenças entre quaisquer dois tratamentos.
Caso 2: Outra situação extrema, todos os tratamentos diferem entre si.
Caso 3: Temos que A C diferem de todos os tratamentos e D e B são
estatisticamente iguais entre si.
Caso 4: A difere de todos os demais tratamentos, C e D são estatisticamente iguais
mas C difere de todos os demais enquanto que D é também estatisticamente igual
a B.
Caso 5: A é estatisticamente igual a C mas difere dos demais, enquanto que C é
estatisticamente também igual a D e diferente de B. Por sua vez D é
estatisticamente igual a B.

Exemplo das Variedades de Milho:



Diferenças Mínimas Significativas:

QME 7
LSD t 2 2 . 119 * 2* 3 . 547
,N a
2 n 5

QME 7
Tukey q (a, f ) 4 . 04 * 4 . 787
n 5

Variedades y i. Fisher Tukey

A 23 A A
C 26 A B A B
B 27 B A B
D 31 C B

Por exemplo:
C – A = 26 – 23 = 3 < 3.54 = LSD C e A não diferem significativamente
D – A = 31 – 23 = 8 > 3.54 = LSD D e A diferem significativamente e D é superior a A
D – A = 31 – 23 = 8 > 4.78= Tukey D e A diferem significativamente e D é superior a A
..........

Conclusão:

Pelo método de Fisher temos que a Variedades que apresenta maior rendimento são é a D
que é estatisticamente superior as demais. B e C e também A e C São também estatisticamente
iguais.
Pelo método de Tukey D, B e C , B, C e A são estatisticamente iguais. D, B e C apresentam
os melhores rendimentos porém B e C também são iguais a D, logo apenas D e A são
estatisticamente iguais conseqüentemente D seria a variedade recomendada para uso.
Portanto ambos os métodos apontam para uma mesma variedade a ser utilizada.



5.3. EXPERIMENTOS EM BLOCOS ALEATORIZADOS:

5.3.1. INTRODUÇÃO:

Existem situações experimentais onde as unidades experimentais são heterogêneas devido
a presença de uma (ou mais) fonte(s) de variação(ões) conhecida(s) e que pode(m) ser
controlada(s) quando da realização do experimento. Nestes casos o processo de aleatorização
deve ser realizado após o agrupamento das unidades experimentais em subconjuntos
homogêneos. Portanto temos uma restrição no processo de aleatorização, ou seja, a atribuição
dos tratamentos às unidades experimentais deve ser realizada somente após a identificação dos
subconjuntos homogêneos, usualmente chamado de “blocos”. Desta forma, espera-se que exista
uma variabilidade entre unidades experimentais de diferentes blocos, explicada pela fonte de
variação conhecida, e uma homogeneidade (baixa variabilidade) entre as unidades experimentais
de um mesmo “bloco”.
O uso de “blocos” pode também facilitar a condução do experimento. Pode-se por
exemplo, existir uma limitação de tempo para realização do experimento (intervalo de tempo,
dia, semana...) não sendo possível, necessariamente, garantir as mesmas condições experimentais
a cada período. Nestes casos cada período pode ser considerado como um bloco de forma a isolar
a eventuais fontes de variabilidade derivadas do fato de todos experimentos não serem realizados
ao mesmo tempo. .
De acordo com o número de fontes de variabilidade conhecidas que tornam as unidades
homogêneas, temos diferentes tipos de planejamento com restrições na aleatorização.
Uma fonte de Variação Conhecida: Planejamento Aleatorizado em Blocos
Duas Fontes de Variação Conhecidas: Planejamento em Quadrado Latino
Três Fontes de Variação Conhecidas: Planejamento em Quadrado Greco-Latino

5 . 3 . 2 . PLANEJAMENTO ALEATORIZADO EM BLOCOS:

Problema:
As unidades experimentais são heterogêneas devido a presença de uma fonte de
variabilidade conhecida e que pode ser controlada na realização do experimento de forma a se
obter subgrupos homogêneos.

Objetivo:



Agrupar as unidades experimentais em subgrupos homogêneos de forma a manter sob
controle a fonte de variabilidade conhecida garantindo desta forma que os resultados a serem
obtidos serão devidos somente aos efeitos dos tratamentos em estudo.

Exemplo:
Um professor conduziu um experimento cujo objetivo era o de com comparar
quatro diferentes fontes de informação ( A – Jornal; B – Televisão; C – Revistas; D – Rádio). Para
verificar este objetivo, foi escolhido aleatoriamente um conjunto de 24 alunos dentre os quais 12
cursavam a 1a série do ensino médio (Grupo II) e 12 a 6a série do ensino fundamental (Grupo I).
Os alunos foram então divididos em 2 grupos, segundo a série que cursavam e para cada um foi
atribuído aleatoriamente uma fonte de informação. Os alunos tomaram então conhecimento de
certa noticia através da sua fonte de informação sendo então submetidos a um teste de
conhecimento sobre o assunto, cujos resultados são apresentados abaixo:
Fonte de Informação
A B C D
Grupo I 65 56 58 38
69 49 65 30
73 54 57 34

Grupo II 72 73 76 71
79 77 69 65
80 69 71 62

Representação Gráfica:

N o ta s p o r F o n te s d e In fo rm a ç ã o N o ta s p o r G ru p o s d e A lu n o s
85 85

75 75

65 65

55 55
N o ta s
N o ta s

45 45

35 35

25 25
0 1 2 3 4 5 0 1 2 3

F o n te s d e In fo rm a ç ã o G ru p o s d e A lu n o s



N o ta s p o r F o n te s d e In fo rm a ç õ e s e G ru p o s d e A lu n o s
85
2
2
2 2
75 1 2
2
2 2
1 2 2

1 1 2
65 2

1
1
1
1
55
1
N o ta s

45

1

1
35
1

25
0 .5 1 .0 1 .5 2 .0 2 .5 3 .0 3 .5 4 .0 4 .5

F o n te s d e In fo r m a ç ã o

Definições:

Blocos: sub-grupos de unidades experimentais homogêneas
Blocos Completos: em cada bloco podemos ter pelo menos uma unidade experimental
submetida a cada tratamento.
Blocos Incompletos: o número de unidades experimentais é inferior, em um ou mais blocos, ao
número de tratamentos, logo nem todos os tratamentos são aplicados em todos os blocos.
Aleatorização: Processo de atribuição aleatória dos tratamentos às unidades experimentais
dentro de cada bloco.

Importante:

Um bloco deve ser entendido como uma restrição a aleatorização. Se não
for considerado este principio, ele provavelmente deve ser um outro fator e
deve ser tratado como tal, ou seja, como um experimento fatorial (próximo
capítulo).



5.3.2.1. ANÁLISE ESTATÍSTICA:

Consideremos um experimento onde se deseja comparar “a” tratamentos sujeito à
unidades experimentais heterogêneas segundo uma fonte de variação com “b” possíveis situações.

“a” tratamentos e “b” blocos.

Blocos
Tratamentos
1 2 … B
1 y111 y112 y121 y122 ... y1b1 y1b2
y113 y114 y123 y124 y1b3 y1b4

…. …… …… …… …..

a ya11 ya12 ya21 ya22 ... yab1 yab2
ya13 ya1n ya23 ya2n yab3 yabn

Onde:
yijk : i = 1, 2, ..., a tratamentos
j = 1, 2, ..., b blocos
k = 1, 2, ...,nij unidades experimentais por tratamentos em cada bloco.

Observação: Se nij é o mesmo ( =n ) para todo i e j temos experimento balanceado.
Neste caso
na : número total de unidades experimentais por blocos
nab : número total de unidades experimentais no experimento
nb : número de unidades experimentais que receberam cada tratamento.

Simplificação (Caso Usual):
Consideremos a situação em que existe somente uma unidade experimental submetida a
cada tratamento em todos os blocos, isto é, n = 1 N = ab.



Modelo:

yij = + i + j + ij

: efeito comum que independe de blocos ou tratamentos
i : efeito de tratamentos; i = 1, ..., a
j: efeito de blocos; j = 1, ..., b
ij : Erros aleatórios

Estimadores :
ˆ y ..

ˆi yi . y ..

ˆ
βj y.j y ..

ˆ ij
y ˆ ˆi ˆ
J

y .. yi . y .. y.j y ..

yi . y.j y ..

Teste de Hipóteses:

Modelo:
yij = + i + j + ij

Problema:
 Verificar a igualdade de tratamentos.

Ho : i 0 i
Hipótese de interesse:
H1 : i 0 para pelo menos um i

Partição da Soma de Quadrados (n=1):
2
a b a b
2
y ij y .. y yi . yi . y.j y.j y .. y y ..
ij ..
i 1j 1 i 1j 1

a b
2
yi . y .. y.j y .. y yi . y.j y ..
ij
i 1 j 1

.......... ...
2
a b a b
2 2
b yi . y .. a y.j y .. y ij yi . y.j y ..
i 1 j 1 i 1 j 1



ou seja:
SQT = SQModelo + SQE
= SQTr + SQBloco + SQE

Graus de liberdade: (n=1)

Total: N – 1 ( N = nab = ab) tratamentos: a – 1
blocos: b – 1
erro: (a – 1) (b – 1)

Esperança dos Quadrados Médios
2
E (QME) =
a
2
b i
2
E (QMT) = + i 1
a 1
a
2
a i
2 i 1
E (QMB) = +
b 1

2
Sob Ho E (QME) = E (QMT) = E(QMB) =

Tabela de ANOVA:
ANOVA GL SQ QM

Modelo a+b–2 SQM -
. Blocos b–1 SQB SQB/b-1
. Tratam. a–1 SQTr SQTr/a-1
Erro (a – 1) (b – 1) SQE SQE/(a-1)(b-1)

Total N-1

Estatística de Teste:

QMT
Fc
QME

2
Sob a hipótese ij ~ N (0, )


Fc ~ Fa-1,(a-1)(b-1)

E, rejeita-se H0 se Fc > Ft

 Verificar a igualdade de blocos.
Quando os blocos controlam uma causa de variação conhecida, o teste de efeitos de blocos
é totalmente desnecessário. A definição do experimento com uma estrutura de blocos é devido ao
fato de que é conhecida a variabilidade existente nas unidades experimentais em função das
características que definem os blocos
Entretanto, o pesquisador, às vezes, organiza blocos para controlar uma fonte de variação
sobre a qual tem duvidas sobre a sua significância. Nestes casos depois de realizado o
experimento, deseja-se verificar a diferença entre blocos, pois assim conclusões poderão ser
tomadas de forma a contribuir no planejamento de experimentos futuros.

Neste caso, a hipótese a ser testada é dada por:
Ho : j= 0 j
H1 : j 0 para pelo menos um j
Temos que sob Ho
2
E (QME) = E (QMB) =

Logo:

* QMB
Fc ~ F b 1 ,( a 1 )( b 1 )
QME

e rejeita-se H0 se: F c* F b 1 ,( a 1 )( b 1 )

Se os pressupostos que levaram a fixar a estrutura de blocos estão corretos, o teste F*
deve ser sempre significativo, ou seja, deve verificar a informação de diferença entre as unidades
experimentais (olhar direto para o teste F para tratamentos e na para blocos).

Importante:
Os experimentos em blocos ao acaso são feitos essencialmente para comparar
tratamentos. Alguns autores aconselham até a não calcular o valor de F para blocos porque, como
os tratamentos são aleatorizados dentro dos blocos e os blocos são definidos de forma não
aleatória. O teste F para blocos é, portanto, inadequado.



Adequabilidade do Modelo:
Devem ser utilizados os mesmos procedimentos vistos para o caso de um único fator,
devendo no entanto o gráfico de resíduos ser utilizado nas seguintes alternativas:
- Gráfico de resíduos x predito
- Gráfico de resíduos x tratamentos
- Gráfico de resíduos x blocos

Continuação do Exemplo:
Duas Situações Ajuste do Modelo sem e com Blocos:

Modelo sem Bloco:


Model 3 1668.000000 556.000000 4.10 0.0203

Error 20 2714.000000 135.700000




R-Square Coeff Var Root MSE Nota Mean

0.380648 18.49053 11.64903 63.00000


Fonte 3 1668.000000 556.000000 4.10 0.0203

Modelo com Blocos:


Model 4 3612.000000 903.000000 22.28 <.0001

Error 19 770.000000 40.526316


R-Square Coeff Var Root MSE Nota Mean

0.824281 10.10481 6.366028 63.00000


Bloco 1 1944.000000 1944.000000 47.97 <.0001

Fonte 3 1668.000000 556.000000 13.72 <.0001



Tukey's Studentized Range (HSD) Test for Nota

NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than
REGWQ.

Alpha 0.05

Error Degrees of Freedom 19

Error Mean Square 40.52632

Critical Value of Studentized Range 3.97655

Minimum Significant Difference 10.335

Means with the same letter are
not significantly different.

Tukey Grouping Mean N Fonte

A 73.000 6 Jornal

A 66.000 6 Revistas

A 63.000 6 Televisão

B 50.000 6 Rádio


Ipaee capitulo5

Recommandé

Recommandé

Contenu connexe

Plus de Dharma Initiative

Plus de Dharma Initiative (20)

Dernier

Dernier (20)

Ipaee capitulo5