1) O documento apresenta os conceitos básicos de estatística descritiva, incluindo medidas de posição, organização de dados e distribuição de frequências.
2) Inclui definições de população, amostra, variáveis, tabelas, séries estatísticas e métodos de agrupamento de dados em intervalos de classe.
3) Fornece exemplos detalhados para ilustrar cada conceito apresentado.
1. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
Grupo 1 – Estatística Descritiva
1. Conceitos 3.1 Média aritmética; Propriedades da média;Cálculo Simplificado da
1.1 População; média;
1.2 Amostra; 3.2 Mediana;
1.3 Censo; 3.3 Moda;
1.4 Experimento aleatório; 3.4 Médias geométrica e harmônica.
1.5 Variáveis e atributos;
1.6 Variáveis aleatórias discretas e contínuas; 4. Medidas de Dispersão
1.7 Normas para apresentação tabular de dados. 4.1 Amplitude;
4.2 Desvio médio;
2. Organização de Dados Estatísticos 4.3 Variância absoluta;
2.1 Quadros e tabelas; 4.4 Propriedades da variância;
2.2 Distribuição de freqüências; 4.5 Cálculo simplificado da variância;
2.3 Intervalos de classe; 4.6 Desvio padrão;
2.4 Ponto médio; 4.7 Variância relativa e coeficiente de variação.
2.5 Freqüências absolutas e relativas;
2.6 Freqüências acumuladas; 5. Exercícios de Fixação
2.7 Gráficos: barras, colunas, histogramas e polígonos de freqüências.
6. Exercícios das Provas anteriores _ ESAF
3. Medidas de Posição.
1. Conceitos - Título é a indicação que precede a tabela e que contém a
1.1 População - É a coleção completa de todos os indivíduos a serem designação do fato observado, o local e a época em que foi registrado.
estudados. - Corpo é o conjunto de colunas e linhas que contém
respectivamente, em ordem horizontal e vertical, as informações sobre o
1.2 Amostra – É uma subcoleção de elementos extraídos de uma fato observado. Uma Casa é o cruzamento de uma coluna com uma linha.
população. As razões de se recorrer a amostras são: menor custo e As casas não deverão ficar em branco, apresentando sempre um número ou
tempo para levantar dados; melhor investigação dos elementos um sinal convencional.
observados. - Cabeçalho é a parte superior da tabela que especifica o conteúdo
das colunas.
1.3 Censo – É o exame completo de toda população. Quanto maior a - Coluna indicadora é a parte da tabela que especifica o conteúdo
amostra mais precisas e confiáveis deverão ser as induções feitas da linha.
sobre a população. Os resultados mais perfeitos são obtidos pelo
Censo. Obs.:
1.4 Experimento aleatório - É aquele que mesmo garantindo as 1) Uma tabela pode Ter mais de uma coluna indicadora
condições iniciais é impossível prever com certeza o resultado do 2) Os elementos complementares de uma tabela estatística são: a fonte, as
mesmo. notas e as chamadas, e se situam de preferência no rodapé da tabela.
1.5 variável e atributo– Variável é qualquer característica de um . Fonte é a indicação da entidade responsável pelo fornecimento
indivíduo. Quando os dados estatísticos apresentam um caráter dos dados ou pela sua elaboração.
qualitativo, o levantamento e os estudos necessários ao tratamento . Notas: são informações de natureza geral, destinadas a
desses dados são designados genericamente de estatística de atributo, tal conceituar ou esclarecer o conteúdo das tabelas, ou a indicar a metodologia
como, sexo,escolaridade, etc. adotada na elaboração dos dados
1.6 Variáveis aleatórias (VA) - São funções que associam valores . Chamadas: São informações de natureza específica sobre
numéricos a resultado de experimentos aleatórios; determinadas partes da tabela, destinadas a conceituar ou esclarecer dados;
1.6.1 Va's discretas - São aquelas que assumem um numero finito são indicadas no corpo da tabela em algarismos arábicos, entre parênteses, à
ou infinito e enumerável de valores. Praticamente podemos esquerda nas casas e à direita na coluna indicadora. A numeração das
pensar na variáveis aleatórias discretas como funções que chamadas da tabela será sucessiva, de cima para baixo e da esquerda para a
associam resultado de experimentos aleatórios a números direita. A distribuição das chamadas no rodapé na tabela obedecerá à
inteiros. Todas as variáveis aleatórias associadas a contagem ordem de sua sucessão na tabela, separando-se uma das outras por ponto (.).
são discretas. As chamadas de uma tabela que ocupe mais de uma página devem figurar
1.6.2 Va's contínuas - São aquelas que assumem uma quantidade no rodapé da tabela da última página, de acordo com a sucessão da mesma.
não-enumerável de valores. Para efeitos práticos aquelas que
podem assumir valores num sub-conjunto dos reais. Todas 1.7.3 Sinais Convencionais
as variáveis associadas à medidas que dependam da precisão
de um instrumento são contínuas. - (traço), quando o dado for nulo;
1.7 Normas para apresentação tabular de dados - Normas para ... (três pontos), quando não se dispuser do dado
Apresentação Tabular da Estatística Brasileira. Resolução N° 886, de 26 X (letra x), quando o dado for omitido a fim de evitar a individualização das
de outubro de 1966. (Pontos Principais) informações
1.7.1 Definição – É um conjunto de técnicas que visa: organizar e
sumarizar a informação contida nos dados.
Para este fim utiliza-se TABELAS e GRÁFICOS (organização) e 1.7.4 Apresentação das Tabelas
MEDIDAS (de centralidade e de dispersão p/ sumarização). - As tabelas, excluídos os títulos, serão delimitadas, no alto e em baixo, por
1.7.2 TABULAÇÃO: Uma tabela estatística compõe-se de traços horizontais grossos, preferencialmente.
elementos essenciais e elementos complementares. Os elementos
essenciais de uma tabela estatística são: o título, o corpo, o cabeçalho e
a coluna indicadora. Exemplo
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 1
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
2. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
(Título)
Pessoal Docente Lotado na Universidade X Número de Emissoras de Rádio nas Grandes
Por categoria funcional e formação acadêmica Regiões do Brasil
1976 1980
Grandes Regiões Quantidade de Rádios
Categoria Funcional Norte 43
Formação Auxiliar de Total
Acadêmica Titular Adjunto Assistente Ensino Nordeste 215
Graduação 10 30 25 9 74 Sudeste 517
Especialização - ... 1 31 4 Sul 403
Aperfeiçoamento 5 4 3 1 13 Centro-Oeste 85
Mestrado 1 - 2 4 7
Doutorado (1) (2) 5 (3) 3 2 - 10 Brasil 1.263
Fonte: SEEC – ME/IBGE.
Total 21 37 33 17 108
Fonte: Serviço de Estatística da Educação e Cultura c) Séries Específicas (ou de Qualidade)
(1) Com e sem curso de mestrado São aquelas em que o “ONDE” (local) e o “QUANDO” (tempo) são fixos
(2) Protegido pela Lei n° 5.540 variando-se o “QUE” (fato) em subgrupos de características próprias.
(3) Livres Docentes
Exemplo
2. Organização de Dados Estatísticos Matrículas no ensino 3° Grau no Brasil
2.1 Quadros e tabelas (Séries Estatísticas) 1983
São assim chamadas as tabelas estatísticas nas quais existe um Áreas de Ensino Matrículas
critério distintivo de agrupamento. São elas:
a) Séries Cronológicas; Ciências Biológicas e Prof. De Saúde 180.176
b) Séries Geográficas;
c) Séries Específicas; Ciências Exatas e Tecnológicas 334.694
d) Séries Conjugadas.
Ciências Agrárias 38.181
a) Séries Cronológicas (ou temporais)
Neste tipo de série o “QUE” (fato) e o “ONDE” (local) permanecem fixos, Ciências Humanas 761.367
enquanto o “QUANDO” (tempo varia), ou seja a informação varia com a
variação do tempo.
Letras 94.618
Ex:
Evolução da Demanda de Vestibulandos
Artes 24.612
Brasil – 1978 – 1982
Anos Inscritos Fonte: SEEC – IBGE
1978 1.250.537
d) Séries Conjugadas (ou mistas)
1979 1.559.097
São assim classificadas as séries que combinam pelo menos duas das séries
1980 1.803.5674 anteriores.
1981 1.735.457
1982 1.689.249 Exemplo:
Receita do Município “X”
Fonte: CODE INF/SESU/Ministério da Educação. 1983 – 1986
Receita ($ 1000)
OBS – Aqui o “QUE”, Demanda de Vestibulandos, permanece fixo, bem como o
“ONDE”, no caso o Brasil. Mas a informação muda com o tempo. Anos Prevista Arrecadada
83 10.746.393 10.739.487
Exemplo
N° de Computadores Vendidos no Estado X 84 24.891.790 19.374.275
1° Semestre de 1986 85 52.913.762 60.721.847
Meses N°
Jan 25.000 86 79.648.844 90.757.069
Fev 26.000 Fonte: Secretaria de Economia e Finanças
Mar 340.000
Abr 350.000 OBS – As informações variam em dois sentidos: por ano (vertical) e por
Mai 190.000 especificação do fato observado (horizontal – Receita Prevista e Receita Arrecadada).
Jun 220.000 2.2 Distribuição de Freqüência
Fonte: XXXXXX
b) Séries Geográficas (ou de Localização) a) Tabela primitiva - elementos da variável ainda não foram
Nestas séries o elemento variável é o “ONDE” (local) enquanto o “QUE” numericamente organizados
(fato) e o “QUANDO” (tempo) permanecem constantes. Ex:
Exemplo
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 2
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
3. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
Total de pontos (acertos) obtidos por 40 alunos em um teste de 175 Em nosso exemplo k = 6
questões
166 160 161 150 162 160 165 167 164 160 - Limites da classe: são os extremos de cada classe.
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164 Limite superior Li Limite inferior li
154 161 156 172 153 157 156 158 158 161 O símbolo:
li I------------- Li significa inclusão de li e exclusão de Li
b) Rol - é a tabela primitiva ordenada (crescente ou decrescente).
Ex: li = 154 e Li= 158
150 154 155 157 160 161 162 164 166 169 - Amplitude de um intervalo de classe (h) é a medida do intervalo que
151 155 156 158 160 161 162 164 167 170 define a classe
152 155 156 158 160 161 163 164 168 172
153 155 156 160 160 161 163 165 168 173 h = Li - li h2 = 154-158 = 4
c) Agrupamento das frequências - Amplitude total da distribuição (AT) é a diferença entre o limite
Com isso pode-se construir uma tabela denominada Distribuição de superior da ultima classe (limite superior máximo) e o limite inferior da
Freqüência, sendo a freqüência o numero de elementos relacionados a um primeira (limite inferior mínimo).
determinado valor da variável.
Ex: AT = L(max) - l (min)
Ponto Freqüência Pontos Freqüência Pontos Freqüência AT = 174 - 150 = 24
s
150 1 158 2 167 1
Deve-se notar que AT/h = k 24/4 = 6
151 1 160 5 168 2
152 1 161 4 169 1
153 1 162 2 170 1 - Amplitude amostral (AA) : é a diferença entre o valor máximo e o valor
154 1 163 2 172 1 mínimo da amostra
155 4 164 3 173 1
156 3 165 1 AA = x(máx) - x(mín) AA = 173-150 = 23
157 1 166 1 total 40
2.4 Ponto médio de uma classe (xi) : é o ponto que divide o intervalo de
classe em duas partes iguais
xi = (li+Li)/2 x2 = (154+158)/2 = 156
2.5 Frequências
Freqüência simples ou absoluta: é o número de observações
correspondentes a essa classe ou a esse valor
f1 = 4 f2 = 9 f3 = 11 f4 = 8 f5 = 5 f6 = 3
Para uma melhor visualização e economia de espaço, agrupam-se os k 6
valores em intervalos de classe.
Ex: ∑ fi = n ∑ f i = 40
Total de pontos (acertos) obtidos em um teste de 175 i= 1 i= 1
questões por 40 alunos
Total de pontos Freqüência Exercício: .As notas obtidas por 50 alunos de uma classe foram:
150 |- 154 4
154 |- 158 9 1 2 3 4 5 6 6 7 7 8
158 |- 162 11 2 3 3 4 5 6 6 7 8 8
162 |- 166 8 2 3 4 4 5 6 6 7 8 9
166 |- 170 5 2 3 4 5 5 6 6 7 8 9
170 |- 174 3 2 3 4 5 5 6 7 7 8 9
Total 40
Complete a distribuição de freqüência abaixo
Para a confecção dessa tabela pode-se pular o passo anterior, ou seja, do rol
já partir para a tabela de distribuição de freqüências com intervalos de i Notas xi fi
classe.
0 |- 2
2.3 Intervalos de Classe 2 |- 4
4 |- 6
- Classes de freqüência: são os intervalos de variação da variável, 6 |- 8
representados por i, 8 |- 10
sendo i = 1,2,3,4,...,k, onde k é o número total de classes.
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 3
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
4. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
Total 50 2) Qual a percentagem de alunos com total de pontos inferior a 154?
Resp. 10%
3) Quantos alunos acertaram menos que 162 questões ? Resp. 24 alunos
- Freqüência Simples ou Absoluta (fi) : é o valor que representa o número 4) Quantos alunos obtiveram um total de pontos não inferior a 158? Resp.
de dados de uma classe, onde : 40-13 = 27 alunos
k
∑ fi = n II- Os resultados de um lançamento de um dado 50 vezes foram os
seguintes:
i= 1
6 5 2 6 4 3 6 2 6 5
- Freqüência Relativa (fri): é a porcentagem entre a freqüência simples e a
freqüência total: 1 6 3 3 5 1 3 6 3 4
5 4 3 1 3 5 4 4 2 6
fi
fri = k
⋅ 100[ %] 2 2 5 2 5 1 3 6 5 1
5 6 2 4 6 1 5 2 4 3
∑ fi
i= 1
No exemplo: fr3 = 11/40 = 0,275 x 100 = 27,5 % i resultados fi fri Fi Fri
k 1 1
É obvio que: ∑ fri = 100% 2
3
2
3
i= 1 4 4
5 5
O propósito das freqüências relativas é o de permitir a análise e facilitar 6 6
comparações. Total 50 100
- Freqüência Acumulada (Fi): é o total das freqüências de todos os valores Exercício: Complete a tabela abaixo e responda:
inferiores ao limite superior do intervalo de uma dada classe.
k i
Horas de estudo por
xi fi fri Fi Fri
Fk = f1 + f 2 + f 3 + + f k ou Fk = ∑ fi semana
i= 1 1 0 |- 5 5
No exemplo F3 = f1 + f2 + f3 = 4+9+11=24, o que significa que existem 24
alunos com estatura inferior a 162 cm (limite superior do intervalo da 2 5 |- 10 96
terceira classe)
3 10 |- 15 57
- Freqüência Acumulada relativa (Fri): é a porcentagem entre a freqüência
relativa acumulada da classe e a freqüência total da distribuição.
4 15 |- 20 25
Fi
Fri = k
⋅ 100[ %]
5 20 |- 25 11
∑ fi
i= 1 6 25 |- 30 6
No exemplo temos Fr3 = 24/40 = 0,6 = 60 %, o que significa que 60 % dos
Total 100
alunos acertaram menos de 162 questões
Pode-se então montar a seguinte tabela: Qual a porcentagem de pessoas que estudam menos de 15 horas ?
i Total de Pontos xi fi fri (%) Fi Fri (%)
Qual a porcentagem de pessoas que estudam 20 ou mais horas ?
1 150 |- 154 152 4 10,00 4 10,00
2 154 |- 158 156 9 22,50 13 32,50
3 158 |- 162 160 11 27,50 24 60,00
4 162 |- 166 164 8 20,00 32 80,00
5 166 |- 170 168 5 12,50 37 92,50
6 170 |- 174 172 3 7,50 40 100,00
Total 40 100,00
I- Exercícios
Que nos ajuda a responder:
1) Quantos alunos acertaram entre 154, inclusive, e 158 questões ? Resp.
9 alunos
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 4
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
5. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
2.7 Gráficos: Representação Gráfica de uma Distribuição de Freqüência 45
Pode-se ser representado basicamente por um histograma, por um
40
polígono de freqüência ou por um polígono de freqüência acumulada.
35
- Histograma: O histograma é formado por um conjunto de retângulos 30
justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo 25
F
que seus pontos médios coincidam com os pontos médios dos intervalos de 20
classe. Seja o exemplo: 15
10
i Total de Pontos xi fi Fi
5
1 150 |- 154 152 4 4
0
2 154 |- 158 156 9 13
150 154 158 162 166 170 174
3 158 |- 162 160 11 24
Estaturas [cm]
Total de pontos
4 162 |- 166 164 8 32
5 166 |- 170 168 5 37
Exercício - Construa o histograma, o polígono de freqüência e o polígono
6 170 |- 174 172 3 40
de freqüência acumulada da seguinte distribuição.
Total 40
Total de Faltas de uma
i xi fi Fi
Histograma
sala com 60 alunos
12 0
10 1 0 |- 2 5
8 2 2 |- 4 15
Frequências fi
6 3 4 |- 6 25
4 4 6 |- 8 10
2
5 8 |- 10 5
0
150 150 |- 154 154 |- 158 158 |-162 162 |- 166 166 |- 170 170 |- 174
154 158 162 166 170 174 6
TotalEstaturas (cm)
de Pontos
- Polígono de freqüência: É um gráfico em linha, sendo as freqüências - Gráfico linear
marcadas sobre perpendiculares ao eixo horizontal, levantadas pelos pontos Exemplo: Um pesquisador está estudando a população de um dado país e
médios dos intervalos de classe. obtém os seguintes dados:
12
População
Ano
10 (em milhões)
1990 100
8 1991 108
1992 115
6
f
1993 125
4
1994 137
2 O gráfico linear para esses dados é:
0
148 152 156 160 164 168 172 176 Gr áfico Line ar
Estaturas [cm]
Total de Pontos
- Polígono de freqüência acumulada: É traçado marcando-se as 140
freqüências acumuladas sobre perpendiculares ao eixo horizontal,
levantadas nos pontos correspondentes aos limites superiores dos intervalos 130
de classe. 120
110
100
90
1990 1991 1992 1993 1994
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 5
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
6. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
OBS Pedagogia 20
O gráfico linear tem o mesmo
Temos o seguinte gráfico de colunas justapostas para o nosso exemplo
comportamento do polígono de freqüências
mas serve para representar dados que não
são freqüências. Gráfico de Colunas Jus tapos tas
O gráfico linear é muito bom quando se
que enfatizar tendências; 80 70
Mais de uma série pode ser representada
60 50
no mesmo gráfico. Para tanto deve-se
observar: 40 30
20
1. Compatibilidade dos eixos;
20
2. A utilização de cores ou padrões para enfatizar as linhas
3. A utilização de legendas. 0
A m is ç o
d in tra ã A á ed
n lis e D ito
ire Pd gg
e a o ia
S te a
is ms
Exemplo: Suponhamos uma empresa com a seguinte evolução financeira
Ano Receita Despesa
OBS
(x 1000) (x 1000)
1998 100 80
o Os gráficos de colunas justapostas
1999 110 100
podem vir com as colunas coladas
2000 120 120 ou com intervalos regulares entre
2001 130 140 elas;
o Pode-se colorir o gráfico colocando
uma cor em cada coluna ou ainda
Gráfico Linear para Dados
um padrão de preenchimento para
Multivariados cada coluna. Neste caso pode ser
necessária uma legenda;
o Todo raciocínio anterior é válido
150
140 para os gráficos de barras lembrando
130 que nesse caso a base do retângulo
120 está no eixo vertical, como abaixo
110
100
90
80 Gr áfico de Barr as Jus tapos tas
70
1998 1999 2000 2001
Pd gg
e a o ia 20
D ito
ire 70
- Gráfico de Colunas ou Barras A á ed S te a
n lis e is ms 30
Os gráficos de colunas ou barras são gráficos que, assim como o A m is ç o
d in tra ã 50
histograma, representam a magnitude dos dados pela área do retângulo.
Os retângulos têm um lado fixo e, portanto, a magnitude dos dados é 0 20 40 60 80
representada pela outra dimensão.
Quando os retângulos estão em posição vertical diz-se que temos gráfico de
colunas, caso em posição horizontal diz-se que temos gráficos de barras.
Todas as observações feitas para os gráficos de colunas valem para os
gráficos de barras, respeitada a orientação particular. - Gráficos de Colunas para Séries Multivariadas
Em geral os gráficos de barra podem representar qualquer série , mas são
particularmente importantes para séries específicas. Estes gráficos são utilizados para representar dados onde para cada objeto
observado existe mais de uma fonte de informação. Este gráfico é uma
Gráficos de colunas justapostas generalização do gráfico de colunas justapostas e, portanto, segue o mesmo
tipo de regra de formação.
São gráficos em que a base do retângulo representa uma categoria (tipos,
datas etc) e que a altura do mesmo é proporcional à magnitude dos dados. Exemplo: Suponha que o MEC fez um levantamento de dados sobre o
número de alunos nos cursos de Administração, Direito, Pedagogia e Letras
Exemplo: Em uma universidade foi feito um levantamento sobre o número em quatro universidades de uma mesma cidade obtendo a seguinte série:
de alunos inscritos por curso obtendo-se:
Curso
Administração Direito Pedagogia Letras
Curso Nº alunos Universidade
Administração 50 A 100 150 70 50
Análise de Sistemas 30 B 80 90 30 40
Direito 70 C 90 80 20 20
D 120 150 80 60
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 6
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
7. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
Uma representação gráfica para esses dados é a seguinte 5 + 6 + 10 + 8 + 7 + 6
A média para esse exemplo é: = 7.
6
Gráficos para Séries Multivariadas Quando temos dados agrupados a média é calculada como sendo:
160 X=
∑ x j Fj
140 n
120 Universidade A onde
100 n – nº de observações;
Universidade B xj – valor das observações (caso discreto) ou ponto médio das classes
80
60 Universidade C (caso contínuo);
Fj – Freqüência absoluta das observações (caso discreto)
40 Universidade D ou das classes
20
(caso contínuo).
0
Administração Pedagogia Exemplo: Suponha a seguinte tabela de freqüências para dados
discretos
OBS Ocorrências Fj
0 2
No gráfico de séries multivariasdas uma 2 3
noção muito clara tem que ser a de classes 3 5
distintas. Deve estar claro para o leitor onde 4 4
começa e onde termina a informação sobre
cada classe. Isso se consegue colocando um Neste caso a média é calculada como:
espaço vazio separando-as.
Dentro da mesma classe as colunas podem vir 0 x 2 + 2 x3 + 3 x5 + 4 x 4
= 2,64
juntas ou separadas. Se vierem separadas a 2+ 3+ 5+ 4
distância entre elas deve ser visivelmente
menor que o espaço entre as classes, de modo Exemplo: Suponha a seguinte tabela de freqüências para dados
que não haja confusão na leitura da contínuos
informação;
As colunas devem seguir a mesma ordem em Classes Fj Ponto médio
cada classe. Cada coluna deve apresentar uma 0 |----- 2 1 1
cor e/ou padrão de preenchimento diferente, 2 |----- 4 3 3
constantes em cada classe, e uma legenda 4 |----- 6 4 5
deve ser associada ao gráfico, de modo a 6 |----- 8 2 7
facilitar a transmissão de informações.
3. Medidas de Posição. Neste caso a média é dada por
a) Medidas de Centralidade (média, mediana e moda) e 1x1 + 3 x3 + 5 x 4 + 7 x 2
= 4,4
b) Separatrizes (mediana, quartil, decil e percentil) 1+ 3 + 4 + 2
1.2. Cálculo Simplificado da Média Aritmética
a) As medidas de centralidade que vamos estudar são:
Média Quando os valores dos dados estão separados por um valor constante (caso
Mediana discreto) ou quando temos classes do mesmo tamanho (caso contínuo) e os
Moda as ocorrências (caso discreto) ou os pontos médios das classes (caso
contínuos) são muito grandes para se usar o cálculo tradicional pode se usar
1. Média o método simplificado de cálculo que consiste nos seguintes passos:
1.1. Média Aritmética
A média aritmética é definida, para dados não agrupados, ou seja que não Calcula-se um novo ponto de referência definido
vêem organizados em uma tabela de freqüência como sendo: como:
x j − x0
∑ xj uj =
j h
X= onde
n
onde xj – valor das ocorrências (caso discreto) ou ponto médio
n – nº de observações (caso contínuo);
xj – valor das várias observações x0 – valor constante escolhido arbitrariamente entre as ocorrências (caso
discreto) ou pontos médios (caso contínuo). A idéia é escolhê-lo o mais
Exemplo: Suponha os seguintes dados: 5, 6, 10, 8, 7, 6 próximo possível dos valores centrais;
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 7
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
8. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
h – diferença entre duas ocorrências consecutivas (caso discreto) ou dois 15 + 23
pontos médios consecutivos (caso contínuo). 5ª propriedade
Calcula-se média para os novos valores de referência A soma dos quadrados dos afastamentos contados a partir da média aritmética é
um mínimo.
(uj) calculados;
Calcula-se a média procurada utilizando a seguinte
Idades ( xi ) di = (xi – x) ∑ di2 = ∑ (xi – x)2
expressão: 2 d1 = 2 – 6 = -4 (– 4)2 = 16
X = hu + x0 4 d2 = 4 – 6 = -2 (– 2)2 = 4
6 d3 = 6 – 6 = 0 ( 0)2 = 0
8 d4 = 8 – 6 = +2 ( +2)2 = 4
Exemplo: Dada a tabela de freqüências abaixo calcule a média 10 d5 = 10 – 6 = +4 ( +4)2 = 16
∑ 0 40
Classes Fj Ponto uj De modo que: ∑ (xi – x)2 = 40 sendo este valor o menor possível. Isso significa que,
médio se tomássemos outro valor que não a média (x), o resultado dessa operação seria
20 |----- 22 2 21 -1 maior que o obtido.
22 |----- 24 5 23 0
24 |----- 26 4 25 1 6ª propriedade
26 |----- 28 1 27 2 A média aritmética é atraída pelos valores extremos.
Considere os valores originais:
Para este exemplo temos: x0 = 23, h = 2 xi : 2, 4, 6, 8, 10 → x = 6
Assim
− 1x 2 + 0 x5 + 1x 4 + 1x 2 Se o primeiro valor xi for alterado para 0:
u= = 0,4
10 xi : 0, 4, 6, 8, 10 → x = 5,6
Se o último valor xi for alterado para 12:
X = 0,4 x 2 + 23 = 23,80 xi : 2, 4, 6, 8, 12 → x = 6,4
1.3. Média Harmônica
A média harmônica é definida como
2. Mediana (Md)
n A mediana é a medida estatística que deixa 50% dos valores abaixo de si e
Mh = 50% acima. Temos dois processos para achar a mediana: um para dados não
Fj
∑ xj
agrupados e outro para dados agrupados.
1.4. Média Geométrica 2.1. Mediana para dados desagrupados.
A média geométrica é definida como Número ímpar de valores
Quando tivermos dados não agrupados e o número de observações for
F ímpar seguimos o seguinte processo.
Mh = n
∏ xj j
1.5. Relação entre as médias Ordenamos os dados em ordem crescente,
n + 1
Calculamos o termo de ordem º ,
Mh ≤ Mg ≤ X 2
A mediana será o valor colocado nessa posição.
Propriedades das médias
Exemplo: 1, 5, 2, 3, 4, 7, 5, 8, 1
1ª propriedade
A soma algébrica dos desvios em relação à média é zero (nula). Ordenando os dados: 1, 1, 2, 3, 4, 5, 5, 7, 8
∑ di = ∑ (xi - x ) = 0 O termo que queremos tem ordem [(9+1)/2]º = 5º
onde: di são as distâncias ou afastamentos da média.
Logo Md = 4
2ª propriedade
Somando-se ou subtraindo-se uma constante (c) a todos os valores de Número par de valores
uma variável, a média do conjunto fica aumentada ou diminuída dessa constante
3ª propriedade Quando tivermos dados não agrupados e o número de observações for par
Multiplicando-se ou dividindo-se todos os valores de uma variável por seguimos o seguinte processo:
uma constante (c), a média do conjunto fica multiplicada ou dividida por essa
constante:
Ordenamos os dados em ordem crescente
4ª propriedade
A média das médias é a média global de 2 ou mais grupos. n
x1 = 10 n1 = 15 Calculamos a ordem º
x2 = 18 n2 = 23 2
A mediana será a média entre o valor da ordem acima indicada e o
Então: (x1 . n1 ) + (x2 . n2 ) + ... + (xk . nk ) próximo.
xG = ---------------------------------------------------
n1 + n2 + .... + nk
Exemplo: 1, 3, 7, 5, 5, 4, 3, 2, 4,3
(10 . 15 ) + (18 . 23 ) Ordenando:1, 2, 3, 3, 3, 4, 4, 5, 5, 7
xG = -------------------------------- = 14,84 Calculando a ordem (10/2)º = 5º
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 8
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
9. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
5º + 6 º 3 + 4 A moda é, por definição, o valor mais freqüente dos dados. Assim para
A mediana é Md = = = 3,5 dados não agrupados ou para tabelas de freqüência de dados discretos basta
2 2
localizar o valor de maior freqüência, e este será a moda.
2.2. Dados Agrupados
Exemplo: Considere os seguintes dados
Quando tivermos dados agrupados discretos procedemos da mesma forma
dos dados desagrupados, utilizando entretanto recursos provindos da tabela 1,4,5,4,3,2,5,7,1,5,5
de freqüências. Neste exemplo a moda é Mo = 5.
Exemplo: Suponha a seguinte tabela de freqüências Exemplo: Considere a seguinte tabela de freqüências para dados discretos
Ocorrências Fj FAc
0 2 2 Ocorrências Fj
2 3 5 0 2
3 5 10 2 3
4 4 14 3 5
4 4
Observe que o nº de observações é par (14). Neste caso como no caso
anterior calcula-se o temo de ordem (n/2)º, que nesse caso é 7º e o próximo Neste caso basta observarmos qual a maior freqüência e a moda será o valor
8º. A diferença aqui é que para procurar os termos utilizamos a tabela de que tem esta freqüência. Nosso exemplo a maior freqüência é 5 e o valor
freqüências acumuladas utilizando a seguinte regra: a primeira vez que a associado a ela é 3 logo nossa moda é Mo = 3.
freqüência acumulada dos dados for maior do que a ordem procurada
aquele é o valor naquela ordem. Assim o 5º elemento é 2 (Fac = 5) e o 6º é Caso tenhamos dados contínuos o cálculo da moda é um pouco mais
2+ 3 complicado. Procedemos da seguinte forma:
3. Neste caso a mediana será Md = = 2,5
2 Definimos qual a classe que tem maior
Se tivermos dados contínuos utilizamos o seguinte processo freqüência. Esta classe é chamada classe
Calculamos o termo de ordem (n/2)º modal;
Definimos em que classe está a mediana; Calculamos a moda com a fórmula
Calcula-se a mediana com a fórmula
( ∆ 1)h
Md = l +
( ( n 2 ) + F )h ACA
Mo = l +
∆1+ ∆ 2
FX
~
onde onde
l – limite inferior da classe onde está a mediana ;
n – número de observações l – limite inferior da classe modal
FACA – FAC da classe anterior ∆ 1 - Freqüência da classe modal menos freqüência da da classe anterior;
FX
~ - Freqüência Absoluta da classe em que está a mediana ∆ 2 - Freqüência da classe modal menos freqüência da da classe posterior;
h – Amplitude de Classe h – Amplitude de Classe
Exemplo: Considere a seguinte tabela de freqüências para dados contínuos Exemplo: Suponha a seguinte tabela de freqüências
Classe Fj FAc Classes Fj
0 |----- 2 2 2 0 |----- 2 1
2 |----- 4 3 5 2 |----- 4 3
4 |----- 6 5 10 4 |----- 6 4
6 |----- 8 4 14 6 |----- 8 2
Cálculo do termo de ordem (n/2)º = 7º Localizar a classe de maior freqüência: Classe
OBS – Se n/2 não for inteiro considera-se o primeiro inteiro maior que o 4 |---- 6
valor de n/2. Calculando a moda
Pela FAC sabemos que a mediana está na
classe 4 |--- 6. 4− 3 2
OBS – Para encontra a classe em que está a mediana basta achar a classe Mo = 4 +
( 4 − 3) + ( 4 − 2) 2 = 4 + 3 = 4,67
em que a FAC é maior ou igual ao valor assumido para n/2.
Calculando agora a mediana b) As separatrizes que vamos estudar são:
Mediana (já visto)
Md = 4 +
( 7 − 5) 2 = 4,8
Quartil
5 Decil
Percentil
3. Moda 1. Quartis
Dividem um conjunto de dados em quatro partes iguais.
Q1 = 1º quartil, deixa 25% dos elementos
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 9
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
10. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
2º) Pela Fi identifica-se a classe que contém o Pi
n
1º) Calcular a posição: P = ---- (seja n ímpar ou par) 3º) Aplica-se a fórmula:
4 in/100 – Fa
2º) Pela Fi identifica-se a classe que contém o Q1 Pi = L Pi + ----------------- x h
f Pi
3º) Aplica-se a fórmula: sendo
n/4 – Fa * LPi = limite inferior da classe Pi , i = 1, 2, 3, ..., 99
Q1 = LQ1 + -------------- x h * n = tamanho da amostra ou nº de elementos
f Q1 * Fa = frequência acum. anterior à classe do Pi
sendo * h = intervalo da classe do Pi
* LQ1 = limite inferior da classe do Q1 * f Pi = frequência simples da classe do Pi
* n = tamanho da amostra ou nº de elementos
* Fa = frequência acum. anterior à classe do Q1
* h = intervalo da classe do Q1 4. Medidas de Dispersão
* f Q1 = frequência simples da classe do Q1
Suponha que estivéssemos observando dois grupos de alunos e
anotando os resultados dos mesmos em uma dada prova. Suponha ainda que
Q2 = 2º quartil, é igual a mediana, deixa 50% dos elementos os resultados fossem:
Q3 = 3º quartil, deixa 75% dos elementos Grupo 1 - 5,0 ; 5,0 ; 5,0 ; 5,0 ; 5,0
3n Grupo 2 - 4,0 ; 5,0 ; 8,0 ; 7,0 ; 1,0.
1º) Calcular a posição: P = ----- (seja n ímpar ou par)
4 Se calcularmos a média dos dois grupos vemos que ambos
2º) Pela Fi identifica-se a classe que contém do Q3 apresentam a mesma média aritmética, 5,0, mas também vemos claramente
que o conjunto de dados provêm de grupos cujos resultados são bem
3º) Aplica-se a fórmula: diferentes.
3n/4 – Fa A diferença entre um grupo e outro se encontra num fato que a
Q3 = LQ3 + -------------- x h média, assim como qualquer outra medida de posição não pode perceber: a
f Q3 variabilidade dos dados.
sendo Para caracterizar essas diferenças os estatísticos criaram as
* LQ3 = limite inferior da classe do Q3 medidas de dispersão, das quais vamos estudar:
* n = tamanho da amostra ou nº de elementos Amplitude Total;
* Fa = frequência acum. anterior à classe do Q3 Desvio médio;
* h = intervalo da classe do Q3 Variância;
* f Q3 = frequência simples da classe do Q3 Desvio Padrão;
Coeficiente de Variação
2. Decis: dividem a série em 10 partes iguais
in 1. Amplitude Total (AT)
1º) Calcular a posição: P = ---- (seja n ímpar ou par),
10 Ë uma medida muito simples, sendo definida como a diferença entre o
em que i = 1, 2, 3, 4, 5, 6, 7, 8 e 9 maior e o menor valor das observações, ou seja
2º) Pela Fi identifica-se a classe que contém o Di AT = máx - mín
3º) Aplica-se a fórmula: Exemplo: Suponha que temos o seguinte conjunto de dados 1; 2,5; 3; 1; 7;
in/10 – Fa 2; 5. Para esse caso a amplitude total é dada por
Di = L Di + ---------------- x h
f Di AT = máx - mín
sendo
* LDi = limite inferior da classe Di , i = 1, 2, 3, ..., 9 AT = 7 - 1 = 6
* n = tamanho da amostra ou nº de elementos
* Fa = frequência acum. anterior à classe do Di OBS - Essa medida tem aplicações muito limitadas pois só capta o que
* h = intervalo da classe do Di acontece com os valores extremos, sendo completamente insensível aos
* f Di = frequência simples da classe do Di valores intermediários.
3. Percentis: dividem a série em 100 partes iguais 2. Desvio Médio (DM)
in Uma maneira muito interessante de perceber como os dados estão dispersos
1º) Calcular a posição: P = ----- (seja n ímpar ou par), é perceber como estão variando em torno da média. Uma forma de fazer
100 isso é com o desvio médio.
em que i = 1, 2, 3, ..., 98, 99
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 10
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF
11. PROF VANDERLAN MARCELO ANALISTA TRIBUTÁRIO
ESTATÍSTICA BÁSICA
Conforme o edital ATRFB - ESAF nº 94, de 07 de outubro de 09 Raciocínio Lógico DA RECEITA
FEDERAL DO BRASIL
O desvio médio é definido como a média dos valores absolutos dos desvios Fj - Freqüência Absoluta da j-ésima ocorrência possível (caso discreto) ou
em relação à média aritmética, ou seja: da j-ésima classe (caso contínuo);
∑ x j − X Fj X - Média aritmética da amostra;
DM =
n n - Número de observações da amostra.
onde
OBS -
xj - é a j-ésima ocorrência possível (caso discreto) ou o ponto médio do j-
ésimo intervalo (caso contínuo); • fato de dividirmos por n-1 está relacionado ao fato de já
termos usado a amostra para calcular a média
Fj - é a freqüência absoluta da j-ésima ocorrência possível (caso discreto)
• Da forma como está definida a variância se torna muito
ou da j-ésima classe (caso contínuo);
inconveniente para ser calculada. Mas desenvolvendo sua
expressão chega-se a uma forma alternativa muito mais
X - é a média aritmética das observações; prática
n - número de observações;
S2 =
1 ∑ x2Fj −
(∑ x j Fj )2
Exemplo: Suponha que temos a seguinte tabela de freqüêcias j
n− 1 n
Classes Fj
0 |---- 2 1 Exemplo: Retornemos ao exemplo anterior criando mais uma vez colunas
2 |---- 4 3 auxiliares
4 |---- 6 2
6 |---- 8 1 Classes Fj xj xjFj xj2 xj2Fj
0 |----- 2 1 1 1 1 1
Para facilitar a aplicação da expressão do desvio médio, vamos criar
2 |----- 4 3 3 9 9 27
algumas colunas auxiliares na nossa tabela de freqüências, de modo que
4 |----- 6 2 5 10 25 50
nossa nova tabela é dada por:
6 |----- 8 1 7 7 49 49
Totais 7 27 127
Ponto
Classes Fj Médio xjFj |xj - X | |xj - X |Fj Logo
xj
0 |---- 2 1 1 1 2,86 2,86
2 |---- 4 3 3 9 0,86 2,58 S2 =
1 ( 27 ) 2 = 3,8
127 −
4 |---- 6 2 5 10 1,14 2,28 6
7
6 |---- 8 1 7 7 3,14 3,14
Totais 7 27 10,86
Algumas propriedades da Variância
As colunas auxiliares são, na verdade, organização do processo aritmético
de cálculo da medida. Observe que para montar a 5ª coluna precisamos (a) Variância de dados constantes é zero;
saber quanto vale a média aritmética. Para tanto podemos usar as colunas 4 (b) Suponha que temos um conjunto de dados tais que
e 2 para calcular. Nesse caso temos
a sua variância é dada por S2. Suponha que por
algum motivo os dados sejam multiplicados por
27 uma constante c. Assim a variância do conjunto de
X= = 3,86
7 dados multiplicado pela constante é dada por c2S2.
Assim (c) Suponha que temos um conjunto de dados cuja
variância seja S2. Suponha que por algum motivo
10.86 multiplica-se os dados por uma constante "a" e
DM = = 1.55 .
7 soma-se ao resultado uma outra constante "b". A
3. Variância (S2) nova variância dos dados, depois de feitas as
operações será a2S2.
Outra medida de dispersão em torno da média é a variância que é definida Cálculo simplificado da variância.
como
Assim como no caso da média também no caso da variância existe
um processo simplificado de cálculo. Como no caso da média também
S2 =
1
n− 1
( 2
∑ x j − X Fj ) dividiremos em 3 etapas:
• Define-se a seguinte transformação nos dados
onde
x j − x0
xj - é a j-ésima possível ocorrência (caso discreto) ou o ponto médio da j- zj =
ésima classe (caso contínuo); n
FORTIUM – Prof Vanderlan Marcelo (vanderlanmarcelo@gmail.com) 11
Cargo: ANALISTA TRIBUTÁRIO DA RECEITA FEDERAL DO BRASIL ESTATÍSTICA DESCRITIVA/ESAF