Este documento apresenta uma análise técnica da metodologia proposta para calcular o termo RRR na regulação de preços do serviço de praticagem no Brasil. A análise critica três aspectos principais: a falta de acesso aos dados para replicação dos resultados, a inconsistência dos parâmetros estimados ao variar as variáveis ou contexto, e a aplicação direta de parâmetros estimados para os EUA no contexto brasileiro.
Contribuição conapra 002 cnap-anexo econometrista final
1. Parecer sobre Metodologia RRR
1. Introdução: apresentação da metodologia
Este parecer tem como objetivo avaliar tecnicamente a equação de regressão utilizada na metodologia
proposta para regulação de preços do serviço de praticagem, tal como publicada na Consulta Pública
No 2, de 13.12.2013.
Este parecer concentra-se especificamente sobre o cálculo do termo RRR, que se refere à
remuneração líquida do prático por hora de manobra. De acordo com a metodologia proposta, o
termo RRR deverá ser calculado com base na fórmula abaixo:
RRR = RRR = (2.741,03 + 6,17 x N - 27,88 x Dm- 6,09 x (M/N) -169,40 x Tm + 0,15 x Dm² + 6,38 x Tm²) x PPP/2
Onde as variáveis explicativas incluídas na fórmula são:
N = número de práticos da ZP.
Tm = Tempo médio de manobra, medido em horas.
Dm = Distância média percorrida durante as manobras, em milhas náuticas.
M = número de escalas realizadas na ZP (igual a: número de manobras/2,2).
PPP = Paridade do Poder de Compra do Dólar para o Real.
O primeiro passo fundamental da metodologia do cálculo de PM, portanto, refere-se (i) à escolha das
variáveis incluídas na definição da fórmula RRR e (ii) ao modo como os parâmetros numéricos da
fórmula são escolhidos, dadas as variáveis incluídas em (i).
Com relação ao ponto (i), não existe justificativa clara para a escolha das variáveis explicativas
incluídas na fórmula (ou do por que da não inclusão de outras variáveis potencialmente importantes
para a determinação de RRR). Neste sentido a afirmação de que “diversos testes e procedimentos para
selecionar um modelo adequado” é totalmente insatisfatória. Com relação ao ponto (ii), a
metodologia adota o método de mínimos quadrados ordinários (MQO) para a estimação de uma
regressão com base em uma amostra de dados referente a manobras realizadas nos EUA. Nesta
regressão, relacionam-se variações da remuneração líquida por manobra de praticagem nos EUA a
variações em N, Dm, Tm, M/N, Tm, Dm e Tm associadas às respectivas manobras. A aplicação do
método de MQO aos dados dos EUA resultou nos parâmetros numéricos apresentados na fórmula
RRR descrita acima, e que chamaremos por coeficiente de intercepto (o parâmetro 2.741,03) e coeficientes de
inclinação (os demais parâmetros numéricos, que multiplicam as variáveis incluídas na análise).
1
2. A metodologia por MQO é bastante convencional na literatura técnica de identificação de
determinantes de salários. De fato, o emprego do MQO é adequado para casos onde desejamos
identificar como uma dada variável se altera em média (por exemplo, salários; ou o RRR, neste caso
particular) conforme alterações em valores das variáveis explicativas (neste caso particular, N, Dm,
Tm, M/N, Tm, Dm e Tm).
Contudo, existem três grandes focos de preocupação com relação à execução e robustez da análise
que levou à definição dos parâmetros numéricos apresentados na fórmula RRR acima. Este parecer
detalha estas preocupações na sequencia.
2. Acesso aos dados, replicação e robustez
A preocupação mais imediata e grave refere-se à impossibilidade de os resultados encontrados e
divulgados – os parâmetros numéricos descritos na fórmula RRR – serem replicados por terceiros.
Uma contribuição empírica deve necessariamente ser perfeitamente replicável de modo a permitir
que outros sejam capazes de confirmar a veracidade dos resultados no referido contexto, e que sejam
também capazes de realizar testes adicionais sobre a metodologia empregada e sobre as hipóteses
testadas. Uma vez que determinada metodologia de investigação estatística é transplantada para uma
aplicação em políticas públicas – como é o caso da determinação de RRR – a possibilidade de
replicação e da realização de testes adicionais torna-se ainda mais urgente, já que o tempo entre o
desenvolvimento e a aplicação da metodologia tende a ser relativamente curto, e as consequências
para a sociedade mais imediatas e significativas.
Não à toa, tende a existir, por exemplo, um espaço de tempo longo entre o desenvolvimento de um
novo medicamento e sua comercialização: é o tempo necessário para que o experimento (a
metodologia) seja replicado de diversas formas distintas, testado pela comunidade acadêmica e por
agências governamentais. No caso das ciências sociais, qualquer pesquisa empírica em determinantes
de salários e condições de mercado de trabalho também requer um ciclo longo de testes, replicação,
refutação, aprimoramento, e assim por diante. A praxe em um trabalho empírico em ciências sociais
consiste na apresentação não de uma única, mas de uma série de regressões executadas de distintas
formas: com variáveis mensuradas de modos distintos, com novas variáveis incluídas/excluídas da
análise, com os intervalos de confiança mensurados de modos distintos, e assim por diante. Neste
aspecto voltamos a repetir: a simples afirmação de que “diversos testes e procedimentos para
selecionar um modelo adequado” foram adotados é totalmente insatisfatória. Em particular, a
experiência de qualquer pesquisador em trabalhos empíricos corrobora o fato de que a inclusão ou exclusão de uma
variável explicativa em uma regressão pode alterar drasticamente o resultado do exercício. Veremos esse ponto com
maiores detalhes na próxima seção.
A metodologia proposta apresenta uma única regressão, cujos dados necessários para sua replicação
estão indisponíveis a terceiros. Do ponto de vista técnico, absolutamente nada garante a consistência
2
3. dos parâmetros encontrados e divulgados na Consulta Pública No. 2. Ou seja, os parâmetros
numéricos encontrados podem estar enviesados. A ausência ou não de viés nos parâmetros
estimados não pode ser refutada por conta da impossibilidade de acesso aos dados utilizados.
3. Consistência
Para ilustrar o problema da consistência, optou-se por realizar um exercício econométrico simples,
com base em dados sobre salários de trabalhadores brasileiros. Utilizou-se como base de microdados
da Pnad/IBGE de 2012, publicamente disponível no site da instituição. Em primeiro lugar,
selecionamos trabalhadores por conta-própria de todo o Brasil e realizamos uma regressão por MQO
onde a variável dependente é o rendimento mensal do trabalhador, e a variável explicativa é a cor do
trabalhador (mais especificamente, é uma variável que assume o valor 1 no caso de trabalhador de cor
branca, e zero no caso de trabalhador não branco).
O resultado está reportado na primeira coluna da tabela em anexo. Vemos que o coeficiente estimado
para a cor branco é de 1259,86. Isso nos dá o diferencial médio de rendimentos em reais entre
brancos e não brancos no Brasil, quando não consideramos na análise nenhuma outra variável
explicativa de rendimentos. Importante mencionar o coeficiente de intercepto encontrado: 1491,96.
Este coeficiente é análogo ao coeficiente de intercepto de 2.741,03 encontrado na fórmula do RRR acima.
Na regressão com dados brasileiros, este valor nos dá o salário médio de não brancos. Ou seja, em
média, não brancos ganham R$1491,96, enquanto que brancos ganham R$1491,96 mais o diferencial
de R$1259,86, ou seja, R$2752.
Agora vamos incluir uma variável adicional na análise: escolaridade dos trabalhadores por contaprópria. Ou seja, vamos realizar uma regressão por MQO onde a nossa variável dependente continua
sendo rendimentos, mas agora incluímos duas variáveis explicativas na regressão: cor e escolaridade.
Os resultados estão reportados na 2ª coluna da tabela. Em primeiro lugar notamos que o novo
coeficiente de brancos é de R$801,85, ou seja, o diferencial continua alto, mas caiu quando
comparado ao modelo de regressão da 1ª coluna. O que aconteceu? Na segunda coluna o método por
MQO leva em consideração o fato de que os não-brancos tem escolaridade menor que os brancos, e
que escolaridade é um determinante importante de rendimentos. Ou seja, parte do diferencial de
rendimentos parece não ocorrer devido à cor, mas sim devido a níveis de escolaridade distintos entre
brancos e não brancos. Note também que o coeficiente de intercepto agora é negativo: e isso reflete
apenas um aspecto técnico do MQO, sem qualquer interpretação econômica mais relevante.
Nas três colunas restantes, realizamos a mesma regressão, mas agora selecionamos três amostras
distintas: trabalhadores da Bahia, do Rio Grande do Sul e do Rio de Janeiro. Novamente observa-se
grande variação nos coeficientes de cor: na Bahia o diferencial de rendimentos chega a R$1071,01
enquanto que no Rio Grande do Sul é de R$538,30, ou seja, a metade.
3
4. Esta seção traz algumas mensagens importantes para a avaliação da metodologia RRR. Em primeiro
lugar, somos capazes de avaliar a robustez dos resultados publicados (ou seja, quão estáveis são os
parâmetros encontrados) apenas se tivermos acesso aos dados, pois assim seria possível checar se os
resultados variam ao alterarmos a especificação da regressão. No caso dos dados brasileiros, vimos
como um coeficiente pode variar quando incluímos/excluímos uma variável na análise (basta
comparar as colunas 1 e 2).
Em segundo lugar, ilustramos um caso simples com dados brasileiros onde os coeficientes estimados
variam conforme as variáveis incluídas na análise. Em teoria, por exemplo, sabemos que o
rendimento dos trabalhadores tende a aumentar com a escolaridade e a experiência do trabalhador,
porém os ganhos com experiência tendem a decrescer com o tempo. Ao estimar empiricamente uma
equação de salários, trazemos então esta teoria para os dados. Poderíamos também, portanto, ter
incluído na análise dos dados brasileiros a experiência do trabalhador no mercado de trabalho. No
caso da metodologia RRR, não existe justificativa clara das razões pelas quais foram incluídas as
variáveis explicativas N, Dm, Tm, M/N, Tm, Dm e Tm, e das razões pelas quais não foram incluídas
outras variáveis (as características do prático, por exemplo), e assim por diante. Eventualmente a
inclusão de novas variáveis ou exclusão de uma destas variáveis pode impactar dramaticamente os
resultados estimados. No entanto, novamente, sem acesso aos dados estes exercícios não podem ser
realizados.
Em terceiro lugar, embora não mencionado centralmente nesta seção, métodos distintos de
estimação podem gerar intervalos de confiança diferentes para os coeficientes estimados. Este ponto
é mais técnico, embora não menos importante. Nos dados brasileiros, por exemplo, trabalhamos com
uma amostra grande e utilizamos técnicas que nos permitiram estimar intervalos de confiança dos
coeficientes (não reportados na tabela) de modo eficiente (no jargão, usamos estimação de variância
robusta à heterocedasticidade). A metodologia proposta não traz nenhuma informação sobre como
foi realizada a estimação dos erros-padrão e intervalos de confiança dos coeficientes. Em particular,
podemos notar que o erro-padrão da variável Tm reportado anteriormente no Diário Oficial é
relativamente alto, e seu p-valor aproxima-se de 0,05. Ou seja, talvez encontremos que o coeficiente
estimado para Tm não seja diferente de zero do ponto de vista estatístico caso seu erro-padrão seja
estimado de modo eficiente.
Por fim, é fundamental compararmos as colunas 3 a 5 da tabela em anexo: em contextos diferentes
encontramos coeficientes diferentes. Discutiremos esse ponto em detalhe na próxima seção.
4
5. 4. Considerações sobre mercado de trabalho e retorno à qualificação no Brasil
As colunas 3 a 5 reportam os resultados de um mesmo exercício (regressão de MQO sobre as
mesmas variáveis) aplicado a diferentes contextos (BA, RS e RJ). Observa-se que os coeficientes de
cor, escolaridade e de intercepto alteram-se muito ao variarmos o contexto. Na literatura técnica em
mercado de trabalho, estes coeficientes devem ser diferentes por refletir características particulares de
cada mercado: locais distintos têm trabalhadores e firmas com características distintas, e a escassez
relativa de cada característica deve afetar o rendimento do trabalho. Esta ilustração serve como alerta
para metodologias que transplantam parâmetros estimados em um determinado contexto (os Estados
Unidos, para o caso da proposta apresentada de regulação de preços do serviço de praticagem no
Brasil aqui discutida) para serem aplicados em outro.
Em particular, a metodologia menciona que os EUA foram escolhidos como região de referência
devido ao fato de terem grande fluxo de comércio internacional, um modelo e serviços de
praticagem, além de dimensões territoriais, semelhantes aos do caso brasileiro. No entanto, os preços
vigentes em um determinado mercado de trabalho, de um determinado país, refletem não apenas as
características deste mercado específico, mas também as características da força de trabalho e da
demanda das firmas do país em geral. Esta consideração restringe a aplicação da metodologia RRR ao
caso brasileiro. Existe no Brasil um alto retorno à qualificação profissional. Ou seja, em um país onde
existem poucos trabalhadores qualificados, a qualificação de um trabalhador tende a ser relativamente
mais bem remunerada. A aplicação de parâmetros no Brasil estimados para o contexto dos EUA,
portanto, estaria comprometida.
5. Comentários finais e síntese
Nesta seção final listamos, em síntese, as preocupações de ordem técnica com respeito à metodologia
e execução da análise de regressão que resultou na fórmula RRR, termo este fundamental para a
determinação dos preços máximos (PM) do serviço de praticagem.
a.
A determinação de uma relação estatística entre variáveis requer tempo e o exame de várias
equações. A metodologia proposta apresenta apenas uma única equação estimada e não
justifica claramente a escolha das variáveis utilizadas. Como vimos na ilustração com dados
brasileiros, a inclusão ou exclusão de uma variável em determinada regressão pode alterar
drasticamente os resultados encontrados. Faltam, portanto, uma justificativa para a
escolha das variáveis incluídas e excluídas, assim como testes adicionais sobre os
resultados.
b. Como agravante, a base de dados utilizada para a elaboração da proposta não está
publicamente disponível. Isso restringe completamente a análise da metodologia por
terceiros.
5
6. c. Por fim, ficou também claro na ilustração que uma metodologia aplicada em contextos
distintos pode ter resultados diferentes. Aplicar ao caso brasileiro parâmetros de uma
fórmula estimados para os Estados Unidos parece arbitrário uma vez que os mercados de
trabalho nos dois países são completamente distintos. Em particular, no Brasil, a escassez de
mão-de-obra qualificada tende em geral a elevar o prêmio por qualificação: ou seja,
profissões onde se requer qualificação, como é o caso dos práticos, tendem a ser mais bem
remuneradas no Brasil do que em países onde a qualificação é mais homogeneamente
distribuída na força de trabalho.
Anexo – Tabela com Regressões por MQO para o Mercado de Trabalho Brasileiro
Cada coluna reporta uma regressão por MQO. Em todas utilizou-se a mesma variável dependente: rendimento
do trabalhador
(1)
(3)
(4)
(5)
1.259,86
801,854
1.071,01
538,305
898,806
(53,371)***
(49,199)***
(190,221)***
(123,289)***
(137,827)***
224,518
228,626
263,386
232,684
(6,347)***
Cor: branco
(2)
(17,493)***
(24,477)***
(25,500)***
Escolaridade
Intercepto
1.491,96
-234,335
-463,528
-487,608
-530,401
(36,581)***
(46,921)***
(111,565)***
(207,101)**
(206,490)**
26.414
0,069
Brasil
1.918
0,163
Bahia
2.172
0,089
Rio Grande do Sul
1.883
0,085
Rio de Janeiro
Observações
26.414
R2
0,021
Amostra
Brasil
Erros-padrão estimados entre parênteses.
*** p<0,01, ** p<0,05, * p<0,1
6