2. Linguística de corpus (ou córpus) é uma área da Linguística que
se ocupa da coleta e análise de corpus, que é um conjunto de dados
linguísticos.
A LC surgiu com a necessidade que estudiosos da língua sentiram de
se apoiar em usos reais para fazerem generalizações ou esboçarem
teorias a respeito do funcionamento linguístico.
Atualmente, a LC está intimamente ligada ao uso do computador,
visto que os corpora/córpora (plural de corpus) são eletrônicos.
O corpus deve ser constituído de dados autênticos (não inventados),
legíveis por computador e representativos de uma língua ou
variedade da língua da qual se deseja estudar.
3. As ferramentas computacionais mais comuns são:
Programas para listar palavras - fazem a
contagem das palavras em um corpus;
Concordanciadores - programas que permitem que
o usuário procure por palavras específicas em um
corpus, fornecendo exaustivas listas para as
ocorrências da palavra em contexto;
Etiquetadores - fazem análises automáticas do
corpus e inserem etiquetas (códigos) de ordem
morfossintática, sintática, semântica oudiscursiva.
4. É fato que o fazer terminológico é laborioso,
principalmente se dependermos da nossa atenção
para observarmos a recorrência de certas
combinações.
O que geralmente ocorre é que, ao notarmos uma
combinação que já vimos antes, não nos
lembramos de onde a vimos, e provavelmente não
somos capazes de localizá-la novamente se
quisermos, por exemplo, compilar uma lista de
espressões consagradas ou montar um glossário.
5. Com o advento do computador, tornou-se
possível construir grandes bancos de textos e
consultá-los com ferramentas computacionais
apropriadas para detectar essas ocorrências,
co-ocorrências e recorrências.
A LC oferece uma metodologia que veio facilitar
muito a identificação das unidades
convencionais de uma língua, assim como os
termos técnicos de uma área de especialidade.
6. Os corpus eletronicos nos permitem notar as
ocorrências das unidades fixas.
Para a LC, um corpus é uma coletânea de
textos
Um exemplo de aplicação: o Vocabulário para
Culinária SBS (série 1001 Termos)
Glossário de Gastronomia da Disal
7. Slide baseado no item 2 da bibliografia
comentada.
Corpara e Ensino de tradução
Linguística de Corpus
Exemplo do artigo: elaboração de um glossário
técnico com base em corpus.
8.
9. Conhecer palavras da área de pesquisa:
sementes.
Fazer uma limpeza do corpus.
Fotos – figuras – tabelas
10. Corpus comparável: conteúdo similar nas duas
línguas.
Número de palavras (texto jurídico)
Número de textos
11. Extrair os termos, colocações e fraseologias.
3 etapas:
Gera-se uma lista de palavras mais frequentes no
corpus.
Compara-se com outra de um corpus mais geral, ou
seja, não específico do tema investigado, para
identificar as palavras peculiares, essas seriam as
candidatas.
Finalmente produzem-se as listas de concordância para
validar as candidatas.
A frequência leva à identificação de padrões
fraseológicos (colocações).
12.
13. A identificação é feita pela observação dos
termos e suas colocações.
Exemplo da pimenta / gol contra / fazer cera
A quinta e última etapa seria a compilação de
um glossário.