Representação de Áudio e Imagem

UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO TECNOLÓGICO
SISTEMAS DE INFORMAÇÃO

REPRESENTAÇÃO DE ÁUDIO E IMAGEM

FELIPE DE SOUZA DA COSTA

FLORIANÓPOLIS
2013

RESUMO

Este trabalho tem como intuito descrever como se dá a representação de um
sinal de som ou de imagem na sua forma analógica para uma forma digital, que
posteriormente será armazenada em um computador ou em dispositivos afim. Tais
como características e processos para a digitalização de um arquivo.
Abordando conceitos simples, como tipos de arquivos e suas características e
alguns conceitos mais complexos como teorema de Nyquist, amostragem e
quantização.

Palavras-chave: Conversão Digital/Analógica, Amostragem, Quantização, Tipos de
Áudio, Tipos de Imagem, Compressão.

LISTA DE FIGURAS

Figura 1 - Uma onda sonora, em cinza, representada digitalmente em vermelho.......7
Figura 2 - Sinal analógico de um som...........................................................................7
Figura 3 - Conversor Analógico/Digital..........................................................................8
Figura 4 - A onda de baixo é amostrada a uma taxa que é o dobro da da onda de
cima. ............................................................................................................................ 9
Figura 5 - Onda contínua e amostragem .................................................................. 10
Figura 6 - Especto de modulação de amplitude..........................................................11
Figura 7 - Cabeçalho de um arquivo WAV..................................................................14
Figura 8 - Cabeçalho de um arquivo AIFF.................... ..............................................15
Figura 9 - Cabeçalho de um arquivo MP3...................................................................18
Figura 10 - Representação de uma imagem Bitmap ................................................. 20
Figura 11 - Representação de uma imagem ao nível de pixels................................. 21
Figura 12 - Imagem Raster (bitmap) ......................................................................... 22
Figura 13 - Imagem Vetorial ...................................................................................... 23
Figura 14 - Imagem Binária ....................................................................................... 24
Figura 15 - Representação de uma imagem monocromática digital ......................... 24
Figura 16 - Matriz de pixels ....................................................................................... 25
Figura 17 - 8 bpp ....................................................................................................... 25
Figura 18 - 16 bpp ..................................................................................................... 25
Figura 19 -24 bpp ...................................................................................................... 26
Figura 20 - Eixos X e Y em uma imagem monocromática. ....................................... 26
Figura 21 - Como um sensor de uma câmera divide a imagem em porções discretas
e coleta uma cor (média) para cada uma delas. ....................................................... 27
Figura 22 - (a) uma imagem com n bytes por pixel. (b) n bandas com um byte por
pixel. .......................................................................................................................... 28
Figura 23 - Niveis de Cores RGB .............................................................................. 28

SUMÁRIO

1 INTRODUÇÃO ......................................................................................................... 5
2 ÁUDIO ...................................................................................................................... 5
2.1 O que é som ?.................................................................................................... 6
2.2 Conversão de Áudio........................................................................................... 7
2.2.1 Conversão A/D ............................................................................................ 7
2.2.2 Taxa de Amostragem e Teorema de Nyquist .............................................. 8
2.2.3 Niveis de Quantização ................................................................................. 9
2.2.4 Conversão D/A .......................................................................................... 10
2.2.5 Número de Canais ..................................................................................... 10
2.3 Representação do som .................................................................................... 11
2.3.1 Digitalização do Som ................................................................................. 11
2.3.2 Parametros para digitalização do som ....................................................... 12
2.4 Compressão e Compactação ........................................................................... 13
2.5 Formatos de Áudio ........................................................................................... 13
2.5.1 Formtatos não-comprimidos ...................................................................... 13
2.5.1.1 WAV .................................................................................................... 14
2.5.1.2 AIFF ..................................................................................................... 15
2.5.2 Formatos Comprimidos.............................................................................. 16
2.5.2.1 FLAC ................................................................................................... 16
2.5.2.2 APE ..................................................................................................... 17
2.5.2.3 ALAC ................................................................................................... 17
2.5.2.4 MP3 ..................................................................................................... 17
2.5.2.5 OGG Vorbis ......................................................................................... 18
2.5.2.6 AAC ..................................................................................................... 19
2.5.2.7 WMA .................................................................................................... 19
3 IMAGEM ................................................................................................................. 20
3.1 Definição .......................................................................................................... 20
3.2 Pixel ................................................................................................................. 21
3.3 Imagem bitmap ................................................................................................ 22
3.4 Imagem Vetorial ............................................................................................... 23
3.5 Representação de imagem digital .................................................................... 24
3.5.1 Amostragem e Quantização ...................................................................... 24
3.5.2 Profundidade da Imagem........................................................................... 25
3.5.3 Imagem Monocromática ............................................................................ 26
3.5.4 Resolução Espacial ................................................................................... 26

3.5.5 Imagem Multibanda ................................................................................... 27
3.5.6 Imagem Colorida ....................................................................................... 28
3.6 Formatos de Imagens ...................................................................................... 29
3.6.1 Formatos não-comprimidos ....................................................................... 29
3.6.1.1 BMP ..................................................................................................... 29
3.6.2 Formatos comprimidos .............................................................................. 29
3.6.2.1 Com Perda de dados (lossy) ............................................................... 29
3.6.2.1.1 JPEG ........................................................................................................... 29
3.6.2.2 Sem perda de dados (lossless) ........................................................... 30
3.6.2.2.1 GIF .............................................................................................................. 30
3.6.2.2.2 PNG ............................................................................................................ 31
3.6.2.2.3 TIFF ............................................................................................................ 31
4 CONCLUSÃO......................................................................................................... 32
REFERÊNCIAS ......................................................................................................... 33

5

1 INTRODUÇÃO

Qualquer valor numérico, letra, carácter ou outro tipo de informação pode ser
codificado sob a forma de um conjunto de bits, no que se designa por “informação
digital”.
Se a informação é analógica, ou seja, possui um sinal contínuo que varia em
função do tempo, e queremos digitalizá-la, recolhemos alguns pontos deste sinal,
isto é, pegamos um conjunto discreto de valores deste sinal contínuo (analógico),
convertemos estes valores num conjunto reduzido de valores possíveis e
associamos a cada valor quantificado um código binário (0 e 1) e obtemos sua
representação digital que não vária continuamente em função do tempo. Tal
informação pode ser salva em formatos distintos, dependendo do que se quer obter
e dependendo do formato, perdemos qualidade e ganhamos menor tamanho de
arquivo e vice-versa.

6

2 ÁUDIO

DICIONÁRIO: Informações sonoras sob variadas formas: elétrica, óptica, digital
etc. Quando manifestado no domínio acústico, gera ondas sonoras e é conhecido
como “som”.

2.1 O que é som ?

O som é um sinal analógico, porém computadores são sistemas digitais.
[1][2][3][7]
A forma mais rudimentar de se criar sons no computador é enviando sinais “0” e
“1” para o auto-falante, onde só é possível alterar a duração de cada “0” e cada “1”.
O resultado é um som típico “de computador”, tais com bipes. Atualmente, esta
técnica ainda é usada para gerar os sons que saem de um pequeno alto-falante que
pode ser instalado na placa-mãe.
Para a geração de sons mais complexos, há duas técnicas:
A primeira é o uso de um conversor analógico/digital (também chamado A/D ou
ADC, Analog-to-Digital Converter) para converter um som analógico em números
binários. Quando o computador precisa reproduzir o som, basta ele fazer o processo
inverso, remontar o som analógico a partir dos números binários coletados, através
de um conversor digital/analógico (também chamado de D/A ou DAC, Digital-toAnalog Converter). Esta é a técnica usada em CDs e arquivos do tipo wav e mp3.
A segunda técnica é o uso de um sintetizador para tocar notas musicais. O
computador passa para o sintetizador quais notas precisam ser tocadas e qual
instrumento deve ser usado. Esta é a técnica usada em trilhas sonoras de jogos e é
usada por arquivos do tipo mid.
Para ter estas técnicas disponíveis em um computador, é necessário ter uma
“placa de som”. Antigamente, este componente era opcional. Atualmente, todas as
placas-mãe vêm com áudio integrado (“on board”), permitindo que o computador
possa efetuar essas tarefas sem a necessidade de um hardware adicional.

7

2.2 Conversão de Áudio

Figura Erro! Indicador não definido. - Uma onda sonora, em cinza, representada digitalmente em
vermelho.
Fonte: (http://pt.wikipedia.org/wiki/Som_digital).

2.2.1 Conversão A/D

Imagine o sinal analógico, que pode ser um pequeno pedaço de uma música ou
de um som qualquer (figura 2).[1]

Figura 2 - sinal analógico de um som
Fonte: (http://www.clubedohardware.com.br/fullimage.php?image=16569).

Para converter este sinal analógico (que é uma grandeza) em uma série de
números binários que depois podem ser armazenados em um CD ou em um arquivo

8

de computador, o conversor analógico/digital efetua um processo de amostragem,
também chamado modulação por código de pulso (PCM, Pulse-Code Modulation).
Neste processo, a amplitude do sinal será lida em intervalos fixos de tempo, e
convertida em um valor.

Figura 3 - Conversor Analógico/Digital
Fonte: (http://www.clubedohardware.com.br/fullimage.php?image=16569).

2.2.2 Taxa de Amostragem e Teorema de Nyquist

A taxa de amostragem ideal é definida pelo Teorema de Nyquist-Shannon, que
diz que a taxa de amostragem dever ser, no mínimo, o dobro da frequência máxima
que queremos capturar. O processo de amostrar e guardar os valores dessas
amostras é conhecido como Pulse Amplitude Modulation (PAM). [2][3]
A partir dos pulsos PAM, podemos produzir os pulsos PCM através de um
processo conhecido como quantização, onde cada amostra PAM é aproximada a um
inteiro de n bits. A saída PCM corresponde ao resultado dessa quantização.
Podemos calcular, a partir desse processo, denominado conversão A/D, a taxa
gerada pela transmissão de informação analógica através de sinais digitais.
Como a faixa de frequências capturadas por um ouvido humano está entre 20Hz
e 20 kHz, qualquer som digitalizado com uma taxa de amostragem superior a 40kHz,
estaria com toda a sua riqueza de detalhes, com todos os harmônicos e
praticamente sem perdas, com uma qualidade final perfeita para os padrões da
audição humana. Assim chegou-se à frequência de 44kHz como padrão ideal, que
manteria toda a qualidade do áudio original digitalizado.
Existem taxas mais altas do que 44 kHz, como taxas de 48 kHz, 96 kHz ou 192
kHz que são usadas, normalmente, em estúdios de gravação. DVDs podem usar

9

taxa de amostragem de até 96 kHz e discos Blu-Ray podem usar taxa de
amostragem de até 192 kHz.
Se uma taxa de amostragem menor for utilizada, frequências mais altas serão
cortadas, fazendo com que o som pareça “comprimido” por não possuir alta
fidelidade.

Figura 4 - A onda de baixo é amostrada a uma taxa que é o dobro da da onda de cima.
Fonte: (http://anasoares1.wordpress.com/2011/01/31/audio-digital-frequencia-de-amostragembits-por-amostra-e-criterio-de-nyquist/).

2.2.3 Níveis de Quantização

O processo de quantização, também chamado de tamanho do sample ou sample
size, é, basicamente, a conversão de valores de amostras contínuas em valores
discretos, ou seja, a medida discreta da intensidade do sinal. Essa discretização da
amplitude é usualmente definida em termos de números de bits. Uma conversão de
8 bits proporciona a representação de 28 estados, ou 256 níveis de quantização.
[1][3]
Supondo uma quantização de 256 níveis e uma amostragem de 6 Hertz (6 ciclos
por segundo) e uma faixa de tensão de 10 volts, de -5V a +5V. Cada segundo vai
ser divido por 6 amostras. Cada amostra é um valor discreto que foi quantizado de
forma a representar a tensão elétrica correspondente. A faixa de tensão foi
convertida em uma tabela de 256 estados (0 – 255) que vão representar toda a
variação possível. 128 estados para a faixa negativa do sinal e 128 estados para a
faixa positiva do sinal, ou seja, 0 a 128 ⇔ - 5V a 0V ∧ 129 a 255 ⇔ 0,1V a 5V.

10

Figura 5 - Onda contínua e amostragem
Fonte: (http://www.eps.ufsc.br/disserta96/tafner/cap5/cap5.htm).

2.2.4 Conversão D/A

Pode-se demonstrar que um trem de pulsos PCM, obtido pela amostragem de um
sinal em uma frequência maior ou igual à dada pelo teorema de Nyquist, tem o
mesmo espectro de frequência que o sinal amostrado, no intervalo de frequências
dado pela banda passante desse sinal. A conversão D/A se faz, então, pela simples
passagem do trem de pulsos PCM por um filtro na faixa passante (e, assim, com a
largura de banda) do sinal originalmente amostrado. [1][3]
Não fosse pelo erro de quantização, o sinal obtido da saída do filtro seria idêntico
ao sinal analógico original.
O sinal de saída é tão mais próximo do sinal original quanto menor for o erro de
quantização. O erro de quantização, por sua vez, é tão menor quanto maior o
número de níveis de quantização, ou seja, quanto maior o número de bits utilizados
na codificação.

2.2.5 Número de Canais

O número de canais é simplesmente definir se o som será mono ou estéreo.
Arquivos mono possuem apenas um canal de áudio, e quando são reproduzidos em
equipamento estéreo enviam o mesmo sinal para ambos os canais. Já arquivos
estéreos possuem dois canais de áudio e podem enviar sinais completamente
diferentes para os canais esquerdo e direito. Se dois arquivos (um mono e outro
estéreo) usam a mesma taxa de amostragem e a mesmo tamanho de amostragem,
é óbvio que o tamanho do arquivo estéreo será exatamente o dobro do mono.

11

2.3 Representação do som

O som é comumente representado pela sua modulação de amplitude (eixo x) em
função do tempo (eixo y).

Figura 6 - Especto de modulação de amplitude.
Fonte: (http://pt.kioskea.net/contents/50-o-som-digital).

2.3.1 Digitalização do Som

No processo de digitalização do som, este é capturado da “natureza” e
armazenado em dispositivos sob a forma de dados binários. A palavra capturar é
substituída muitas vezes pela palavra samplear, essa palavra deriva do inglês
sample, que significa amostra. Resumidamente, um sample é um número que
expressa a amplitude da onda sonora em determinado momento, ou seja, uma
amostra dessa onda. Quando falamos que um som foi sampleado, quer dizer que
várias amostras consecutivas foram convertidas em números. Esses números são
armazenados internamente na forma de bits. [1][2][3]
O processo de digitalização permite que absolutamente qualquer som do mundo
exterior seja transformado num arquivo de computador. Se por um lado ficou mais
fácil para o artista independente gravar sua música em um estúdio caseiro e
distribuí-la, por outro lado também ficou mais fácil infringir os direitos autorais e
distribuir música dos outros sem qualquer custo para quem consome.
Esta facilidade toda existe porque digitalizar áudio é um processo extremamente
fácil. Na captura do som não existe nada de novo, pois ela continua sendo feita
através de um microfone que transforma onda sonora em impulsos elétricos. Só que
em vez desses impulsos serem convertidos em sinais magnéticos e gravados numa

12

fita, eles serão transformados numa longa sequência de dígitos binários, que irão
representar a forma de onda daquele som. No momento da reprodução, essa onda
será novamente reconstruída, transformada em impulsos elétricos e enviada para as
caixas acústicas. Entre essas duas etapas do processo, o som em sua forma binária
pode ser alterado, manipulado e tratado, podendo ter sua qualidade melhorada,
criando novos efeitos e até descaracterizando o som original.

2.3.2 Parâmetros para digitalização do som

No momento da digitalização do som alguns parâmetros importantes devem ser
definidos: taxa de sampleamento (sample rate) ou taxa de amostragem, tamanho do
sample (sample size) ou quantização, e o número de canais. A combinação de
valores desses parâmetros irá definir a qualidade do áudio digital e a quantidade de
memória necessária para armazená-lo. Existem diversos softwares que manipulam
esses parâmetros, mas o ideal é que eles sejam definidos no momento da gravação.
Um som gravado em baixa qualidade e melhorado depois não possui a mesma
qualidade de um já digitalizado com valores mais elevados, pois apesar do software
tentar elevar a qualidade do arquivo, ele não tem como adivinhar a informação que
foi omitida para o arquivo ficar menor.
A taxa de sampleamento define com que frequência amostras da onda sonora
são capturadas e digitalizadas. Por isso podemos chamá-la também de taxa de
amostragem. Um sample é uma pequena parte do som (muitas vezes com duração
menor que 1/44000 segundo), esta taxa define exatamente a duração dessa
pequena parte do som. Quanto maior esta duração, menor será a qualidade do
áudio, pois a taxa de amostragem seria muito baixa (geralmente esta taxa varia
entre 11kHz e 48 kHz, ou seja, de 11.000 a 48.000 amostras por segundo). Em
outras palavras, quanto maior for a taxa de amostragem, mais informações sobre a
onda serão capturadas num mesmo intervalo de tempo, e consequentemente o som
terá maior precisão e melhor qualidade.
A combinação entre a taxa de sampleamento e o tamanho do sample é que
define efetivamente a qualidade final do áudio digitalizado. Definiu-se a combinação
16 bits a 44,1KHz como a ideal, esta é utilizada na gravação de CDs, que utiliza a
mesma técnica descrita acima, chamada PCM, também usado para designar

13

arquivos de som digitalizado em formato não comprimido, como o Wave. A única
diferença desses tipos de arquivos para os dados do CD é que estes não são
formatados (não estão divididos em blocos, não possuem cabeçalhos, informações
de versões e etc), mas sim gravados no seu formato puro (raw data).[1][2][3][7]

2.4 Compressão e Compactação

Um sinal digital, em geral, carrega muita informação redundante. Se eliminarmos
essa redundância conseguimos reduzir em muito a quantidade de bits gerados, que
em alguns casos pode ser muito grande.
Quando eliminamos apenas a redundância de um sinal, não há perda de
informação e dizemos que fizemos uma compactação, ou compressão sem perdas.
No entanto, podemos também diminuir a quantidade de bits com alguma perda de
informação. Dependendo de quem for o usuário da informação, parte dela pode ser
considerada pouco útil. Raramente é necessário manter o sinal original intacto no
caso das mídias vídeo, áudio e imagens estáticas, uma vez que o usuário final
perderia de qualquer forma parte da informação por limitações físicas; que é o caso
do ouvido e olho humano. Vemos assim que a quantidade de informação que
podemos perder pode ser dependente do usuário, mas ela também pode depender
da tarefa em desenvolvimento. Quando na redução dos dados gerados há perda de
informação, dizemos que fizemos uma compressão com perdas, ou simplesmente
compressão. [3]

2.5 Formatos de Áudio [4]

2.5.1 Formatos não-comprimidos

Formatos não comprimido garante qualidade máxima, pois não modifica nenhum
bit do original. Em contrapartida, exigem espaço. Um CD de áudio utiliza o CDDA
(Compact Disc Digital Audio) e suporta 80 minutos de música, por exemplo. WAV e
AIFF são exemplos de não comprimidos.

14

2.5.1.1 WAV

WAV é a sigla para Waveform Audio File Format, e foi desenvolvido pela
Microsoft e IBM para armazenamento de áudio em PCs. É baseado em PCM e não
“sacrifica” dados, portanto exige bastante espaço. Em média, ocupa até 10 MB por
minuto. É compatível com praticamente qualquer tocador atual. Pela qualidade
máxima, é indicado para edições, mixagens e trabalhos profissionais.
Como limitação, arquivos nesse formato não podem ter mais que 4 GB. As
extensões comuns são WAV e WAVE.

Figura 7 - Cabeçalho de um arquivo WAV
Fonte: (https://ccrma.stanford.edu/courses/422/projects/WaveFormat/).

15

2.5.1.2 AIFF

AIFF é a sigla para Audio Interchangeable File Format, e pode-se dizer que é
para a Apple o que WAV é para a Microsoft. Também baseado em PCM, é um
formato não comprimido, portanto de qualidade, mas que demanda espaço. A
extensão comum é AIFF ou AIF, mas a lista de tocadores compatíveis é um pouco
menor que o formato WAV.

Figura 8 - Cabeçalho de um arquivo AIFF
Fonte: (http://www.paulbourke.net/dataformats/audio/).

16

2.5.2 Formatos Comprimidos

Os formatos comprimidos, como o nome sugere, comprimem dados com o
intuito de diminuir o tamanho deles. Formatos como APE, FLAC e M4A são
conhecidos como lossless e capazes de comprimir áudio sem perder qualidade.
Outros formatos comprimem ainda mais os arquivos, ganhando muito espaço.
No entanto, eles já utilizam o princípio de abrir mão da qualidade absoluta para
ganhar mais espaço e comodidade. Uma maneira de conseguir isso é remover
faixas de áudio teoricamente imperceptíveis pelo ouvido humano. Há perda de
qualidade, mas muitas vezes ela é realmente imperceptível. Por isso, formatos
comprimidos são mais populares para o usuário comum. Um exemplo é o MP3.

2.5.2.1 FLAC

É a sigla para Free Lossless Audio Codec, criado em 2003. Como afirmam os
desenvolvedores, é como se fosse um ZIP, porém feito especificamente para áudio e
com a vantagem de poder ser executado em vários players. Ele também é baseado
em PCM, e os dados têm uma espécie de assinatura que permitem a conferência da
integridade do arquivo.
Uma vantagem do formato é o cue sheet, ou seja, um arquivo com todas as
referências para a divisão de faixas de um álbum. Por exemplo, é possível ripar um
CD em um único arquivo e utilizar o cue sheet para dividir as faixas. O player ou
gravador, neste caso, precisa ser compatível com a extensão CUE.
A velocidade de codificação nesse formato é rápida e exige menos
processamento em comparação com outros codecs. Ele é não proprietário e pode
ser usado livremente. A popularidade do formato cresce com o aumento da
velocidade da conexão com a internet.
Arquivos FLAC ultrapassam a marca dos 1000 kbps, atestando a qualidade de
áudio.

17

2.5.2.2 APE

Esta é a extensão do Monkey Lossless Audio File, outra maneira de comprimir
áudio sem perder qualidade, que também se descreve como um ZIP para músicas.
Tem código aberto disponível, e conta com sistema de detecção de erros e sistema
próprio de tags. Em comparação com FLAC, apresenta melhores índices de
compressão, porém requer mais recursos de processamento, de acordo com
resultados de benchmarks.

2.5.2.3 ALAC

Sigla para o formato Apple Lossless Encoder. O MP4 é um tipo de extensão que
utiliza esse formato, juntando áudio e vídeo em um container. M4A é uma extensão
com as faixas de áudio de filmes com codec MPEG-4. FLAC, APE e ALAC em média
digitalizam áudio com a metade do tamanho do arquivo original, podendo variar
entre 40% e 60%. Esses formatos são bons para edição e para usuários que prezam
pela qualidade máxima. Uma opção para um backup de sua coleção de CDs, por
exemplo. Imagine que você fez toda sua coleção em MP3, e aí percebe que surgiu
uma tecnologia melhor? Ao fazer o backup com uma tecnologia sem perda, as
cópias permanecem fiéis aos originais independentemente dos avanços.

2.5.2.4 MP3

MP3 é o formato mais popular, compatível com tudo o que é software e player de
mídia. Criado na Alemanha, o formato utiliza a codificação perceptual, ou seja,
codifica somente as frequências sonoras captadas pelo ouvido humano.
A razão do sucesso do MP3 é o fato de conseguir equilibrar bons índices de
compressão e qualidade. Há, sim, a perda de qualidade se comparado com o
original, mas em níveis praticamente imperceptíveis para a maioria dos usuários. O
MP3 chega a criar arquivos com 10% do tamanho de arquivos PCM.

18

MP3 chega ao máximo de 320 kbps. Entre 192 kbps e 320 kbps, a qualidade é
comparável a um CD. Entre 128 kbps e 192 kbps, algumas pessoas já constatam
perda de qualidade, mas isso depende muito de quem ouve.

Figura 9 - Representação do Header de MP3
Fonte: (http://www.google.com/patents/EP1384230A1?cl=en).

2.5.2.5 OGG Vorbis

É um formato não proprietário e até mesmo com melhores taxas de compressão
que o MP3. Porém, a explosão do MP3 faz com que o suporte e a divulgação para
OGG encontre muitas dificuldades. Além disso, o fato de ser código aberto dificulta a
padronização do formato.
Os desenvolvedores afirmam que o formato foi desenvolvido para “substituir
completamente todos os formatos patenteados e proprietários”. O MP3 é uma
extensão proprietária, e esse é o atrativo que o OGG tenta chamar em artistas e

19

gravadoras. De uns tempos para cá, o IGG vem sendo consideravelmente utilizado
em jogos.

2.5.2.6 AAC

Sigla para Advanced Audio Coding (Codificação Avançada de Áudio) é
considerado o mais forte concorrente do MP3. O formato é baseado no padrão
MPEG-4 e foi popularizado pela Apple, que aderiu ao formato no iPod e no iTunes,
até mesmo vendendo os arquivos de áudio da loja nesse formato, em detrimento ao
MP3. Testes mostram que o formato AAC têm mais flexibilidade do que o MP3,
como consequência maior qualidade de compressão. De maneira geral, o formato
AAC tem melhor qualidade em taxas de bit menores (128 kbps, por exemplo).
O AAC não é um formato proprietário, apesar do que aparenta. A confusão se dá
pela adoção da Apple, mas não se confirma. O AAC é suportado por dispositivos da
Sony, PSP, Nintendo DSi, Xbox 360, Zune, iPod, iPhone, Windows Mobile. Em
termos de software, Media Player Classic, BSPlayer, Foobar, AIMP e Winamp são
alguns compatíveis.

2.5.2.7 WMA

Formato da Microsoft, ele tem habilidades de cópias com proteção de conteúdo,
em resposta aos problemas de distribuição que polemizam o MP3. É uma tecnologia
proprietária com quatro codecs distintos: WMA como competidor do MP3; WMA Pro,
mais moderno e com suporte para áudio de alta definição; WMA Lossless, que
comprime sem perda de qualidade; e WMA Voice, destinado e conteúdos de voz
com codificação em baixas taxas de bit.
O WMA surgiu com a promessa de criar arquivos equivalentes a MP3 com
metade do tamanho, porém não vingou. No entanto, em taxas baixas, de 128 kbps,
a qualidade dos dois é comparável.

20

3 IMAGEM

O termo "imagem" abrange um vasto leque de documentos iconográficos ou de
ilustrações, incluindo pinturas, gravuras, posters, cartões postais, fotografias, etc.
Uma imagem contém uma imensa quantidade de informações e que um
observador humano interpreta frequentemente globalmente e qualitivamente. [6]

Figura 10 - Representação de uma imagem Bitmap
Fonte: (http://www.musci.com.br/multimidia/ImagensDesenhos3D.pdf).

3.1 Definição

Uma imagem é composta por um conjunto de pontos, denominados "Pixels"
(Picture Elements) ou "Dots". Estes "pixels" estão dispostos na tela do computador
formando uma matriz de pontos que é denominada de "Bit-Map" ou "Mapa de Bits".
[5][6]
Este mapa de bits é um reticulado onde cada elemento da matriz possui uma
informação referente a cor associada aquele ponto específico. Uma determinada
imagem possuirá também uma "resolução" associada a ela, que é o número de
elementos que esta imagem possui na horizontal e na vertical. Cada elemento da
imagem possuirá uma localização, que é definida pela suas coordenadas.

21

3.2 Pixel

É o menor ponto que forma uma imagem digital, sendo que o conjunto de
milhares de pixels formam a imagem inteira. Cada pixel é composto por um conjunto
de 3 pontos: verde, vermelho e azul. E cada ponto é capaz de exibir 256 tonalidades
diferentes, que juntos podem exibir pouco mais de 16.7 milhões de cores diferentes.
Quanto mais pixels utilizados para representar uma imagem, mais real ela se
torna. Algumas vezes, o número de pixels em uma imagem é chamado de
resolução, embora a mesma tenha uma definição mais específica.
Os pixels que formam uma imagem digitalizada podem ou não estar em uma
correspondência de "um para um" com pixels da tela do computador, isso depende
como o monitor do computador está configurado para exibir uma imagem.
Existem vários outros termos que podem ser sinônimos de pixel, tais como
sample, byte, bit, dot, spot, etc.

Figura 11 - Representação de uma imagem ao nível de pixels.
Fonte: (http://www.ogimp.com.br/wp-content/uploads/2009/09/pixel-mario.gif).

22

3.3 Imagem bitmap

Também chamada de imagem "raster" ou matricial, é a representação em duas
dimensões de uma imagem como um conjunto finito de pontos definidos por valores
numéricos, formando uma matriz matemática ou malha de pontos, onde cada ponto
é um pixel. E cada pixel contem 3 cores, e cada cor contem 256 tons dessa mesma
cor. E juntas formam a cor do pixel.
Ao se aumentar (dar zoom) as dimensões da imagem, os pixels se distribuem por
uma área maior, tornando a imagem mais indefinida. Por isso a qualidade da
imagem se dá sobre dois aspectos: a quantidade de pixels por polegada (PPIs) e o
número de pixels na horizontal e na vertical (tamanho da imagem em centímetros).
Por exemplo: Se uma imagem que possui 1000 pixels x 1000 pixels, isso significa
dizer que ela possui 1 milhão de pixels ou que possui 1MP (mega pixel). Só essa
informação não basta para saber se a imagem é de boa definição. Para uma boa
definição é preciso que a imagem tenha 300 PPIs, permitindo assim que se faça
cópias de alta qualidade em papel fotográfico, por exemplo.[5]

Figura 12 - Imagem Raster (bitmap)
Fonte: (http://edpexpression.wordpress.com/articulos/vectores-vs-bitmaps/).

23

3.4 Imagem Vetorial

A imagem vetorial é criada recorrendo a entidades de desenhos como retas,
pontos, curvas, polígonos, entre outros elementos paramétricos, isto é, utilizam-se
vetores matemáticos para sua descrição, ou seja, ela é não é composta por pixels e
sim por linhas e curvas, nas quais combinando-se podem formar objetos
complexos.[5]
Cada linha descrita em um desenho vetorial possui nós, e cada nó possui alças
para manipular o segmento de reta ligado a ele.
Por serem baseados em vetores, essas imagens geralmente são mais leves e
não perdem qualidade ao serem ampliados, já que as funções matemáticas
adequam-se facilmente a escala, o que não ocorre com imagens raster que utilizam
métodos de interpolação na tentativa de preservar a qualidade.
Existe um tipo de imagem que mistura o calculo matemático e a imagem raster:
imagem fractais

Figura 13 - Imagem Vetorial
Fonte: (http://coizaradas.blogspot.com.br/2011/07/o-que-sao-desenhos-vetoriais.html).

24

3.5 Representação de imagem digital

Figura 14 - Imagem Binária
Fonte: (http://pt.wikipedia.org/wiki/Imagem_binária).

3.5.1 Amostragem e Quantização

Para gerar uma imagem digital f (x,y) deve ser digitalizada ao longo de x e y, e na
amplitude z = f (x,y). Para tanto é feita uma amostragem de f (x,y) nas direções x e y,
gerando uma matriz N x M amostras, seguida de uma quantização do valor de f (x,y)
em L níveis inteiros de cinza. Nesta matriz, cada elemento p (x,y) é chamado de
pixel. Dizemos então que a imagem tem M pixels na horizontal (eixo x) e N pixels na
vertical (eixo y) ou que a imagem tem n dpi (pontos por polegadas) na qual pode ser
chamada de resolução da imagem. [5][7]

Figura 16 - Representação de uma imagem monocromática digital
Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-wwwradiologiaeinovacao-com-br.pdf).

25

Figura 15 - Matriz de pixels

3.5.2 Profundidade da Imagem

O número L de níveis de quantização da função f (x,y) é normalmente uma
potência de 2.
Tomemos L como tendo um valor de 256, ou seja, cada pixel pode ter associado
um valor de cinza (no caso de imagem monocromática) entre 0 e 255, que requer no
máximo 8 bits para ser armazenado na memória do computador. Neste caso,
dizemos que a profundidade da imagem é 8 bits por pixel (bpp) (ou 1 byte por pixel).
Quando a profundidade da imagem é 1 bit por pixel (contém 2 níveis de cinza),
dizemos então que ela é uma imagem binária (preto e branco).[5]

Figura 17 - 8 bpp
Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm).

Figura 18 - 16 bpp

26

Figura 19 -24 bpp

3.5.3 Imagem Monocromática

Uma imagem monocromática é uma função de intensidade de luz bidimensional
f(x,y), onde x e y denotam coordenadas espaciais e o f no ponto (x,y) é proporcional
ao brilho (ou nível de cinza) da imagem neste ponto. [6]

Figura 20 - Eixos X e Y em uma imagem monocromática.

3.5.4 Resolução Espacial

É a quantidade de pixels ao longo de cada eixo x,y, ou seja, está associado ao
espaçamento físico entre amostras. A formação da imagem é diretamente
proporcional a quantidade de pontos (pixels) amostrados.[6]

27

Figura 21 - Como um sensor de uma câmera divide a imagem em porções discretas e coleta
uma cor (média) para cada uma delas.
Fonte: (http://www.imagesurvey.com.br/2009/03/resolucao-espacial-ou-o-tamanho-do-pixel-emimagens-digitais/).

A imagem forma-se no sensor da câmera fotográfica. Este sensor tem a tarefa de
dividir a imagem (que é contínua) em porções discretas, e capturar um valor de cor
(na verdade 3, um para cada canal RGB) para cada uma destas porções discretas,
chamadas de pixels. Quanto mais pixels tiver a imagem final, ou seja, quanto maior
for a resolução espacial, mais detalhes do objeto real podem ser observados na
imagem.

3.5.5 Imagem Multibanda

Em uma imagem digital monocromática, o valor do pixel é um escalar entre 0 e L.
Imagens multibandas podem ser vistas como imagens nas quais cada pixel tem
associado um valor vetorial - vários valores associados ao mesmo pixel.[6]
–P(x,y) = (l1,l2,...,ln) 0<=li<=Li-1, i=1,2,...,n. onde n é o numero de bandas. Uma
imagem multibanda pode também estar associada a uma sequência de imagens
monocromáticas.

28

Figura 22 - (a) uma imagem com n bytes por pixel. (b) n bandas com um byte por pixel.
Fonte: (http://www.dcc.unicamp.br/~cpg/material-didatico/mo815/9802/curso/node8.html).

3.5.6 Imagem Colorida

Uma imagem colorida é uma imagem multibanda, onde a cor em cada ponto (x,y)
é definida através de três grandezas luminância (brilho da luz), matiz (comprimento
da onda dominante) e saturação (grau de pureza da matiz).
Uma imagem colorida é representada por 3 bandas: Red, Green e Blue com
profundidade byte por pixel.[6]

Figura 2 - Niveis de Cores RGB
Fonte: (http://davidnaylor.org/blog/2005/02/all-16777216-rgb-colours/).

29

3.6 Formatos de Imagens [5][6][7]

3.6.1 Formatos não-comprimidos

3.6.1.1 BMP

As imagens neste formato podem suportar milhões de cores e preservam os
detalhes. No entanto, os arquivos neste padrão costumam serem muitos grandes, já
que não utilizam compressão. Isso até é possível em imagens com 256 cores ou
menos, mas não é comum. Imagens BMP podem variar de preto e branco (1 bit por
pixel) de até 24 bits de cores (16,7 milhões de cores). Por exemplo, uma imagem de
800×600 ocupa cerca de 1,5 megabytes. Porém, ele é livre de patentes e é bem
documentado. Por sua qualidade ser inferior, sempre é utilizada em menor tamanho
para fácil visualização.
Estas imagens são armazenadas em um formato dispositivo-independente
bitmap (DIB). O termo “independente de dispositivo” significa que o bitmap especifica
a cor do pixel em uma forma independente do método usado por um dispositivo de
exibição para representar a cor estes arquivos são encontrados em dois formatos: O
formato OS/2 não é comprimido (RGB codificado) e os arquivos Windows BMP e
de DIB podem ser salvados sem usar qualquer compressão (RGB codificado).

3.6.2 Formatos comprimidos

3.6.2.1 Com Perda de dados (lossy)

3.6.2.1.1 JPEG

O formato JPEG (Joint Photographic Experts Group), é sem dúvida o formato
mais popular para exibição de imagens fotográficas na Web.
JPEG usa um esquema de compressão de lossy, porém podemos definir a

30

quantia de compressão e consequentemente trocamos tamanho de arquivo por
qualidade de imagem. Podemos até mesmo obter arquivos extremamente pequenos
com qualidade pobre. Vale ressaltar que cada vez que uma imagem JPEG é salva,
costuma-se perder qualidade, pois, geralmente o software utilizado para tratá-la
aplica compressão, toda vez que essa ação é realizada. JPEG apoia cor de 24-bit
enquanto que o GIF, outro formato extensamente usado na Web apoia só 8-bits.
A compressão é executada em blocos de pixels de oito em cada lado. JPEG é
um processo de dois estágios com algoritmos de compressão e descompressão. Isto
significa que ele leva mais muito tempo para carregar e exibir que um arquivo de gif.
Você pode salvar imagens em um formato JPEG progressivo que trabalha um pouco
como um GIF interlaçado. Enquanto um JPEG padrão carrega de cima para baixo,
um JPEG progressivo exibe a imagem inteira que começa com os blocos maiores.
Isto permite exibir a imagem primeiro em baixa resolução e então preenche-la
quando mais dados chegam.

3.6.2.2 Sem perda de dados (lossless)

3.6.2.2.1 GIF

O formato GIF gera arquivos de tamanho reduzido, no entanto, seu uso não é
muito comum em fotografias, já que é capaz de trabalhar com apenas 256 cores (8
bits), chamadas de (cores indexadas). Assim, sua utilização é muito comum em
ícones, ilustrações ou qualquer tipo de imagem que não necessita de muitas cores.
Uma de suas características é que o GIF passou a permitir a inserção de uma
sequencia de imagens em um único arquivo. Quando um GIF é exibido, cada uma
das imagens inseridas é mostrada seguindo uma ordem, dando ao usuário a
sensação de movimento.
Outra característica é que ele é capaz de permitir um efeito conhecido como
fundo transparente. O GIF pode ter áreas da imagem que assimilam a cor do local
onde está sendo exibida, como se fosse, de fato, uma transparência. Exemplo: Se
em uma pagina estiver um fundo vermelho, as áreas “transparentes” do arquivo

31

serão mostradas na mesma cor.
Diferente do JPEG, mesmo usando compressão, não causa perda de
qualidade. Para salvar uma imagem de 24 bits como um GIF, você tem que reduzir a
profundidade do bit até 8 bits. Para reduzir tamanhos de arquivo em formatos GIF,
você pode reduzir o número de cores na imagem. Isto é difícil com a maioria das
fotografias, mas não com desenhos. Por exemplo, se sua imagem tem 16 ou menos,
você pode convertê-la para uma paleta de 4-bit (16-cores).

3.6.2.2.2 PNG

A maior característica do PNG é que ele tem: animação, fundo transparente e
compressão sem perca de qualidade, mesmo com salvamentos constantes do
arquivo. E é diferenciado dos outros, pois suporta milhões de cores, não apenas
256, sendo assim, uma ótima opção para fotos. Na animação o PNG por si só não
teria tal capacidade, há uma variação chamada APNG.
O esquema é o mesmo do padrão GIF: uma sequência de imagens inseridas
em um único arquivo. No caso, a primeira imagem é um arquivo PNG "normal", que
é exibido em situações onde, por algum motivo, a animação não pode ser
executada. PNG é talvez um pouco mais lento para ler ou escrever. Ele ainda é
menos utilizado do que TIF ou JPG, mas é outra boa opção para um trabalho de
qualidade sem perdas.

3.6.2.2.3 TIFF

O formato TIFF salva imagens criadas por scanners, frame grabbers e
programas que editam fotografia. Existem variações do formato, chamadas
extensões, assim pode ocorrer problemas ocasionais ao abrir um de outra fonte.
O formato TIFF oferece grande quantidade de cores e excelente qualidade de
imagem, o que aumenta consideravelmente o tamanho dos seus arquivos, embora
seja possível amenizar este aspecto com compressão sem perda de informações.
Um detalhe interessante é que o formato TIFF suporta o uso de camadas, isto é,
podem-se utilizar versões diferenciadas da imagem a ser trabalhada em um único
arquivo. Algumas versões são comprimidas usando o LZW ou outros métodos de
lossless. Arquivos TIFF suportam cores de até 24-bit.
Imagens em TIFF geralmente utilizam extensão .tif ou .tiff e suportam "fundo
transparente".

32

4 CONCLUSÃO

Este trabalho é resultado de um estudo amplo sobre tal assunto, que exigiu,
no decorrer do mesmo, análise, síntese e reflexão. Uma das vantagens oferecidas e
que considero a mais importante foi o conhecimento que tive a respeito de como
funciona a conversão digital de uma informação analógica, bem como os tipos de
arquivos, métodos de compressão, melhores taxas de amostragem, alguns termos
técnicos, etc. Foi um estudo realmente, muito interessante e instrutivo.
Concluindo que, questões como qualidade e fidelidade de uma conversão
analógico digital ainda é muito discutido. Existem argumentos de que a tecnologia
ainda está atrás da digitalização perfeita. Com equipamentos cada vez mais
tecnológicos, creio que daqui a pouco será possível armazenar todas as informações
analógicas em um formato digital.

33

REFERÊNCIAS
[1] E. M. Miletto, L. L. Costalonga, L. V. Flores, E. F. Fritsch, M. S. Pimenta e R.
M. Vicari “Introdução à Computação Musical” . Disponível em:
<http://www.inf.ufrgs.br/lcm/site_arquivos/textos/aula1/CMintro2.pdf> Acesso em: 19
jun. 2013
[2] Maria Cristina Felippetto De Castro “Capítulo 3 − Fundamentos de
Comunicação de Dados” de “Teleprocessamento I”. Disponível em:
<http://www.feng.pucrs.br/~decastro/TPI/TPI_Cap3_parte2.pdf> Acesso em: 19 jun.
2013
[3] Diogo Pinheiro Fernandes Pedrosa “Conceitos Básicos de Áudio Digital”.
Disponível em:
<http://www2.ufersa.edu.br/portal/view/uploads/setores/164/arquivos/SistemaMultimi
dia/aula07_audio_digital.pdf> Acesso em: 14 jun. 2013
[4] “As diferenças entre os formatos de áudio”. Disponível em:
<http://www.acidezmental.xpg.com.br/as_diferencas_entre_os_formatos_de_audio.h
tml> Acesso em: 19 jun. 2013
[5] Emerson Goia “Introdução ao processamento de imagens”. Disponível em:
<http://www.goya.pro.br/aula/dwnload/webdesign/Introd_proc_img.pdf> Acesso em:
16 jun. 2013
[6] Antonio G. Tomé “Aquisição e Representação da imagem digital”.
Disponível em:
<http://equipe.nce.ufrj.br/thome/p_grad/nn_img/transp/c2_aquis_v2.pdf> Acesso em:
18 jun. 2013
[7] Prof. Roberto Willrich “Sistemas Numéricos e a Representação Interna dos
Dados no Computador”. Disponível em:
<http://www.inf.ufsc.br/~willrich/Ensino/INE5602/restrito/ii-cap2.PDF> Acesso em: 15
jun. 2013

Representação de Áudio e Imagem

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Representação de Áudio e Imagem

Similaire à Representação de Áudio e Imagem (20)

Representação de Áudio e Imagem