AVALIAÇÃO OBJETIVA DE QUALIDADE DE VÍDEO NO PADRÃO H.264 PARA SISTEMAS DE TRANSMISSÃO DE STREAMING DE VÍDEO 

 

 

Informações sobre qualidade de vídeo da JJR Service Digital Mídia 

 

 

 Este artigo visa descrever e comparar as principais técnicas presentes na literatura para a avaliação objetiva de qualidade de vídeo no padrão H.264, aplicada a sistemas de transmissão de TV Digital. A avaliação objetiva idealmente permite a obtenção de uma métrica de qualidade automática, dispensando o uso de observadores humanos. Essa avaliação pode ser feita em laboratório ou em tempo-real, e nesses casos utilizam referência total ou reduzida, respectivamente. A grande maioria das técnicas de avaliação objetiva presentes na literatura foi testada em sequências no padrão MPEG2. Porém, os novos padrões de TV Digital, usados em diversas aplicações, utilizam atualmente o padrão H.264, que podem gerar diferentes tipos de degradação, principalmente quando a relação sinal ruído (SNR – Signal to Noise Rate) do canal de transmissão está em seu limite para permitir a recuperação da informação. Neste artigo, são apresentadas as principais técnicas de avaliação de qualidade objetiva usando referência total ou reduzida. Foram realizadas simulações com técnicas de referência total usando as principais técnicas presentes na literatura em sequências no padrão H.264, degradadas de diferentes maneiras. Por meio da comparação com uma base de dados subjetiva, foram obtidos os níveis de correlação com os dados obtidos pelas simulações.  A partir dos testes realizados, foi definida a melhor técnica de avaliação objetiva presente na literatura usando referência total para vídeos no padrão H.264.    
Palavras-chave: Avaliação Objetiva, Qualidade De Vídeo, Streaming de Vídeo ,TV Digital. 

 

INTRODUÇÃO 

 


A proposta neste artigo é a definição das melhores técnicas de avaliação automática (objetiva) de qualidade de vídeo digital no padrão H.264. O padrão H.264/AVC foi desenvolvido pelo ITU-T (International Telecommunication Union – Telecommunication 
Section) VCEG (Video Coding Experts Group) em conjunto com o ISO/IEC MPEG (Moving Picture Experts Group). Este rapidamente se tornou referência internacional para inúmeras aplicações de vídeo digital. O padrão H.264 tem sete configurações diferentes, chamadas perfis, e cada configuração foi feita pensando em aplicações distintas:  
• Baseline Profile (BP): Indicada para sistemas com poucos recursos. É mais comum ser usado em videoconferências ou aplicações móveis, por causa da sua baixa taxa de bitrate. • Main Profile (MP): Inicialmente desenvolvido para broadcast e armazenamento, foi aos poucos substituído pelo perfil High Profile.  
• Extended Profile (XP): Criado para streaming media, este perfil tem uma alta taxa de compressão. 
 • High Profile (HiP): Tal como o MP, este perfil foi criado para broadcast e armazenamento, em especial para alta definição. É o perfil adotado em discos HD DVD e Blu-Ray. 
 • High 10 Profile (Hi10P): Está muito além das necessidades dos consumidores de hoje em dia. Este perfil é baseado no HiP, adicionando 10 bits por frame para melhor precisão na decodificação da imagem. 
 •. High 4:2:2 Profile (Hi422P): Desenvolvido pensando em vídeos entrelaçados, este perfil tem por base o Hi10P com o suporte ao formato 4:2:2. 
 •. High 4:4:4 Predictive Profile (Hi444PP): Baseado no perfil Hi422P, mas utiliza o formato 4:4:4 e tem um maior número de bits para a precisão na decodificação de imagem (14 bits). Este perfil ainda tem a característica de fazer o processo de compressão em três cores separadas. Mais recentemente, em 2010, foi criado o JCT-VC (Joint Collaborative Team on Video Coding), com a responsabilidade de receber e avaliar propostas (Call for Proposals – CfP) [4], numa nova iniciativa de padronização conhecida como HEVC (High Efficiency Video Coding). Almeja-se um ganho de compressão em torno de 100% (metade da taxa) comparado com o H.264/AVC, mantendo a mesma qualidade de imagem. 
Um recurso importante nos decodificadores set-top box, é a possibilidade de se estabelecer um canal de retorno, comunicando o usuário e a distribuidora fornecedora de conteúdo. Tal canal pode ser utilizado não somente para a interatividade [5], mas também 
pode permitir o envio de informações de qualidade de sinal até então indisponíveis às emissoras. A partir disso, é possível se estimar a qualidade com que o sinal está sendo reproduzido e, assim, pode-se realimentar um sistema até então estático.  Neste artigo são abordadas as duas formas principais de avaliação de qualidade objetiva, usando referência total ou referência reduzida. Na avaliação objetiva, denominada “Em-Laboratório” ou “Full-Reference” (FR) [6], o sinal de referência, que permite a comparação entre as sequências de vídeo original e degradada, está presente a todo o momento.  Uma das dificuldades em se medir a qualidade do vídeo em ambientes reais está justamente na limitação ou ausência de um sinal de referência para essa comparação. Para tornar essa medida possível, é necessário utilizar a técnica denominada avaliação de qualidade “Emserviço” ou Reduced Reference (RR) [6] e pode ser feita com referência reduzida ou nenhuma referência. No caso de avaliação com referência reduzida, envia-se, geralmente, junto com o vídeo codificado, uma quantidade limitada de dados (cujo tamanho ainda gera controvérsias) que servirá de referência no receptor. No último tipo de avaliação denominado No-Reference (NR), não se utiliza nenhuma referência para estimar a qualidade do vídeo. Na próxima seção serão descritos os principais algoritmos da literatura que abordam as avaliações FR e RR.

 

 

 

REVISÃO BIBLIOGRÁFICA 


Toda a teoria e prática de comunicações por imagem e vídeo têm como base a forma como o ser humano recebe e processa a informação visual. Não faz sentido se utilizar de informações absolutamente não perceptíveis ao olho humano, que podem ser descartadas. Um dos objetivos do design de codecs é minimizar a distorção percebida da imagem/vídeo. O Sistema Visual Humano (ao qual se refere comumente como HVS, do inglês Human Visual System) é o sistema pelo qual o observador humano vê, interpreta e responde ao estímulo visual. Seus componentes principais são o olho, a retina, o nervo ótico e o cérebro.  Alguns exemplos de características do HVS que influenciam diretamente os sistemas de vídeo digital são: maior sensibilidade a baixas frequências espaciais, maior sensibilidade a detalhes de luminância que de cores, a ilusão de movimento suave alcançada pela apresentação de quadros a taxas superiores a 2030Hz [7]. Outra das observações constatadas com relação ao HVS é que as respostas às observações variam de indivíduo para indivíduo. Este fato é um complicador do estudo da qualidade das imagens – essencial para o design de codecs eficientes. Os métodos existentes para realizar este estudo são classificados em subjetivos e objetivos. Os 
primeiros dependem da avaliação de pessoas, submetidas a uma sequência de imagens pré-determinada, seguindo-se de uma análise estatística dos resultados obtidos, existindo diversos procedimentos padronizados para tal. Os métodos objetivos são muito mais simples e, por esta razão, são os mais utilizados. Esses métodos realizam uma comparação entre as duas imagens em questão, baseando-se diretamente nos valores de seus pixels. Certamente a medida mais utilizada é o PSNR (Peak Signal-to-Noise Ratio) [8], calculado segundo a Equação 1 abaixo: 

 

imagem1.JPG

Onde n é o número de bits utilizados para o armazenamento de um pixel e MSE é erro quadrático médio entre a imagem a comparar e a referência. O PSNR, dado em decibéis, é calculado para cada componente (em geral, utiliza-se a luminância das imagens), de forma muito fácil e é frequentemente usado para comparar a qualidade de imagens codificadas e não codificadas. Entretanto, este sofre de diversas limitações, a principal sendo que ele não é bem correlacionado com medidas subjetivas. Imagens com erros muito distintos, alguns muito mais visíveis que outros, podem apresentar o mesmo PSNR, conforme mostra a Figura 1 [9]. Por este motivo, foram elaboradas outras diversas técnicas objetivas de medição. A seguir, é feita uma descrição das técnicas mais utilizadas na literatura.    Um dos principais métodos de avaliação utilizado atualmente pela comunidade científica é o MSSIM (Mean Structural Similarity Index) [10]. Este indicador é baseado em informação estrutural, muito importante para o HVS, e é baseado na expressão: 
 

imagem 2.JPG

Onde µx e µy são médias locais para cada pixel, calculadas numa região no seu entorno, e ϭ x e ϭy são os desvios-padrão (calculados por estimadores não polarizados) nessa  mesma região, e C1 e C2 são constantes usadas para evitar resultados instáveis quando  
(µx)2 + (µy)2 ou (ϭx)2 + (ϭy)2 estão muito próximos de zero.    
Figura 1. Comparação de imagens com diferentes tipos de distorção, todas com MSE = 210 (mesmo PSNR). (a) original. (b) com aumento de contraste. (c) com média deslocada. (d) comprimida com JPEG. (e) imagem borrada. (f) com ruído impulsivo "salt-pepper”. 
 

imagem 3.JPG

O resultado do cálculo deste indicador fornece, na realidade, um mapa de índices, calculados em cada região. Dessa forma, obtém-se o MSSIM pela média desses índices, já que, na prática, requer-se o uso de um único valor por imagem. A Tabela1 mostra os vários valores de MSSIM, comprovando a eficácia desse indicador para diversos tipos de ruído afetando a imagem. Outra vantagem é sua independência com relação à resolução da imagem a ser avaliada, como também acontece com o PSNR. Outro importante métrico é a proposta pela National Telecommunications and Information Administration (NTIA) [11], que desenvolveu o modelo de qualidade de vídeo denominado VQM (Video Quality Metric), que utiliza parâmetros espaciais e temporais na análise.   

 

imagem 4.JPG

O VQM é estruturado em cinco modelos de qualidade totalmente automatizados; (1) Geral, (2) Televisão, (3) Vídeo conferência, (4) Desenvolvedor e (5) PSNR.  O modelo geral foi desenhado para ser um VQM de propósito geral para sistemas de vídeo que cobrem uma ampla gama de qualidade de taxas de bits. O modelo para televisão foi otimizado especificamente para degradações televisivas (i.e. MPEG-2), enquanto o modelo para vídeo conferência foi otimizado especificamente para degradações de vídeo conferência (i.e., H.263, MPEG-4). O modelo para desenvolvedores foi otimizado usando a mesma gama de qualidades de vídeo e taxa de bits como o modelo geral, mas com uma restrição adicional de computação rápida. O modelo PSNR foi derivado da formula tradicional do PSNR. 
Uma séria restrição no cálculo da métrica VQM é o alto custo computacional para sua implementação, o que praticamente inviabiliza o seu uso para aplicações em tempo real, sendo então não considerado para nossa avaliação de streaming de vídeo no sistema OTT. 
Como um exemplo representativo de métrica de qualidade baseada em modelo HVS, existe ainda um importante métrica desenvolvida por Van den Branden Lambrecht, et al [5]. Sua proposta de Moving Picture Quality Metric (MPQM) consiste de uma decomposição de canal em 4 escalas, 4 orientações e 2 fluxos temporais. As saídas resultantes dos canais são subtraídas para criar um sinal de erro. Um mascaramento é implementado por normalização dos erros de canal por limiares de visibilidade dependente de estímulo (similares aos usados em métricas de avaliação de qualidade subjetiva de imagens). Uma avaliação de qualidade de movimento foi proposta pela extensão do MPQM pela extração da informação de movimento [6]. Outra métrica baseada na transformada wavelet combina a facilidade de implementação do contraste RMS (Root Mean Square) com propriedades de médio e baixo nível da visão utilizando resultados psicofísicos para quantificar a percepção visual de distorções em imagens naturais. Essa métrica é o VSNR [12]. O VSNR (Visual Signal to Noise Rate), opera por meio da seguinte modelagem: 1) os efeitos das médias dos mascaramentos que imagens 
naturais impõem à detecção de distorções, e 2) o contraste percebido de distorções supra liminares, e 3) uma medida alternativa de degradação estrutural com base no nível médio de propriedade visual global de precedência. O termo MVSNR é usado quando se obtém a média dos valores VSNR obtidos em uma sequência de imagens.  

 

 


TESTES 

 


A base de dados escolhida para os testes foram a LIVE Video Quality Database [15]. Essa base possui 10 sequências (mostradas na Figura 2) de vídeo H.264, no formato YUV 4:2:0 e com resolução espacial 768x432 pixels, degradadas por 4 processos diferentes.  Juntamente com a base escolhida foi utilizada a tabela com os respectivos valores de qualidade subjetiva. As métricas PSNR, MSSIM e MVSNR com referência total foram então comparadas, realizando-se as medidas de correlação de Pearson entre os valores objetivos obtidos e a base subjetiva. Para os testes, foi utilizado o software Matlab, com máquina com processador Intel-I3 e 4GB RAM. Também pode ser usado o software MSU-Video Quality Measurement na Universidade de Moscou (nosso caso da JJR).  
Figura 2. Sequências da base LIVE usadas para os testes (a) "bs" - Blue sky, (b) "mc" - Mobile and Calendar,(c) "pa" - Pedestrian Area, (d)"pr" - Park run, (e) "rb" - Riverbed, (f)"rh" - Rushhour, (g)"sf" - Sunflower, (h)"sh" - Shields,  (i) "st" - Station, (j) "tr" – Tractor. 

 

imagem 5.JPG

RESULTADOS OBTIDOS 


Os gráficos a seguir (Figuras 3, 4 e 5) mostram os valores de PSNR, MSSIM e MVSNR em função dos valores subjetivos.  A Tabela 2 mostra os valores de correlação de Pearson médio entre valores das métricas processados e a base subjetiva. A partir dos resultados, pôde-se observar que a métrica MVSNR foi a que obteve o maior valor de correlação com a subjetiva. 
Figura 3. Valores de PSNR normalizados em função dos valores subjetivos.   
 

imagem 6.JPG

Figura 4. Valores de MSSIM em função dos valores subjetivos. 
 

imagem 7.JPG

Figura 5. Valores de VSNR em função dos valores subjetivos 
 

imagem 9.JPG

Tabela 2 - Valores de correlação de Pearson médio entre valores das métricas processados e a base subjetiva 

imagem 8.JPG

5. CONCLUSÕES 
As técnicas de avaliação objetiva aqui apresentadas procuram explorar diferentes características do sistema visual humano. Para comparação das métricas, na maioria dos casos, o PSNR se torna referência. Nesse caso, a melhoria do nível de correlação de Pearson ( Em estatística descritiva, o coeficiente de correlação de Pearson, também 
chamado de "coeficiente de correlação produto-momento" ou simplesmente de "de Pearson" mede o grau da correlação (e a direção dessa correlação - se positiva ou negativa) entre duas variáveis de escala métrica (intervalar ou de razão)Este coeficiente, normalmente representado por ρ assume apenas valores entre -1 e 1. 
• ρ=1 Significa uma correlação perfeita positiva entre as duas variáveis. 
• ρ= -1 Significa uma correlação negativa perfeita entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui. 
• ρ=0 Significa que as duas variáveis não dependem linearmente uma da outra. )  E complexidade do PSNR são usadas como comparação para se medir o custo-benefício das outras técnicas. As métricas baseadas em referência reduzida precisam ser mais bem trabalhadas na literatura e os níveis de referência revistos, para adequação a cada tipo de avaliação específico. Nos testes realizados para avaliação objetiva com referência total, a métrica MSNR foi a que ofereceu os maiores níveis de correlação de Pearson considerando a base subjetiva existente. Como trabalhos futuros pretende-se repetir os testes para diversos níveis de referência reduzida. 
Estamos trabalhando com avaliação de Pearson e outras já embutidas no software MSU VIDEO QUALITY MEASUREMENT TOOL 5.0 B ETA   CS MSU GRAPHIC S&MED IA LAB MOSCOW STATE UNIVERS ITY, SEPTEMBER 2015. 
MSU qualidade de vídeo ferramenta de medição (VQMT- Video Quality Measurement Tools) é um programa para avaliação objetiva da qualidade de vídeo. Ele fornece a funcionalidade tanto para full-referência (dois vídeos são examinados) e referência única (um vídeo é analisado) comparações. Esquema básico da ferramenta é ilustrada na Figura abaixo. 

 

imagem 10.JPG

Entradas VQMT: 
• Original arquivo de vídeo original (ou referência um em caso de teste único de referência- saída do HDMI do SET TOP BOX): • Referência 1 [opcional]: primeiro arquivo de vídeo a estimativa de qualidade deve ser calculado para • Referência 2 [opcional]: segundo arquivo de vídeo a estimativa de qualidade deve ser calculado para • Vídeo com máscara: arquivo de vídeo com máscara que designa as regiões de interesse. Valores de métricas são calculados na área especificada somente. 
Saídas VQMT: 
• Por-frame valores: CSV (Comma Separated Values) arquivo contendo valores de cada métrica selecionada para cada quadro de cada arquivo de referência. • Os valores médios: arquivo CSV, contendo valores médios de cada métrica selecionada para cada arquivo de referência. • Visualization : arquivo de vídeo (avi ou mp4) que indica (pela cor e luminância) valores de métrica em cada pixel de cada fotograma de cada vídeo de referência. Vídeo Visualizado é gerado para cada métrica cada componente de cor e cada arquivo de referência. 
A qualidade de vídeo é uma característica de um vídeo passados através de um sistema de transmissão / processamento de vídeo, uma medida formal ou informal de degradação de vídeo percebida (tipicamente, em comparação com o vídeo original). Sistemas de processamento de vídeo podem introduzir algumas quantidades de distorção ou artefatos no sinal de vídeo, de modo que a avaliação da qualidade de vídeo é um problema importante. MSU VQMT é um programa para medições de qualidade de vídeo. Esta aplicação permite-lhe criar uma comparação objetiva de CODECS de vídeo e realizar análises filtros de processamento de vídeo. É uma ferramenta utilizada pela FOX, CISCO , SONY e outras sendo a resultante da saída do SET TOP BOX do assinante e capturando este vídeo para parametrizar as degradações e obter uma métrica dos erros, com resultados objetivos e gráficos e DASHBOARD. 
6. REFERÊNCIAS 
[1] ABNT. NBR 15602-1- Televisão digital terrestre — Codificação de vídeo, áudio e multiplexação Parte 1: Codificação de vídeo. Rio de Janeiro: ABNT, 2008.   
[2] Terrestrial Integrated Services Digital Broadcasting (ISDB-T) Document, Specification of Channel Coding, Framing Structure and Modulation., 1998.   
[3] ITU-T and ISO/IEC, ITU-T Rec. H.264 ISO/IEC 14496-10 “Advanced Video Coding (AVC) ”, May 2003.   
[4] ISO/IEC JTC1/SC29/WG11 and ITU-T Q6/16, “Joint Call for Proposals on Video Compression Technology”, WG11 Doc. N11113 and Q6/16 Doc. VCEG-AM91, Kyoto, jan. 2010.   
[5] ABNT. NBR 15607 - Televisão digital terrestre – Canal de interatividade. Rio de Janeiro: ABNT, 2008.  
[6] ARTHUR, R., Avaliação objetiva de codecs de vídeo, Dissertação de Mestrado, Faculdade de Engenharia Elétrica e de Computação FEEC-Unicamp, Campinas, abril de 2002.   
[7] RICHARDSON, I. E. G. Video Codec Design. s.l.: John Wiley & Sons, 2002.   
[8] HUYNH-THU, Q., GHANBARI, M. Scope of validity of PSNR in image/video quality assessment. Electronics Letters 44 (13):
800–801, 2008.