UTF-16 (16- bit Unicode Transformation Format)

UTF-16 (16- bit Unicode Transformation Format) é um método padrão de codificação de dados de caracteres Unicode. Parte do Unicode Standard versão 3.0 (e versões de número superior), o UTF-16 tem a capacidade de codificar todos os caracteres Unicode definidos atualmente. O UTF-16 é especificado no Anexo Q da norma ISO/IEC 10646 e na IETF RFC 2781.

Unicode é projetado para acomodar todos os sistemas de escrita conhecidos do mundo. O sistema atualmente emprega três codificações diferentes para representar conjuntos de caracteres Unicode: UTF-8, UTF-16 e UTF-32. Cada codificação define um sistema em que caracteres em algum conjunto de caracteres podem ser representados de forma binária em um arquivo . Cada uma dessas representações binárias de um caractere é chamada de ponto de código. Unicode pode definir mais de um milhão de codificações distintas (10FFFF pontos de código em hexadecimal ; 1,114,112 em decimal). Os pontos de código Unicode são divididos em 17 planos, dos quais os Planos 0 a 2 são mais comuns:

  • Plano 0, conhecido como Painel Básico Multilingue (BMP), contém caracteres para quase todas as línguas modernas, bem como os caracteres especiais mais comuns.
  • Plano 1, conhecido como Plano Suplementar Multilíngue (SMP) é usado principalmente para scripts históricos como o Linear B e para símbolos musicais e matemáticos .
  • Plano 2, conhecido como Plano Ideográfico Suplementar (SIP), é usado para cerca de 40.000 Ideógrafos Han Unificados raramente usados em comunicações escritas diárias.

Os demais planos ainda estão, em grande parte, sem uso.
>

UTF-16 codifica caracteres em sequências binárias específicas usando uma ou duas sequências de 16 bits. Como existem três diferentes esquemas de codificação para mapear pontos de código para sequências de 8 bits ou octetos, existem três diferentes esquemas de codificação em torno do modelo básico de sequência de 16 bits.

UTF-16 é por vezes utilizado de forma intercambiável com o UCS-2 embora tal utilização não seja estritamente correcta.