Dados semi-estruturados são dados que não foram organizados num repositório especializado, como uma base de dados, mas que no entanto têm informações associadas, como metadados, que os tornam mais fáceis de processar do que dados brutos.
A diferença entre dados estruturados, dados não estruturados e dados semi-estruturados:
Dados não-estruturados não foram organizados num formato que facilite o acesso e o processamento. Na realidade, muito poucos dados são completamente não estruturados. Mesmo coisas que são frequentemente consideradas dados não estruturados, tais como documentos e imagens, são estruturadas até certo ponto. Dados estruturados são basicamente o oposto de dados não estruturados: Foi reformatado e seus elementos organizados em uma estrutura de dados para que os elementos possam ser abordados, organizados e acessados em várias combinações para fazer melhor uso da informação. Os dados semi-estruturados estão algures entre os dois. Não está organizado de uma forma complexa que torne possível o acesso e análise sofisticados; no entanto, pode ter informações associadas a ele, como a marcação de metadados, que permite que elementos contidos sejam endereçados.
Aqui está um exemplo: Um documento Word é geralmente considerado como um dado não estruturado. Entretanto, você pode adicionar tags de metadados na forma de palavras-chave e outros metadados que representam o conteúdo do documento e tornam mais fácil para esse documento ser encontrado quando as pessoas procuram por esses termos -- os dados agora são semi-estruturados. No entanto, o documento ainda carece da organização complexa da base de dados, portanto, não está totalmente estruturado.
Na realidade, há uma considerável sobreposição entre os limites das três categorias, que às vezes são descritas coletivamente como o continuum de dados.