De-anonymization é uma estratégia de mineração de dados na qual dados anônimos são cruzados com outras fontes de dados para reidentificar a fonte de dados anônima.
Ainda informação que distingue uma fonte de dados de outra pode ser usada para desanonimização. Embora o conceito de anonimização remonte a várias décadas atrás, o termo foi manchete em 2006, quando Arvind Narayanan e Vitaly Shmatikov entraram em um concurso organizado pela Netflix, um serviço popular de aluguel de filmes. Narayanan e Shmatikov aplicaram sua metodologia de anonimização a um conjunto de dados que continha as classificações de filmes anônimos de 500.000 membros, e conseguiram identificar com sucesso os dados do Netflix para uma série de membros específicos. De acordo com Narayanan e Shmatik, a anonimização requer dados abundantes, granulares e bastante estáveis ao longo do tempo e do contexto.
À medida que o governo dos Estados Unidos e outras nações avançam com iniciativas governamentais abertas, mais dados estão se tornando publicamente disponíveis através da Internet. Muitos desses dados foram eliminados para criar o que o governo chama de "conjuntos de dados limitados" Informações pessoalmente identificáveis (PII) como nomes, endereços e números de segurança social são removidos de conjuntos de dados limitados ou ofuscados através de um processo de anonimização de dados para que a fonte específica dos dados permaneça anônima. Essa garantia de anonimato protege a privacidade da fonte e permite ao governo compartilhar legalmente conjuntos de dados limitados com terceiros sem a necessidade de permissão por escrito. Tais dados provaram ser muito valiosos para os pesquisadores, particularmente na área da saúde. Os defensores da privacidade, no entanto, estão preocupados que, mesmo que os dados tenham sido apagados, grande parte deles está disponível que a identidade de um indivíduo específico poderia ser redescoberta.
p>>i>Ver também: regras de associação, business intelligence, opinion mining, OLAP, fuzzy logic