Descoberta da estrutura
A descoberta da estrutura (structure discovery)está diretamente relacionada à consistência e ao formato. Por exemplo, para um grupo de entradas de números de telefone, pode ser necessário conferir se alguma delas contém símbolos ou letras em vez de apenas números.
A descoberta da estrutura também emprega análise estatística básica para coletar informações como desvio padrão, média e modo. Isso pode ajudá-lo a identificar padrões e corrigir problemas.
Descoberta de conteúdo
A descoberta de conteúdo (content discovery) procura erros em registros de dados individuais. Esse tipo de perfil de dados captura problemas de qualidade de dados, como valores ausentes e informações ambíguas.
A descoberta de conteúdo é uma verificação importante para fazer ao gerenciar seus dados, especialmente ao lidar com campos de dados que exigem precisão. Um endereço, por exemplo, não está completo a menos que tenha um CEP correspondente. Abreviações, como o uso de "R." para "Rua" e "SP" para "São Paulo," também podem afetar os sistemas de transportadoras por correio. Embora esses problemas possam parecer inofensivos, eles fazem toda a diferença.
Descoberta de relacionamento
A descoberta de relacionamento (relationship discovery) cataloga as conexões entre diferentes conjuntos de dados, incluindo semelhanças e diferenças. Às vezes, dois conjuntos de dados precisam ser combinados para criar valor. Por exemplo, o nome de um cliente precisa ser combinado com seu endereço correto para garantir a entrega do produto. A descoberta de relacionamentos também é essencial para amostragem, duplicação e transferência de dados, para que seja possível manter a integridade dos dados.
Ferramentas e técnicas de criação de perfil de dados
Há uma variedade de ferramentas e técnicas de criação de perfil de dados disponíveis para não apenas melhorar a qualidade dos dados, mas também resolver eventuais problemas de qualidade. Aqui estão algumas técnicas de criação de perfil de dados para você começar:
- Criação de de perfil de coluna: em primeiro lugar, a criação de perfil de coluna realiza análise de frequência. Conta o número de vezes que um valor aparece em uma única coluna. Em seguida, ele usa essas informações para descobrir padrões e produzir estatísticas. Para colunas numéricas, o valor mínimo, a média e o desvio padrão são normalmente calculados.
- Criação de perfil entre colunas: a criação de perfil entre colunas lida com análise de chave e análise de dependência. A análise de chave procura por chaves primárias que identifiquem cada conjunto de dados, como nome do cliente, número do produto ou número da placa. A análise de dependência procura conexões dentro de um conjunto de dados.
- Criação de perfil entre tabelas: a criação de perfil entre tabelas é mais complexa. Ela analisa várias colunas em diferentes tabelas para localizar relacionamentos e dependências mais amplos. Dados desviados e discrepâncias são frequentemente descobertos neste processo.
- Validação de regra de dados: notas de validação de regras em que a qualidade dos dados pode ser melhorada através da verificação do material coletado em relação a alguns critérios estabelecidos.
Agora que você entende as técnicas básicas para criação de perfil, vamos dar uma olhada em algumas ferramentas de criação de perfil de dados:
- Informatica Data Quality: Uma ferramenta de criação de perfil que permite automatizar a avaliação de qualidade dos dados, o Informatica Data Quality encontra relacionamentos, sinaliza problemas nos dados, e oferece suporte à transformação de dados com padronização, validação, enriquecimento e muito mais.
- Aggregate Profiler: O Aggregate Profiler é uma ferramenta de código aberto para criação de perfil e qualidade de dados. Ele é uma ferramenta de código aberto compatível com geração, preparação e mascaramento de dados. Além disso, conta com alertas em tempo real para problemas e alterações de dados.
- Oracle Enterprise Data Quality: Essa ferramenta é integrada ao Oracle Master Data Management, e permite criação de perfil de dados, auditoria, limpeza, e correspondência para uma variedade de tipos de dados, como dados de clientes, produtos, financeiros e operacionais.
Aproveite ao máximo seus dados
Aproveite ao máximo seus dados com a criação de perfil de dados. Garanta a melhor qualidade dos dados para que você tome decisões baseadas em dados que levem sua empresa a um novo patamar.
Trabalhar com dados pode ser assustador, mas o Mailchimp está aqui para ajudar. Confira nossa Biblioteca de marketing para obter mais recursos sobre como usar dados para prever, planejar e acompanhar o desempenho e sucesso de sua empresa, incluindo tutoriais do Google Analytics e como proteger os dados dos seus clientes.
Precisa de mais maneiras de formatar e simplificar seus dados brutos? Dê uma olhada em nossas práticas recomendadas de dados informativos. Deixe o Mailchimp orientar você na melhoria de cada etapa de sua jornada do cliente, do cliente potencial à finalização da compra.