O Pré-processamento e limpeza dos dados é uma parte crucial no processo de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto (outliers). O auxílio de um especialista do domínio é fundamental, pois na maioria dos casos apenas alguém que realmente entende do assunto é capaz de dizer se um dado é um outlier ou um erro de digitação.
Nesta fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo de análise.
A identificação de dados inapropriados dentro do conjunto selecionado é problemática, e isto dificulta a automatização desta fase. Definir um dado como “ruim” dentro do conjunto depende da estrutura do mesmo e também de que aplicação é dada a ele (DUNKEL et al. , 1997).
Dados ausentes (missing values)
Um problema bastante comum nesta fase é a ausência de valores p ara determinadas variáveis, ou seja, registros com dados incompletos, seja por falhas no processo de seleção ou de revisão.
O tratamento destes casos é necessário para que os resultados do processo de mineração sejam confiáveis. Existem basicamente três alternativas de solução para esse problema:
- Usar técnicas de imputação, ou seja, fazer a previsão dos dados ausentes e completá-los individualmente. Esta solução é bastante eficiente para um conjunto pequeno de dados, onde pode ser feita pelo especialista no domínio de forma manual . O problema é que normalmente o volume de dados é muito grande, o que obriga o uso de softwares que apresentam resultados não tão precisos;
- Substituir o valor faltante pela média aritmética da variável. Esta técnica apresenta dois problemas: aplica-se apenas a variáveis numéricas e, quando pode ser aplicada, substitui o dado faltante por um aproximado, podendo acarretar na obtenção de resultados não tão corretos;
- Excluir o registro inteiro. Embora esta técnica exclua da análise um caso inteiro, muitas vezes pela falta de apenas um de seus atributos, é a melhor solução pois elimina o risco da análise ser feita com dados não reais.
Dados discrepantes (outliers)
Dados que possuem valores extremos, atípicos ou com características bastante distintas dos demais registros são chamados de discrepantes, ou outliers. Normalmente registros que contêm valores outliers são descartados da amostra, porém isto só deve ocorrer quando o dado representar um erro de observação, de medida ou algum outro problema similar. O dado deve ser cuidadosamente analisado antes da exclusão, pois embora atípico, o valor pode ser verdadeiro. Outliers podem representar, por exemplo, um comportamento não usual, uma tendência ou ainda transações fraudulentas. Encontrar estes valores é, muitas vezes, os objetivo da mineração de dados.