Posts com a Tag ‘KDD’

KDD 2009

segunda-feira, 29 de junho de 2009

Começou ontem e vai até a próxima quarta-feria (01/07), em Paris, a 15º ACM SIGKDD Conference on Knowledge Discovery and Data Mining. A conferência ocorre anualmente e é o principal evento sobre Data Mining do mundo.

Dentre as palestras, tutoriais e workshops destacam-se:

Workshop: Data Mining Case Studies and Practice Prize (DMCS #3) (Gabor Melli, Peter van der Putten, Brendan Kitts)

The 3rd Workshop on Social Network Mining and Analysis (SNA-KDD) (Lee Giles, John Yen, Prasenjit Mitra, Haizheng Zhang, Igor Perisic)

The Third International Workshop on Data Mining and Audience Intelligence for Advertising (ADKDD) (Ying Li, Arun C. Surendran, Dou Shen)

Tutorial: Planning, Running, and Analyzing Controlled Experiments on the Web (Ronny Kohavi, Roger Longbotham, John Quarto-vonTivadar)

Paralelo ao evento ocorre a KDD Cup 2009, uma Olimpíada de mineração de dados, cujo tema deste ano é Customer Relationship Management (CRM). A organização do evento disponibilizou uma grande base de dados da French Telecom Company Orange, onde os concorrentes devem encontrar consumidores propensos a comprar novos produtos e serviços.

Artigo: “KDD: Processo de Descoberta de Conhecimento em Bancos de Dados”

segunda-feira, 10 de novembro de 2008

“O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar em seus bancos de dados registros contendo preciosos dados sobre seus clientes. Os produtos adquiridos, e até mesmo aqueles que foram apenas consultados mas não comprados (isto para o caso das transações via Internet), aliados aos dados exigidos durante o cadastro do cliente, forma o que é chamado de “perfil”.

Conhecer o perfil do cliente traz uma série de benefícios para a instituição, o principal deles é a capacidade de melhorar a qualidade de seus serviços prestados. Conhecendo o público alvo é possível montar uma melhor estratégia de marketing e com isto obter resultados mais significativos com a venda de produtos e/ou serviços.”

Assim começa o artigo que escrevi em 2004 para o primeiro boletim do Grupo de Interesse em Engenharia de Software de Santa Catarina (GIES/SC), cujo PDF você pode baixar aqui.

Transformação dos dados

quarta-feira, 5 de novembro de 2008

A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining. Após serem selecionados, limpos e pré-processados, os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos possam ser aplicados.

Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Estes dados que estão dispersos devem ser agrupados em um repositório único.

Além disto, nesta fase, se necessário, é possível obter dados faltantes através da transformação ou combinação de outros, são os chamados “dados derivados”. Um exemplo de um dado que pode ser calculado a partir de outro é a idade de um indivíduo, que pode ser encontrada a partir de sua data de nascimento.  Outro exemplo é o valor total de um finaciamento que pode ser calculado a partir da multiplicação do número de parcelas pelo valor da parcela.

Pré-processamento e limpeza dos dados

segunda-feira, 3 de novembro de 2008

O Pré-processamento e limpeza dos dados é uma parte crucial no processo de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que  eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto (outliers). O auxílio de um especialista do domínio é fundamental, pois na maioria dos casos apenas alguém que realmente entende do assunto é capaz de dizer se um dado é um outlier ou um erro de digitação.

Nesta fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo de análise.

A identificação de dados inapropriados dentro do conjunto selecionado é problemática, e isto dificulta a automatização desta fase. Definir um dado como “ruim” dentro do conjunto depende da estrutura do mesmo e também de que aplicação é dada a ele (DUNKEL  et al. , 1997).

Dados ausentes (missing values)
Um problema bastante comum nesta fase é a ausência de valores p ara determinadas variáveis, ou seja, registros com dados incompletos, seja por falhas no processo de seleção ou de revisão.

O tratamento destes casos é necessário para que os resultados do processo de mineração sejam confiáveis. Existem basicamente três alternativas de solução para esse problema:

  • Usar técnicas de imputação, ou seja, fazer a previsão dos dados ausentes e completá-los individualmente. Esta solução é bastante eficiente para um conjunto pequeno de dados, onde pode ser feita pelo especialista no domínio de forma manual . O problema é que normalmente o volume de dados é muito grande, o que obriga o uso de softwares que apresentam resultados não tão precisos;
  • Substituir o valor faltante pela média aritmética da variável. Esta técnica apresenta dois problemas: aplica-se apenas a variáveis numéricas e, quando pode ser aplicada, substitui o dado faltante por um aproximado, podendo acarretar na obtenção de resultados não tão corretos;
  • Excluir o registro inteiro. Embora esta técnica exclua da análise um caso inteiro, muitas vezes pela falta de apenas um de seus atributos, é a melhor solução pois elimina o risco da análise ser feita com dados não reais.

Dados discrepantes (outliers)
Dados que possuem valores extremos, atípicos ou com características bastante distintas dos demais registros são chamados de discrepantes, ou  outliers. Normalmente registros que contêm valores outliers são descartados da amostra, porém isto só deve ocorrer quando o dado representar um erro de observação, de medida ou algum outro problema similar. O dado deve ser cuidadosamente analisado antes da exclusão, pois embora atípico, o valor pode ser verdadeiro. Outliers podem representar, por exemplo, um comportamento não usual, uma tendência  ou ainda transações fraudulentas. Encontrar estes valores  é, muitas vezes, os objetivo da mineração de dados.

Seleção dos dados

sábado, 1 de novembro de 2008

A fase de seleção dos dados é a primeira no processo de descobrimento de informação e possui impacto significativo sobre a qualidade do resultado final, uma vez que nesta fase é escolhido o conjunto de dados contendo todas as possíveis variáveis (também chamadas de características ou atributos) e registros (também chamados de casos ou observações) que farão parte da análise. Normalmente essa escolha dos dados fica a critério de um especialista do domínio, ou seja, alguém que realmente entende do assunto em questão.

O processo de seleção é bastante complexo, uma vez que os dados podem vir de uma série de fontes diferentes (data warehouses, planilhas, sistemas legados) e podem possuir os mais diversos formatos. É comum ocorrer a necessidade de se escrever um software específico para a carga dos dados, já que nem sempre as ferramentas de carga existentes conseguem dar contas das pecularidades de cada aplicação.