Arquivo da Categoria ‘Conceitos’

Análise de Regressão

terça-feira, 21 de abril de 2009

(por Luciano Pelegrini Lopes)

Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de modo que uma variável pode ser prevista a partir da outra ou outras. Pode ser utilizada em várias áreas como computação, estatística e medicina conforme alguns exemplos abaixo:

  • Concentrações de soluções de proteína de arroz integral e absorbâncias médias corrigidas.
  • Relação entre textura e aparência.
  • Número de acessos ao disco (disk I/O) e o tempo de processamento para vários programas.

A regressão é usada basicamente com duas finalidades: de previsão (prever o valor de y a partir do valor de x) e estimar o quanto x influencia ou modifica y.

O caso mais simples de regressão é quando temos duas variáveis e a relação entre elas pode ser representada por uma linha reta (chamamos de Regressão linear simples). Esta metodologia é utilizada como técnica de mineração de dados e tem por objetivo prever um valor numérico desconhecido a partir de alguns atributos conhecidos, utilizando uma massa de dados histórica como modelo.

As técnicas mais comuns são baseadas nos métodos do modelo de classificação, mas que os atributos devem ser numéricos para desenvolver uma fórmula matemática que ajuste estes dados. Quando um novo dado é inserido no banco, será aplicada esta fórmula calculada nos valores da tupla e assim serão definidos os valores dos atributos objetivos.

A Análise de Regressão possui essencialmente quatro passos: seleção das variáveis regressoras ou preditoras, diagnóstico para verificar se o modelo ajustado é adequado, aplicação de medidas remediadoras quando as condições do modelo não são satisfeitas e validação do mesmo.

Conceituando Data Mining

quinta-feira, 6 de novembro de 2008

Todas as etapas do processo de KDD são importantes para o sucesso do mesmo. Entretanto, é a etapa de Mineração de Dados (data mining) que recebe o maior destaque na literatura. Segundo FAYYAD et al. (1996), Mineração de Dados é o processo de reconhecimento de padrões válidos ou não, existentes nos dados armazenados em grandes bancos de dados.

Para BERRY e LINOFF (1997), Mineração de Dados é a exploração e análise, de forma automática ou semi-automática, de grandes bases de dados com objetivo de descobrir padrões e regras. O objetivo do processo de mineração é fornecer as corporações informações que as possibilitem montar melhores estratégias de marketing, vendas, suporte, melhorando assim os seus negócios.

A Mineração de Dados trás consigo uma série de idéias e técnicas para uma vasta variedade de campos. Estatísticos, pesquisadores de Inteligência Artificial (IA) e administradores de bancos de dados usam técnicas diferentes para chegar a um mesmo fim, ou seja, a informação.

A diferença entre estas áreas está nos termos utilizados, onde estatísticos vêem variáveis dependentes e independentes, pesquisadores de IA vêem características e atributos e administradores de bancos de dados vêem registros e campos (BERRY e LINOFF, 1997). Independente da linha de pesquisa a que estão ligadas, as técnicas fazem uso de métodos computacionais para a Descoberta de Conhecimento em Bancos de Dados.

Transformação dos dados

quarta-feira, 5 de novembro de 2008

A Transformação do Dados é a fase do KDD que antecede a fase de Data Mining. Após serem selecionados, limpos e pré-processados, os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos possam ser aplicados.

Em grandes corporações é comum encontrar computadores rodando diferentes sistemas operacionais e diferentes Sistemas Gerenciadores de Bancos de Dados (SGDB). Estes dados que estão dispersos devem ser agrupados em um repositório único.

Além disto, nesta fase, se necessário, é possível obter dados faltantes através da transformação ou combinação de outros, são os chamados “dados derivados”. Um exemplo de um dado que pode ser calculado a partir de outro é a idade de um indivíduo, que pode ser encontrada a partir de sua data de nascimento.  Outro exemplo é o valor total de um finaciamento que pode ser calculado a partir da multiplicação do número de parcelas pelo valor da parcela.

Pré-processamento e limpeza dos dados

segunda-feira, 3 de novembro de 2008

O Pré-processamento e limpeza dos dados é uma parte crucial no processo de KDD, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser realizadas tarefas que  eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao conjunto (outliers). O auxílio de um especialista do domínio é fundamental, pois na maioria dos casos apenas alguém que realmente entende do assunto é capaz de dizer se um dado é um outlier ou um erro de digitação.

Nesta fase também são utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo de análise.

A identificação de dados inapropriados dentro do conjunto selecionado é problemática, e isto dificulta a automatização desta fase. Definir um dado como “ruim” dentro do conjunto depende da estrutura do mesmo e também de que aplicação é dada a ele (DUNKEL  et al. , 1997).

Dados ausentes (missing values)
Um problema bastante comum nesta fase é a ausência de valores p ara determinadas variáveis, ou seja, registros com dados incompletos, seja por falhas no processo de seleção ou de revisão.

O tratamento destes casos é necessário para que os resultados do processo de mineração sejam confiáveis. Existem basicamente três alternativas de solução para esse problema:

  • Usar técnicas de imputação, ou seja, fazer a previsão dos dados ausentes e completá-los individualmente. Esta solução é bastante eficiente para um conjunto pequeno de dados, onde pode ser feita pelo especialista no domínio de forma manual . O problema é que normalmente o volume de dados é muito grande, o que obriga o uso de softwares que apresentam resultados não tão precisos;
  • Substituir o valor faltante pela média aritmética da variável. Esta técnica apresenta dois problemas: aplica-se apenas a variáveis numéricas e, quando pode ser aplicada, substitui o dado faltante por um aproximado, podendo acarretar na obtenção de resultados não tão corretos;
  • Excluir o registro inteiro. Embora esta técnica exclua da análise um caso inteiro, muitas vezes pela falta de apenas um de seus atributos, é a melhor solução pois elimina o risco da análise ser feita com dados não reais.

Dados discrepantes (outliers)
Dados que possuem valores extremos, atípicos ou com características bastante distintas dos demais registros são chamados de discrepantes, ou  outliers. Normalmente registros que contêm valores outliers são descartados da amostra, porém isto só deve ocorrer quando o dado representar um erro de observação, de medida ou algum outro problema similar. O dado deve ser cuidadosamente analisado antes da exclusão, pois embora atípico, o valor pode ser verdadeiro. Outliers podem representar, por exemplo, um comportamento não usual, uma tendência  ou ainda transações fraudulentas. Encontrar estes valores  é, muitas vezes, os objetivo da mineração de dados.