Análise de Regressão
terça-feira, 21 de abril de 2009(por Luciano Pelegrini Lopes)
Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de modo que uma variável pode ser prevista a partir da outra ou outras. Pode ser utilizada em várias áreas como computação, estatística e medicina conforme alguns exemplos abaixo:
- Concentrações de soluções de proteína de arroz integral e absorbâncias médias corrigidas.
- Relação entre textura e aparência.
- Número de acessos ao disco (disk I/O) e o tempo de processamento para vários programas.
A regressão é usada basicamente com duas finalidades: de previsão (prever o valor de y a partir do valor de x) e estimar o quanto x influencia ou modifica y.
O caso mais simples de regressão é quando temos duas variáveis e a relação entre elas pode ser representada por uma linha reta (chamamos de Regressão linear simples). Esta metodologia é utilizada como técnica de mineração de dados e tem por objetivo prever um valor numérico desconhecido a partir de alguns atributos conhecidos, utilizando uma massa de dados histórica como modelo.
As técnicas mais comuns são baseadas nos métodos do modelo de classificação, mas que os atributos devem ser numéricos para desenvolver uma fórmula matemática que ajuste estes dados. Quando um novo dado é inserido no banco, será aplicada esta fórmula calculada nos valores da tupla e assim serão definidos os valores dos atributos objetivos.
A Análise de Regressão possui essencialmente quatro passos: seleção das variáveis regressoras ou preditoras, diagnóstico para verificar se o modelo ajustado é adequado, aplicação de medidas remediadoras quando as condições do modelo não são satisfeitas e validação do mesmo.