Arquivo da Categoria ‘Técnica de DM’

Análise de Regressão

terça-feira, 21 de abril de 2009

(por Luciano Pelegrini Lopes)

Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de modo que uma variável pode ser prevista a partir da outra ou outras. Pode ser utilizada em várias áreas como computação, estatística e medicina conforme alguns exemplos abaixo:

  • Concentrações de soluções de proteína de arroz integral e absorbâncias médias corrigidas.
  • Relação entre textura e aparência.
  • Número de acessos ao disco (disk I/O) e o tempo de processamento para vários programas.

A regressão é usada basicamente com duas finalidades: de previsão (prever o valor de y a partir do valor de x) e estimar o quanto x influencia ou modifica y.

O caso mais simples de regressão é quando temos duas variáveis e a relação entre elas pode ser representada por uma linha reta (chamamos de Regressão linear simples). Esta metodologia é utilizada como técnica de mineração de dados e tem por objetivo prever um valor numérico desconhecido a partir de alguns atributos conhecidos, utilizando uma massa de dados histórica como modelo.

As técnicas mais comuns são baseadas nos métodos do modelo de classificação, mas que os atributos devem ser numéricos para desenvolver uma fórmula matemática que ajuste estes dados. Quando um novo dado é inserido no banco, será aplicada esta fórmula calculada nos valores da tupla e assim serão definidos os valores dos atributos objetivos.

A Análise de Regressão possui essencialmente quatro passos: seleção das variáveis regressoras ou preditoras, diagnóstico para verificar se o modelo ajustado é adequado, aplicação de medidas remediadoras quando as condições do modelo não são satisfeitas e validação do mesmo.

Projeto de Pesquisa: Algoritmos de Análise de Agrupamentos Autobalanceados (A4)

sexta-feira, 6 de março de 2009

Na próxima semana iniciaremos, oficialmente, no campus ULBRA em Santa Maria - RS o Projeto de Pesquisa “Algoritmos de Análise de Agrupamentos Autobalanceados”, ou simplesmente A4.

O Projeto foi registrado na Universidade sobre o número 672/2008 e será executado ao longo do ano de 2009 e, se os resultados obtidos forem satisfatórios, poderá ser renovado indefinidamente. Segue abaixo o resumo do projeto:

“Num mundo globalizado e competitivo como o atual, as empresas buscam aumentar a competitividade para prosseguir em seus negócios. Para isso, precisam promover inovações constantes, de forma a atender às mudanças exigidas pelo mercado.

As técnicas de Data Mining assumem grande importância para neste processo, uma vez que permitem encontrar novos nichos de mercados para os produtos. Dentre as diversas técnicas de Data Mining destaca-se a Análise de Agrupamento (Cluster Analysis) que, através de sucessivas iterações, forma grupos de acordo com uma determinada medida de similaridade.

O algoritmo de Análise de Agrupamentos mais conhecido e usado é o k-means, cuja funcionalidade simples permite um bom índice de acertos. Entretanto o algoritmo de k-means e seus descendentes possuem uma falha, executam o balanceamento (ajuste) dos agrupamentos apenas após a formação dos mesmos, o que faz com que nem sempre os grupos formados sejam os ideais.

Esse trabalho propõe a criação de um novo algoritmo de Análise de Agrupamentos, que faça o balanceamento dos grupos em tempo real, o que irá fazer com que o processo de mineração seja mais rápido e eficiente.

Data Mining na prática - O caso da Nossa Caixa

segunda-feira, 2 de março de 2009

Após dois meses de inatividade, por causa das férias da faculdade e de uma série de compromissos ligados a FP2, o blog volta a sua atividade com um caso de prático de uso de Data Mining pela Nossa Caixa, banco de São Paulo, que recentemente foi incorporado pelo Banco do Brasil.

A fonte da notícia abaixo é o site Baguete:

“O Banco Nossa Caixa acaba de inaugurar um sistema de prevenção a transações financeiras fraudulentas baseada em redes neurais. O banco investiu R$ 20 milhões no projeto, que também inclui softwares, hardwares e serviços.

A solução beneficiará cerca de 2,5 milhões de clientes que usam frequentemente o cartão de débito e deverá atingir cerca de 500 mil usuários do Net Banking da Nossa Caixa.
O sistema opera como um “cérebro eletrônico” que interage com uma ampla base de informações constituída a partir da correlação de dados provenientes dos canais de atendimento, tipos de transações e locais comumente usados pelos clientes, além do controle realizado pelas redes neurais e implementação de regras de negócios.

José Waldir Carvalho, gerente do departamento de Segurança da Informação da Nossa Caixa, afirma que o sistema é inovador porque vai além da adoção isolada de redes neurais e  emprega ferramentas usadas para proteger os ativos de tecnologia da informação do próprio banco (hardwares, softwares e conectividade) e integra toda a rede de agências e NetBanking.

A “inteligência artificial” constrói o perfil do usuário a partir do reconhecimento das transações mais comuns e dos valores normalmente movimentados por meio de cartão de débito, além de considerar os endereços mais frequentes dos canais mais utilizados, inclusive nas operações feitas pelo NetBanking.

O cruzamento de todos esses dados permite identificar os padrões comportamentais das operações de cada cliente, identificar e interromper transações suspeitas em tempo real. Essa operação é feita por meio de cálculos estatísticos que determinam o “score” que deve ser usado para alto, médio e baixo risco das transações realizadas. A cada transação o sistema aprende como é o comportamento do cliente.

Ao detectar uma possível fraude, o sistema pode exigir, por exemplo, dados ao cliente que confirmem ou não a suspeição, solicitando informações pessoais ao cliente. Se os indícios de violação forem procedentes, a transação poderá ser imediatamente bloqueada.

Desenvolvida com tecnologia de ponta pelo Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD), o modelo de redes neurais usado pelo Banco Nossa Caixa faz parte de uma solução antifraude que vem sendo implantada pelo banco desde abril de 2008.”

BIC - Bayesian Information Criterion

terça-feira, 30 de dezembro de 2008

O algoritmo BIC (Bayesian Information Criterion) baseia-se num conceito que, numa livre tradução, pode ser chamado de densidades de mistura finita. Uma mistura de máxima verossimilhança, fator de Bayes e um modelo probabilístico - o paraíso para quem gosta de matemática e estatística.

Para nao usar matemática e estatística, até porque elas não fazem parte da minha área de atuação, pode-se dizer que o BIC é na verdade o valor da máxima verossimilhança com uma penalização para o número de parâmetros no modelo, o que permite comparar modelos com diferentes parametrizações e/ou diferentes número de agrupamentos. Através desse valor o algoritmo determina o provável modelo a ser usado de acordo uma aproximação baseada no critério de informação Bayesiana.

Complexo? O detalhamento completo do funcionamento do algoritmo (e também das equações matemáticas que fazem parte dele) pode ser encontrado no artigo Model-based Clustering, Discriminant Analysis, and Density  Estimation de FRALEY e RAFTERY (veja a referência completa clique aqui).

Métodos de Cluster Analysis baseados em modelos

quarta-feira, 24 de dezembro de 2008

Os métodos baseados em modelos procuram justar algum modelo matemático aos dados. Os métodos são freqüentemente baseados na suposição de que os dados são gerados a partir de uma mistura de distribuições de probabilidades e seguem uma das duas principais abordagens: estatística ou por rede neural. Este método ainda é pouco utilizado, rincipalmente pelo tempo de processamento ser bastante longo (Leia mais em HAN e KAMBER, 2001).

Abordagem estatística
A abordagem estatística utiliza uma forma de agrupamento via aprendizado de máquina onde, dado um conjunto de objetos não agrupados, é construído um esquema de classificação sobre os objetos, este processo é chamado de agrupamento conceitual. Ao contrário das formas de agrupamento convencionais estudadas até o momento, que antes de tudo identificavam os grupos de objetos, o agrupamento conceitual realiza uma etapa adicional para encontrar descrições das características de cada grupo (que representa um conceito ou classe). Como pode se notar é um processo composto por duas etapas: primeiro, o agrupamento, depois a caracterização.

Abordagem por rede neural
Esta abordagem tende a representar cada agrupamento como um exemplar, que serve de protótipo do agrupamento e não tem necessariamente correspondência com dado ou um objeto. Novos objetos podem ser distribuídos para agrupamentos cujo exemplar é mais similar, baseado em alguma medida de distância. Além disto, atributos de um objeto atribuído a um agrupamento podem ser preditos dos atributos do exemplar do agrupamento, otimizando assim a execução do algoritmo.

A abordagem por rede neural possui variações com dois conceitos diferentes de RNA: aprendizado competitivo e mapas auto-organizáveis.

O aprendizado competitivo envolve uma arquitetura hierárquica com vários neurônios artificiais, que competem entre si de forma que o “vencedor leva tudo” para o objeto que está sendo apresentado ao sistema.

Arquitetura para RNA de aprendizado competitivo. Adaptação de HAN e KAMBER (2001).

A figura acima apresenta um exemplo de sistema de aprendizado competitivo. Cada círculo representa uma unidade e o número de camadas é arbitrário. A unidade vencedora em um agrupamento torna-se ativa (representada por círculos cheios), enquanto as demais se tornam inativas (representada por círculos vazios).

As conexões entre as camadas são excitatórias, uma unidade em uma dada camada pode receber entradas de todas as unidades do nível mais próximo abaixo. As conexões entre unidades nas camadas são inibitórias, onde somente uma u nidade no agrupamento pode estar ativa. A unidade vencedora ajusta os pesos de suas conexões entre as unidades no agrupamento que irão responder mais fortemente aos objetos futuros que são os mesmos ou similares ao corrente. No término do processo, os agrupamentos resultantes podem ser vistos como um mapeamento das características dos níveis mais baixos para as características dos níveis mais altos.

Com os mapas auto-organizáveis, o agrupamento também se dá com várias unidades competindo pelo objeto corrente. A unidade cujo vetor de peso é mais próxima ao objeto corrente torna-se uma unidade vencedora (unidade ativa). Seus pesos e também os de seus vizinhos mais próximos são ajustados de forma que estas unidades fiquem mais próximas do objeto de entrada.

Os mapas auto-organizáveis assumem que existe alguma topologia ou ordenamento entre os objetos de entrada, e que as unidades vão assumir esta estrutura no espaço. Seu processamento é semelhante ao que ocorre no cérebro e são úteis para a visualização de dados de alta dimensão em espaços de duas e três dimensões.