Arquivo da Categoria ‘DM na Prática’

KDD 2009

segunda-feira, 29 de junho de 2009

Começou ontem e vai até a próxima quarta-feria (01/07), em Paris, a 15º ACM SIGKDD Conference on Knowledge Discovery and Data Mining. A conferência ocorre anualmente e é o principal evento sobre Data Mining do mundo.

Dentre as palestras, tutoriais e workshops destacam-se:

Workshop: Data Mining Case Studies and Practice Prize (DMCS #3) (Gabor Melli, Peter van der Putten, Brendan Kitts)

The 3rd Workshop on Social Network Mining and Analysis (SNA-KDD) (Lee Giles, John Yen, Prasenjit Mitra, Haizheng Zhang, Igor Perisic)

The Third International Workshop on Data Mining and Audience Intelligence for Advertising (ADKDD) (Ying Li, Arun C. Surendran, Dou Shen)

Tutorial: Planning, Running, and Analyzing Controlled Experiments on the Web (Ronny Kohavi, Roger Longbotham, John Quarto-vonTivadar)

Paralelo ao evento ocorre a KDD Cup 2009, uma Olimpíada de mineração de dados, cujo tema deste ano é Customer Relationship Management (CRM). A organização do evento disponibilizou uma grande base de dados da French Telecom Company Orange, onde os concorrentes devem encontrar consumidores propensos a comprar novos produtos e serviços.

O ENEM e Teoria de Resposta ao Item (TRI)

quarta-feira, 24 de junho de 2009

A Teoria da Resposta ao Item (TRI) é um modelo estatístico utilizado para avaliar habilidades e conhecimentos. Seu uso mais comum está ligado a testes de múltipla escolha, que são comumente usados em provas de concursos públicos e vestibulares de universidades públicas e privadas.

A TRI permite analisar a proeficiência do candidato em cada uma das áreas presente na prova, pois cria uma escala de desempenho. O modelo analisa não apenas as questões acertadas, mas também o padrão de respostas dadas pelo aluno.  Alunos que eram um grande número de questões fáceis dificilmente acertarão questões difícei, se acertarem é porque “chutaram”.

A TRI tem ganho destaque na mídia desde que o Ministério da Educação (MEC) informou que ela será usada no novo Exame Nacional do Ensino Médio (ENEN). Este é mais um caso que mostra como a Mineração de Dados está presente no nosso dia a dia e muitas vezes nem a percebemos.

==============================================

A página de Perguntas Frequentes (FAQ) do ENEM esclarece o uso da TRI:

“16. As questões da prova terão pesos diferentes?

A nova prova do Enem será estruturada na metodologia da Teoria da Resposta ao Item (TRI), que garante a comparabilidade das notas entre diferentes edições a partir da calibração do grau de dificuldade das questões. Dessa forma, diferentemente dos anos anteriores, as questões da prova do Enem serão distribuídas em graus diferenciados de complexidade. Isso significa que, no cálculo final da nota em cada área, as questões mais difíceis valem mais que as questões menos complexas.”

Maiores informações sobre o ENEM podem ser obtidas em www.enem.inep.gov.br

Deu no New York Times: Data Mining X Terrorismo X Privacidade

terça-feira, 10 de março de 2009

A sempre crescente preocupação americana com o Terrorismo trouxe a tona um assunto altamente relevante, mas nem sempre presente, nas discussões sobre Data Mining: a Privacidade. O jornal The New York Times publicou recentemente um artigo que sobre os três temas.

Segundo o Jornal, desde os atentados de 11 de setembro de 2001 o governo federal americano tem feito uso maciço de softwares de mineração de dados a fim de identificar possíveis terroristas. Em geral, são analisados registros sobre hábitos de viagem, uso do e-mail, transações financeira e outros. O grande problema é que os dados dos suspeitos são vasculhados sem mandados judiciais.

Um grupo formado por políticos e cientististas realizou um estudo para verificar a real eficiência dos métodos. Num trabalho de 352 página o grupo adverte que “será extremamente difícil de alcançar” os objetivos iniciais do projeto, ou seja, encontrar possíveis terroristas, devido a problemas legais, tecnológicos e logísticos.

O trabalho destaca também que a eficiência das técnicas de Data Mining para fins comerciais é comprovada, entretanto existem poucas provas que confirmar que essas mesmas técnicas de trabalho realmente podem encontrar terroristas, apesar da crescente utilização nos últimos anos. O motivo, segundo o grupo, é que a amostra de conhecidos terroristas e ataques reais é tão pequena que é difícil estabelecer padrões de comportamento suspeito.

Além disto, ainda existe o risco de que ao acumular enormes quantidades de informações se produza também “um enorme número de alarmes falsos”, já que “mais dados não significam melhor os dados”, como bem disse William J. Perry, o ex-Secretário da Defesa americano e vice-presidente da equipe que realizou o trabalho.

A notícia original, em inglês, pode ser lida aqui.

Data Mining na prática - O caso da Nossa Caixa

segunda-feira, 2 de março de 2009

Após dois meses de inatividade, por causa das férias da faculdade e de uma série de compromissos ligados a FP2, o blog volta a sua atividade com um caso de prático de uso de Data Mining pela Nossa Caixa, banco de São Paulo, que recentemente foi incorporado pelo Banco do Brasil.

A fonte da notícia abaixo é o site Baguete:

“O Banco Nossa Caixa acaba de inaugurar um sistema de prevenção a transações financeiras fraudulentas baseada em redes neurais. O banco investiu R$ 20 milhões no projeto, que também inclui softwares, hardwares e serviços.

A solução beneficiará cerca de 2,5 milhões de clientes que usam frequentemente o cartão de débito e deverá atingir cerca de 500 mil usuários do Net Banking da Nossa Caixa.
O sistema opera como um “cérebro eletrônico” que interage com uma ampla base de informações constituída a partir da correlação de dados provenientes dos canais de atendimento, tipos de transações e locais comumente usados pelos clientes, além do controle realizado pelas redes neurais e implementação de regras de negócios.

José Waldir Carvalho, gerente do departamento de Segurança da Informação da Nossa Caixa, afirma que o sistema é inovador porque vai além da adoção isolada de redes neurais e  emprega ferramentas usadas para proteger os ativos de tecnologia da informação do próprio banco (hardwares, softwares e conectividade) e integra toda a rede de agências e NetBanking.

A “inteligência artificial” constrói o perfil do usuário a partir do reconhecimento das transações mais comuns e dos valores normalmente movimentados por meio de cartão de débito, além de considerar os endereços mais frequentes dos canais mais utilizados, inclusive nas operações feitas pelo NetBanking.

O cruzamento de todos esses dados permite identificar os padrões comportamentais das operações de cada cliente, identificar e interromper transações suspeitas em tempo real. Essa operação é feita por meio de cálculos estatísticos que determinam o “score” que deve ser usado para alto, médio e baixo risco das transações realizadas. A cada transação o sistema aprende como é o comportamento do cliente.

Ao detectar uma possível fraude, o sistema pode exigir, por exemplo, dados ao cliente que confirmem ou não a suspeição, solicitando informações pessoais ao cliente. Se os indícios de violação forem procedentes, a transação poderá ser imediatamente bloqueada.

Desenvolvida com tecnologia de ponta pelo Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPqD), o modelo de redes neurais usado pelo Banco Nossa Caixa faz parte de uma solução antifraude que vem sendo implantada pelo banco desde abril de 2008.”