OFF-TOPIC: Palavras mais pesquisadas no Google em 2008

31 de dezembro de 2008

O Google divulgou a lista de palavras mais procuradas no Brasil em 2008. Os dados completos (inclusive para outros países) estão disponíveis no Google Zeitgeist.

Maiores Subidas (Fastest Rising)*

  1. jogos de meninas
  2. naruto
  3. you tube
  4. claro
  5. youtube
  6. jogos
  7. jogo
  8. esporte
  9. tradutor
  10. o dia

Mais Pesquisados (Most Popular)

  1. orkut
  2. jogos
  3. download
  4. fotos
  5. youtube
  6. videos
  7. musicas
  8. musica
  9. msn
  10. globo

Futebol

  1. são paulo futebol
  2. santos
  3. futebol ao vivo
  4. futebol feminino
  5. palmeiras
  6. flamengo
  7. futebol americano
  8. federação paulista
  9. corinthians
  10. campeonato brasileiro

Celebridades

  1. juliana paes
  2. juliana knust
  3. malu mader
  4. dudu azevedo
  5. britney spears
  6. amy winehouse
  7. deborah seco
  8. vanessa hudgens
  9. sabrina sato
  10. michael buble

Fastest Rising (Global)

  1. sarah palin
  2. beijing 2008
  3. facebook login
  4. tuenti
  5. heath ledger
  6. obama
  7. nasza klasa
  8. wer kennt wen
  9. euro 2008
  10. jonas brothers

* O item Mariores Subidas se refere a palavras cujo número de pesquisas subiu rapidamente num determinado período.

BIC - Bayesian Information Criterion

30 de dezembro de 2008

O algoritmo BIC (Bayesian Information Criterion) baseia-se num conceito que, numa livre tradução, pode ser chamado de densidades de mistura finita. Uma mistura de máxima verossimilhança, fator de Bayes e um modelo probabilístico - o paraíso para quem gosta de matemática e estatística.

Para nao usar matemática e estatística, até porque elas não fazem parte da minha área de atuação, pode-se dizer que o BIC é na verdade o valor da máxima verossimilhança com uma penalização para o número de parâmetros no modelo, o que permite comparar modelos com diferentes parametrizações e/ou diferentes número de agrupamentos. Através desse valor o algoritmo determina o provável modelo a ser usado de acordo uma aproximação baseada no critério de informação Bayesiana.

Complexo? O detalhamento completo do funcionamento do algoritmo (e também das equações matemáticas que fazem parte dele) pode ser encontrado no artigo Model-based Clustering, Discriminant Analysis, and Density  Estimation de FRALEY e RAFTERY (veja a referência completa clique aqui).

Métodos de Cluster Analysis baseados em modelos

24 de dezembro de 2008

Os métodos baseados em modelos procuram justar algum modelo matemático aos dados. Os métodos são freqüentemente baseados na suposição de que os dados são gerados a partir de uma mistura de distribuições de probabilidades e seguem uma das duas principais abordagens: estatística ou por rede neural. Este método ainda é pouco utilizado, rincipalmente pelo tempo de processamento ser bastante longo (Leia mais em HAN e KAMBER, 2001).

Abordagem estatística
A abordagem estatística utiliza uma forma de agrupamento via aprendizado de máquina onde, dado um conjunto de objetos não agrupados, é construído um esquema de classificação sobre os objetos, este processo é chamado de agrupamento conceitual. Ao contrário das formas de agrupamento convencionais estudadas até o momento, que antes de tudo identificavam os grupos de objetos, o agrupamento conceitual realiza uma etapa adicional para encontrar descrições das características de cada grupo (que representa um conceito ou classe). Como pode se notar é um processo composto por duas etapas: primeiro, o agrupamento, depois a caracterização.

Abordagem por rede neural
Esta abordagem tende a representar cada agrupamento como um exemplar, que serve de protótipo do agrupamento e não tem necessariamente correspondência com dado ou um objeto. Novos objetos podem ser distribuídos para agrupamentos cujo exemplar é mais similar, baseado em alguma medida de distância. Além disto, atributos de um objeto atribuído a um agrupamento podem ser preditos dos atributos do exemplar do agrupamento, otimizando assim a execução do algoritmo.

A abordagem por rede neural possui variações com dois conceitos diferentes de RNA: aprendizado competitivo e mapas auto-organizáveis.

O aprendizado competitivo envolve uma arquitetura hierárquica com vários neurônios artificiais, que competem entre si de forma que o “vencedor leva tudo” para o objeto que está sendo apresentado ao sistema.

Arquitetura para RNA de aprendizado competitivo. Adaptação de HAN e KAMBER (2001).

A figura acima apresenta um exemplo de sistema de aprendizado competitivo. Cada círculo representa uma unidade e o número de camadas é arbitrário. A unidade vencedora em um agrupamento torna-se ativa (representada por círculos cheios), enquanto as demais se tornam inativas (representada por círculos vazios).

As conexões entre as camadas são excitatórias, uma unidade em uma dada camada pode receber entradas de todas as unidades do nível mais próximo abaixo. As conexões entre unidades nas camadas são inibitórias, onde somente uma u nidade no agrupamento pode estar ativa. A unidade vencedora ajusta os pesos de suas conexões entre as unidades no agrupamento que irão responder mais fortemente aos objetos futuros que são os mesmos ou similares ao corrente. No término do processo, os agrupamentos resultantes podem ser vistos como um mapeamento das características dos níveis mais baixos para as características dos níveis mais altos.

Com os mapas auto-organizáveis, o agrupamento também se dá com várias unidades competindo pelo objeto corrente. A unidade cujo vetor de peso é mais próxima ao objeto corrente torna-se uma unidade vencedora (unidade ativa). Seus pesos e também os de seus vizinhos mais próximos são ajustados de forma que estas unidades fiquem mais próximas do objeto de entrada.

Os mapas auto-organizáveis assumem que existe alguma topologia ou ordenamento entre os objetos de entrada, e que as unidades vão assumir esta estrutura no espaço. Seu processamento é semelhante ao que ocorre no cérebro e são úteis para a visualização de dados de alta dimensão em espaços de duas e três dimensões.

OFF-TOPIC: Discurso de formatura

22 de dezembro de 2008

Já faz algum tempo eu estava planejando criar uma seção no blog chamada de OFF-TOPIC. Um espaço para comentar coisas relevantes, mas que não possuem relação com Data Mining.

Quase o fiz quando o Google lançou a sua pesquisa Wiki, mais ou menos umas duas semanas atrás, pois considero este um fato mais do que relevante para o mundo digital. Infelizmente aquela foi uma semana corrida e não tive tempo para escrever o post.

Agora surgiu outra oportunidade, não algo do tamanho da pesquisa Wiki do Google, mas algo de grande importância na minha carreira acadêmica. Fui Paraninfo da turma de Sistema de Informação da ULBRA, campus Cachoiera do Sul, no última sábado (20/12/2008). Esse foi o primeiro convite que recebi, desde que comecei a lecionar no ensino superior, a quatro anos atrás. Aos formandos, mais uma vez, o meu muito obrigado e muitos votos de sucesso na carreira.

Segue, na integra, o discurso que proferi na cerimônia de colação de grau:

“Ilustríssimo Sr. Diretor da ULBRA Cachoeira do Sul, Prof. Gerceí Carlos Silveira, em nome de quem eu saúdo os demais membros da mesa já apresentados pelo protocolo; prezados familiares e convidados, queridos afiliados, boa noite.

Eu não poderia começar este discurso de outra forma, senão agradecendo por este momento. Ser professor talvez seja a mais gratificante das profissões, pois durante o exercício dela temos a oportunidade de dia a dia aprender com aqueles a quem deveríamos ensinar. Apenas o convívio com jovens tão valorosos já é motivo de orgulho para nós, o que dizer então ao ser escolhido por esta turma de bacharéis para ser o seu Paraninfo numa cerimônia que vai marcá-los para sempre?

Vocês lembrarão do dia de hoje como sendo um dos mais especiais de suas vidas e confesso que não encontrei palavras para dizer o quanto sinto-me honrado em fazer parte dele. Então quero apenas dizer “muito obrigado”, pois nada que eu diga será o suficiente para demonstrar a felicidade e a satisfação que este convite me proporcionou.

Estimados afiliados, hoje vocês estão finalizando uma etapa de quatro anos, passam a fazer parte de um seleto e privilegiado grupo de brasileiros que possui graduação universitária, e merecem todos os cumprimentos pela forma brilhante como o fizeram, já que ambos obtiveram nota máxima na apresentação dos seus respectivos Trabalhos de Conclusão de Curso.

Seus pais, familiares, namoradas e convidados estão realizados por essa conquista, assim como nós, seus professores. Por certo, cometemos algumas falhas durante esse período de convivência, mas nossa intenção sempre foi fazer o possível para lhes oferecer um ambiente propício ao aprendizado. Ao formá-los temos a sensação de dever cumprido, pois sabemos que entregamos à sociedade profissionais qualificados.

Hoje vocês se tornam Bacharéis em Sistemas de Informação, uma profissão ainda rotulada por muitos como estritamente técnica. Para aqueles que imaginam que passamos a vida a frente de um computador, gostaria de apresentar a definição de Edsger Dijkstra, um dos mais importantes profissionais de informática: “A Computação estuda tanto os computadores, quanto a Astronomia, os telescópios, a Biologia os microscópios e a Química, os tubos de ensaio”.

O computador nada mais é do que uma ferramenta do nosso trabalho, não os construímos, apenas o usamos. O que realmente fazemos, é analisar e questionar os problemas que as pessoas encontram no seu ambiente de trabalho. Digo isto, queridos formandos, para lembrar-lhes que a nossa profissão lida diretamente com profissionais de outras áreas e nosso trabalho deve ser sempre o de propor soluções para melhorar suas atividades.

No exercício profissional, vocês terão de aprender a conviver com essa constante interação com áreas diferentes. Pela falta de regulamentação, também serão obrigados a aprender a conviver com uma concorrência desleal, que pratica preços muito aquém dos justos. Concorrência essa que aumenta a cada dia, uma vez que os órgãos competentes parecem fazer de tudo para que a regulamentação nunca aconteça.

O aprendizado obtido no curso superior diferencia vocês, bacharéis, daqueles que nunca passaram pelos bancos da universidade. Vocês possuem maior capacidade para se adaptar as mudanças, e é justamente isto que irá destacá-los no mercado de trabalho.

Mudança é a palavra-chave da Informática. Heráclito certa vez disse “nada há nada em caráter permanente a não ser a mudança”. Muitos dos aqui presentes talvez tenham lido essa frase ainda hoje, pois ela está estampada em um outdoor na entrada da nossa Universidade.

Penso que a afirmação de Heráclito poderia ser nosso slogan, pois não existe outra área que mude tão rápido. O que consideramos como tecnologia de ponta hoje, amanhã já estará obsoleto.

Toda e qualquer profissão exige constante atualização, mas a tecnologia exige mais. Por isto o aprendizado contínuo é uma necessidade e sei que ele será a marca de suas carreiras, que por certo serão muito bem sucedidas.

Por falar em carreira, gostaria de dizer algumas palavras sobre o nosso mercado de trabalho. Nos últimos meses os jornais têm noticiado diariamente a crise em instituições financeiras, montadoras e mercado imobiliário. No entanto, nos Classificados de Emprego destes mesmos jornais, são abundantes as vagas para informática. Não trabalhamos na profissão do futuro, trabalhamos na profissão do presente. A crise não chegou ao nosso setor, muito pelo contrário, não conseguimos formar profissionais em número suficiente para preencher todas as vagas.

Para finalizar, quero cumprimentar e agradecer aqueles que contribuíram significativamente para que essa cerimônia acontecesse. Senhores Pais, há quatros anos atrás vocês nos entregaram seus jovens, hoje nós os devolvemos FORMADOS. Sabemos dos muitos sacrifícios que vocês fizeram para isso, a vocês o nosso agradecimento por ter confiado a ULBRA a responsabilidade de formar seus filhos, esperamos ter feito jus a confiança que nos foi concedida. Obrigado.”

Métodos de Cluster Analysis baseados em grades

19 de dezembro de 2008

Os métodos de Cluster Analysis baseados em grades dividem o espaço de objetos em um certo número de células. Estas por sua vez são divididas em outras e assim sucessivamente, formando diferentes níveis de resolução. É através destas células que os objetos são  agrupados. Desta forma, tem-se uma estrutura hierárquica que pode ser observada na figura abaixo.

Exemplo da divisão feita pelos métodos baseados em grades
Exemplo da divisão feita pelos métodos baseados em grades

A principal vantagem destes métodos é que sua velocidade depende apenas da resolução da grade (onde os dados são plotados) e não do tamanho da base de dados. Por causa disto, são apropriados para base de dados com grande densidade, ou seja, com um número muito grande de objetos num espaço limitado.