No post anterior mostrei um pouco sobre os princípios matemáticos por trás do conceito de entropia. Nesse artigo mostrarei uma alegoria ou, sendo mais humilde, um exemplo para ilustrar o assunto. Além disso, vou retomar a afirmação que deixei em aberto no final do artigo anterior.
Fórmulas matemáticas são muito úteis porque nos garantem precisão, mas nem sempre são intuitivas e fáceis de entender. Por isso para explicar melhor sobre entropia vou contar a história da Biblioteca de Babel.

A Biblioteca de Babel é um lugar fictício descrita numa obra homônima de Jose Luis Borges. Nessa biblioteca infinita estão todos os livros já escritos, os que ainda serão escritos e até os que nunca serão escritos. Existem desde livros que repetem a mesma letra de capa a capa até os romances mais emocionantes e os tratados mais profundos da ciência. Os livros são na realidade formados por todas as combinações possíveis de caracteres.
Mas o que isso tem a ver?

Essa metáfora nós lembra que mesmo os poemas mais complexos não passam de cadeias de caracteres. O que diferencia esse poema de uma sequência de letras geradas aleatoriamente é o seu conteudo de informacao.
Mas se vocês se lembram, a medida de entropia lida com probabilidades. Um programa de computador que gerasse gerasse todas as strings de 15 caracteres compostas de letras [a-z] + espaços, poderia gerar a frase “to be or not be” com a mesma probabilidade de “aaaaaaaaaaaaaaa” ou ” ” ou “kjdne tpom sapo”, que é 27^15. Dessa forma, como definir qual dessas “frases” tem mais importancia.
Não é dificil comparar a Biblioteca de Babel com a Web. Ainda que não seja infinita, tem uma quantidade loucamente imensa de informação. Antigamente existiam mecanismos de busca que simplesmente encontravam as palavras procuradas dentro dos textos das páginas. Isso era bastante ineficiente porque alguem poderia colocar uma palavra “popular” dentro da página para chamar mais visitantes ou conter as palavras pesquisadas apenas por coincidencia, mas não tratar do assunto. Por exemplo, alguem poderia estar procurando sobre a história do jogador Ronaldo e cair na tirinha do Will ou no post do Makita sobre o Windows 7.

A muito tempo atrás, dois estudantes de Stanford conseguiram encontrar uma solução para decifrar a multitude de informação da web. Conscientes do volume de dados que teriam que tratar, chamaram o projeto de Google (gugol = 10^100) que seria a aplicação do algoritimo PageRank.
O Algorítimo PageRank usa a inteligência humana para organizar categorizar as informações que encontrar enquanto esquadrinha (crawl) a teia. O fato é que a própria natureza da web é se formar através de vinculos entre dados, que são os fios que formam a teia. Ao criar um link de uma página para outra, entamos atribuindo uma análise, um julgamento que diz que o conteudo daquele documento de destino se relaciona a palavra “linkada”. Por exemplo, se muitas pessoas criarem links da palavra “nerd” para quenerd.com.br, ao procurar por essa palavra no google, teria entre os primeiros resultados nosso blog. É dessa forma que são feitas as google bombs. Da mesma forma podemos ter algum resultados inesperados a partir dessa regra aparentemente simples (quase um exemplo de complexidade emergente).

Outro exemplo é o que o próprio Makita postou no artigo sobre google squared.
A definição do algorítimo divulgada pelo google é a seguinte:
O PageRank faz uma avaliação objetiva da importância de páginas da web, resolvendo uma equação de mais de 500 milhões de variáveis e 2 bilhões de termos. Em vez de contar links diretos, o PageRank interpreta um link da Página A à Página B como um voto para a Página B pela Página A. O PageRank, então, avalia a importância da página pelo número de votos que recebe.
O PageRank também considera a importância de cada página que deposita um voto, já que os votos de algumas páginas são considerados como tendo maior valor, dando assim à página vinculada um maior valor. As páginas importantes recebem um PageRank mais alto e aparecem na parte superior dos resultados da pesquisa. A tecnologia do Google usa a inteligência coletiva da web para determinar a importância de uma página. Não há envolvimento humano ou manipulação de resultados, o que faz com que os usuários confiem no Google como uma fonte de informações objetivas não corrompidas por colocação paga.
Alem de analisar os links entre páginas, o google analisa tudo que é digitado nos campos de busca. Exemplo canônico para isso é a seguinte página : http://www.google.com/jobs/britney.html . Essa página lista todos os erros de digitação que foram corrigidos para “britney spears”. Abaixo um exemplo com as 10 ocorrências mais frequentes:
488941 britney spears
40134 brittany spears
36315 brittney spears
24342 britany spears
7331 britny spears
6633 briteny spears
2696 britteny spears
1807 briney spears
1635 brittny spears
1479 brintey spears
Note que a versão correta é mais frequente, logo o Google assume como o padrão e corrige as outras menos frequentes.
Ainda existem outras muitas outras tecnologias do Google que valeriam a pena ser citadas, mas que não vou detalhar para não cansar nossos leitores, como o AdSense e AdWords que analisam respectivamente o conteudo de uma página e palavras chaves na busca para encontrar anuncios que sejam relevantes para aquele conteudo, Zeitgeist e Trends que analisam palavras popularem em buscas do google. Mas o que eu acho o mais intrigante é o google sets.
No próximo post vou comentar o conceito de entropia de linguagens e entropia de ecosistemas, e pretendo finalizar o assunto.















Uau ! Que chuva de informação !
Belo Post Diego, sem dúvidas um dos posts que entrará para história, mais uma vez agradeço a disposição de nos fornecer um artigo tão bem escrito e com um conteúdo tão relevante.
A única coisa que posso dizer é o que eu já disse em comentários anteriores, o que o Google faz é indiscutível, os caras manjam.
Nossa Diego, MUITO bom!!
Muita informação escrita de uma forma simples e não cansativa, gostei muito do post.
Mas podem ficar tranquilos, hoje temos o google buscador e etc, amanha teremos o “Quenerd Network” a internet não se chamará mais internet e sim Quenerd, aguardem poeakpoaeopea
Diego, você é muito nerd!
Essa relação que a o potencial humano e o potencial computacional tem é muito interessante… Separados ambos tem desvantagens, mas juntos, as possibilidades são enormes
Não acho que no estágio atual da tecnologia vamos ter uma Skynet tão cedo… Os computadores ainda tem muito o que superar
Cara. Muito Bacana esse artigo. Continue assim !
Pingback: Entropia 3.0 « :: Que Nerd ::
Pingback: Massacre os anúncios do gmail … « :: Que Nerd ::