segunda-feira, 27 de dezembro de 2010

Newton e o Homem Aranha

.
Por Nuno Crato

QUEM É MAIS conhecido? Neil Armstrong, o primeiro homem a pisar a Lua, ou Marylin Monroe, a actriz com mais sucesso em Hollywood? Quem é mais popular? O Homem Aranha ou o Rato Mickey? Há tempos, esta questão podia entreter-nos em animados debates. Hoje, basta ir ao Google, digitar os nomes e contar o número de ocorrências. Claro que há alguns cuidados a ter, por exemplo restringir-nos a páginas escritas numa determinada língua ou escrever “Mickey Mouse” e “Spyder Man”, se nos centrarmos no idioma original destes dois. Se, contudo, quisermos saber quem era mais popular nos anos 1970, já o Google de pouco nos serve.

Também se quisermos discutir, como muitos nacionalistas o fazem, qual é a língua que tem mais um vocabulário mais extenso, teremos de usar outras técnicas. Podemos, por exemplo, ver os maiores e mais completos dicionários desses idiomas e contar os vocábulos que cada um deles comporta. Este método é discutível, claro, pois pode-se dizer que algumas línguas não têm a felicidade de ter dicionários tão bons como outras. E ainda maior dificuldade teremos se quisermos saber como aumentaram os respectivos vocabulários. Em 1700, o inglês tinha mais palavras que o alemão? E em 1800, o italiano tinha a primazia sobre o francês?

Todas estas perguntas, que há poucos anos pareciam nunca poder alcançar resposta condigna, começam a ser objecto de estudos quantitativos muito sérios. Num artigo que esta semana foi publicado pela “Science” (doi: 10.1126/science.119964), relatam-se resultados de um estudo linguístico que se enquadra no que se pode chamar “culturologia” (“culturomics” em inglês).
Um grupo de investigadores de Harvard, que inclui o linguista Steven Pinker e colaboradores da Enciclopédia Britânica e da Google, usou os frutos do trabalho desta última empresa para começar a perceber como tem evoluído quantitativamente o corpus linguístico.

Até hoje, a Google reuniu uma biblioteca digital de mais de 15 milhões de livros, o que representa aproximadamente 12% de todos os volumes publicados. Desses, os investigadores seleccionaram cinco milhões, com uma digitalização de melhor qualidade. No total, isso corresponde a 500 mil milhões de palavras, nas quais predominam 361 mil milhões em inglês, 45 mil milhões em francês e outros tantos milhões em espanhol. Os livros mais antigos são de 1500, totalizando nas primeiras décadas do século XVI apenas algumas centenas de milhares de palavras. O total de palavras sobe para 60 milhões por ano em 1800, 1,4 mil milhões em 1900 e 8 mil milhões em 2000.

Há muitas perguntas profundas que podem começar a ser respondidas com esta gigantesca base de dados. Os investigadores concluíram, por exemplo, que o léxico da língua inglesa subiu de 554 mil palavras em 1900 para 597 mil em 1950 e para um pouco mais de um milhão em 2000. Na última década, o crescimento tem sido inacreditável, de cerca de 8500 palavras por ano.

Como há muito se sabe, o uso das palavras é muito desigual. Há as que são utilizadas frase sim frase sim e as que muito raramente aparecem. A sua distribuição estatística é bem descrita pela célebre lei de Zipf, que postula que a ocorrência de cada palavra é inversamente proporcional à sua ordem na lista de frequências. Assim, no caso mais simples, a palavra mais frequente ocorre duas vezes mais que a segunda na lista, três vezes mais que a terceira, e por aí adiante. Os investigadores verificaram mais uma vez que esta lei estatística se aplica ao léxico e estimam que 52% das palavras em língua inglesa têm um uso tão raro que os dicionários não as documentam.
Notaram também que as presenças femininas na literatura têm vindo a sobrepor-se às masculinas. Da mesma forma, Newton fica acima do Homem Aranha em número de ocorrências.

«Passeio Aleatório» - «Expresso» de 23 Dez 10