00:15Erez Lieberman Aiden: Everyone knows
Erez Lieberman Aiden: Todos sabem
00:17that a picture is worth a thousand words.
que uma imagem vale mil palavras.
00:22But we at Harvard
Mas nós em Harvard
00:24were wondering if this was really true.
estávamos questionando se é mesmo verdade.
00:29So we assembled a team of experts,
Assim montamos uma equipe de peritos,
00:33spanning Harvard, MIT,
desde Harvard, MIT,
00:38and even our proud sponsors,
e mesmo nossos orgulhosos patrocinadores,
00:43And we cogitated about this
E pensamos sobre isto
00:45for about four years.
por cerca de 4 anos.
00:47And we came to a startling conclusion.
Chegamos a uma surpreendente conclusão.
00:55In fact, we found some pictures
De fato, encontramos algumas imagens
00:57that are worth 500 billion words.
que valem 500 bilhões de palavras.
01:04So Erez and I were thinking about ways
Erez e eu pensávamos em maneiras
01:06to get a big picture of human culture
de obter uma grande imagem da cultura e
01:08and human history: change over time.
história humana: a mudança através dos tempos.
01:15is to read all of these millions of books.
é ler todos estes milhões de livros.
01:20that has to rank extremely, extremely high.
teria que ser colocado lá em cima.
01:23Now the problem is there's an X-axis for that,
O problema é que existe um eixo-X para isso,
01:25which is the practical axis.
que é o eixo da praticidade.
01:27This is very, very low.
Que é muito, muito baixa.
01:32Now people tend to use an alternative approach,
As pessoas costumam usar um método alternativo,
01:39What you really want to do
O que realmente se quer fazer
01:50that might just enable this approach.
que poderia viabilizar este método.
01:52They have digitized millions of books.
Eles haviam digitalizado milhões de livros.
01:59That's very practical and extremely awesome.
Isso é muito prático e extremamente incrível.
02:05Since time immemorial, there have been authors.
Desde tempos imemoriais, existem os autores.
02:11And this became considerably easier
O que se tornou consideravelmente mais fácil
02:15Since then, the authors have won
Desde então, os autores venceram
02:18on 129 million distinct occasions,
em 129 milhões de ocasiões distintas,
02:20publishing books.
publicando livros.
02:22Now if those books are not lost to history,
Agora se esses livros não se perderam na história,
02:24then they are somewhere in a library,
então eles estão em algum lugar em uma biblioteca,
02:29and digitized by Google,
e digitalizados pelo Google,
02:31which has scanned 15 million books to date.
que escaneou 15 milhões de livros até agora.
02:36Now we've got the data, plus we have metadata.
Agora temos a informação, e temos os metadados.
02:41who was the author, when was it published.
quem era o autor, quando foi publicado.
02:50What we're left with
O que permanece
02:52is a collection of five million books,
é uma coleção de 5 milhões de livros,
02:55500 billion words,
500 bilhões de palavras,
02:58a string of characters a thousand times longer
uma sequência de caracteres mil vezes maior
03:00than the human genome --
que o genoma humano --
03:03a text which, when written out,
um texto que, quando escrito,
03:05would stretch from here to the Moon and back
se estenderia daqui até a Lua e de volta
03:0710 times over --
mais de 10 vezes --
03:09a veritable shard of our cultural genome.
um verdadeiro fragmento de nosso genoma cultural.
03:13Of course what we did
Claro que fizemos
03:15when faced with such outrageous hyperbole ...
quando encaramos tal ultrajante hipérbole...
03:20was what any self-respecting researchers
foi o que qualquer pesquisador com respeito próprio
03:23would have done.
teria feito.
03:26We took a page out of XKCD,
Pegamos uma webcomic do XKCD,
03:28and we said, "Stand back.
e dissemos, "Afastem-se.
03:30We're going to try science."
Vamos tentar a ciência."
03:34JM: Now of course, we were thinking,
JM: Naturalmente, nós pensamos,
03:36well let's just first put the data out there
primeiro vamos mostrar os dados
03:38for people to do science to it.
para que as pessoas façam ciência com eles.
03:40Now we're thinking, what data can we release?
Depois pensamos, que informação podemos liberar?
03:42Well of course, you want to take the books
Naturalmente, você quer pegar os livros
03:46Now Google, and Jon Orwant in particular,
Aí o Google, e Jon Orwant em especial,
03:48told us a little equation that we should learn.
falaram sobre uma equação que devíamos aprender.
03:56So, although that would be really, really awesome,
Ainda que fosse muito, mas muito incrível,
04:03Now again, we kind of caved in,
Então, nós meio que nos aprofundamos,
04:08We said, well instead of releasing the full text,
Falamos, ao invés de liberar o texto completo,
04:10we're going to release statistics about the books.
vamos liberar estatísticas sobre os livros.
04:12So take for instance "A gleam of happiness."
Peguem por exemplo "Um brilho de felicidade."
04:14It's four words; we call that a four-gram.
São 4 palavras: nós chamamos de 4-grama.
04:18appeared in books in 1801, 1802, 1803,
apareceu nos livros em 1801, 1802, 1803,
04:20all the way up to 2008.
até chegar em 2008.
04:22That gives us a time series
Isso nos dá uma linha de tempo
04:34ELA: So those two billion lines,
ELA: Essas 2 bilhões de linhas,
04:36we call them two billion n-grams.
nós chamamos de 2 bilhões de n-gramas.
04:38What do they tell us?
O que eles nos dizem?
04:42Let me give you an example.
Permitam-me dar um exemplo.
04:44Let's suppose that I am thriving,
Suponhamos que eu esteja prosperando.
04:48And so I might say, "Yesterday, I throve."
Em inglês eu diria, "Ontem, eu 'throve'."
04:51Alternatively, I could say, "Yesterday, I thrived."
Ou eu poderia dizer, "Ontem, eu 'thrived'."
04:54Well which one should I use?
Qual deles eu deveria usar?
04:59As of about six months ago,
Como cerca de 6 meses atras,
05:01the state of the art in this field
o estado de arte nesta matéria
05:03is that you would, for instance,
seria, por exemplo,
05:09"Steve, you're an expert on the irregular verbs.
"Steve, você é um expert em verbos irregulares.
05:12What should I do?"
O que eu devo fazer?"
05:14And he'd tell you, "Well most people say thrived,
E ele diria, "Bem a maioria diria 'thrived',
05:16but some people say throve."
mas algumas diriam 'throve'."
05:19And you also knew, more or less,
E vocês também sabem, talvez,
05:21that if you were to go back in time 200 years
que se voltassem no tempo 200 anos
05:30"Tom, what should I say?"
"Tom, o que devo falar?"
05:34but some thrived."
mas alguns 'thrive'."
05:37So now what I'm just going to show you is raw data.
Agora o que vou lhes mostrar são dados crus.
05:43What you're seeing is year by year frequency
O que estão vendo é a frequencia ano a ano
05:45of "thrived" and "throve" over time.
de "thrived" e "throve" através dos tempos.
05:49Now this is just two
Isso são apenas duas
05:51out of two billion rows.
de 2 bilhões de linhas.
05:54So the entire data set
Assim o conjunto completo de dados
06:07For instance, this one.
Por exemplo, esta aqui.
06:09If you just take influenza,
Se você escolher influenza,
06:11you will see peaks at the time where you knew
verá picos nas épocas onde se sabe
06:16ELA: If you were not yet convinced,
ELA: Se vocês ainda não se convenceram,
06:19sea levels are rising,
o nível dos mares está subindo,
06:27and that's to tell Nietzsche that God is not dead,
que diz ao Nietzsche que Deus não morreu,
06:38For instance, let me tell you the history
Por exemplo, permitam-me contar a história
06:40of the year 1950.
do ano de 1950.
06:42Pretty much for the vast majority of history,
Durante todo o transcurso da história,
06:44no one gave a damn about 1950.
ninguém dava a mínima para 1950.
06:46In 1700, in 1800, in 1900,
Em 1700, em 1800, em 1900,
06:48no one cared.
ninguém ligava.
06:52Through the 30s and 40s,
Nos anos 30 e 40,
06:54no one cared.
ninguém ligava.
06:56Suddenly, in the mid-40s,
De repente, no meio dos anos 40,
06:58there started to be a buzz.
começou um rumor.
07:00People realized that 1950 was going to happen,
As pessoas perceberam que 1950 viria,
07:02and it could be big.
e que seria algo grande.
07:07But nothing got people interested in 1950
Nada interessou tanto às pessoas em 1950
07:10like the year 1950.
como o ano 1950.
07:16People were walking around obsessed.
As pessoas caminhavam obcecadas.
07:18They couldn't stop talking
Não podiam parar de falar
07:20about all the things they did in 1950,
sobre as coisas que fizeram em 1950,
07:23all the things they were planning to do in 1950,
tudo o que estavam planejando para 1950,
07:31In fact, 1950 was so fascinating
De fato, 1950 foi tão fascinante
07:33that for years thereafter,
que nos anos seguintes,
07:38in '51, '52, '53.
em 51, 52, 53.
07:40Finally in 1954,
Finalmente em 1954,
07:42someone woke up and realized
alguém acordou e percebeu
07:44that 1950 had gotten somewhat passé.
que 1950 tinha ficado algo 'passé'.
07:50And just like that, the bubble burst.
E de repente, a bolha estourou.
07:54And the story of 1950
A história de 1950
07:56is the story of every year that we have on record,
é a história de todo ano que temos registro,
08:12and the net result
e o resultado líquido
08:17with each passing year.
a cada ano que passa.
08:24JM: Now a little piece of career advice.
JM: Agora uma dica para a carreira.
08:26So for those of you who seek to be famous,
Aqueles de vocês que procuram ser famosos,
08:30authors, actors and so on.
políticos, autores, atores e demais.
08:37you're still young, it's really great.
você ainda é jovem, é muito bom.
08:41because then you rise to very great heights,
porque assim você alcançará grandes alturas,
08:45But if you want to reach the very top,
Mas se você quiser alcançar mesmo o topo,
08:47you should delay gratification
deveria postergar o reconhecimento
08:49and, of course, become a politician.
e, claro, tornar-se um político.
08:53and become very, very famous afterward.
e se torna muito, muito famoso depois.
08:58Like for instance, biologists and physics
Por exemplo, biólogos e físicos
09:00tend to be almost as famous as actors.
tendem a ser tão famosos quanto atores.
09:07If you do that,
Se fizerem isso,
09:12But guess what, nobody will really care.
Mas olha só, ninguém quer saber.
09:17ELA: There are more sobering notes
ELA: Existem notas mais sérias
09:19among the n-grams.
entre os n-gramas.
09:23an artist born in 1887.
artista nascido em 1887.
09:28He gets more and more and more famous,
Ele fica mais e mais e mais famoso,
09:32except if you look in German.
exceto se pesquisar em alemão.
09:36something you pretty much never see,
algo que nunca se vê,
09:38which is he becomes extremely famous
que é ele se tornar extremamente famoso
09:40and then all of a sudden plummets,
e de repente despenca,
09:42going through a nadir between 1933 and 1945,
chegando ao fundo do poço entre 1933 e 1945,
09:45before rebounding afterward.
antes de retornar com tudo.
09:48And of course, what we're seeing
Naturalmente, o que vemos
09:50is the fact Marc Chagall was a Jewish artist
é o fato de que Chagall era um artista judeu
09:53in Nazi Germany.
na Alemanha nazista.
09:55Now these signals
Estes sinais
09:57are actually so strong
são na verdade tão fortes
10:02We can actually figure it out
Podemos ter uma ideia
10:04using really basic signal processing.
usando até um básico processamento de sinais.
10:06Here's a simple way to do it.
Eis um modo simples de fazer.
10:08Well, a reasonable expectation
Uma expectativa razoável
10:10is that somebody's fame in a given period of time
é que a fama de alguém em um período de tempo
10:14and their fame after.
e da fama depois.
10:16So that's sort of what we expect.
É algo assim o que esperamos.
10:18And we compare that to the fame that we observe.
E comparamos isso com a fama que observamos.
10:21And we just divide one by the other
E dividimos uma pela outra
10:25If the suppression index is very, very, very small,
Se o índice é muito, mas muito pequeno,
10:28then you very well might be being suppressed.
você pode muito bem estar sendo suprimido.
10:34JM: Now you can actually look at
JM: Agora vocês podem até mesmo ver
10:39So for instance, here --
Por exemplo, aqui --
10:41this suppression index is for 5,000 people
este índice é para 5.000 pessoas
10:47What you expect is basically what you observe.
O que se esperava é basicamente o que observamos.
10:49This is distribution as seen in Germany --
Esta é a distribuição vista na Alemanha --
10:51very different, it's shifted to the left.
bem diferente, é desviada para a esquerda.
11:04But then also many people on the far right
E também muitas pessoas bem à direita
11:06who seem to benefit from propaganda.
que parecem ter se beneficiado da propaganda.
11:11ELA: So culturomics
ELA: Cultorômica
11:13is what we call this method.
é como chamamos este método.
11:15It's kind of like genomics.
É como se fosse a genômica.
11:17Except genomics is a lens on biology
Só que a genômica é uma lente para que a biologia
11:22Culturomics is similar.
Cultorômica é parecido.
11:27to the study of human culture.
para estudo da cultura humana.
11:34The great thing about culturomics
O bom da culturômica
11:36is that everyone can do it.
é que todos podem participar.
11:38Why can everyone do it?
Por que todos podem?
11:40Everyone can do it because three guys,
Todos podem porque três caras,
11:45saw the prototype of the Ngram Viewer,
viram o protótipo do Visualizador de N-Gramas,
11:47and they said, "This is so fun.
e disseram, "Isso é bem divertido.
11:49We have to make this available for people."
Temos que disponibilizar para as pessoas."
12:00and see its n-gram immediately --
e imediatamente podem ver o n-grama --
12:02also browse examples of all the various books
e também listar exemplos de todos os muitos livros
12:04in which your n-gram appears.
nos quais o seu n-grama aparece.
12:08and this is really the best of all the queries.
e é de fato a melhor de todas as procuras.
12:22It's not that strove for mediocrity,
Não é um esforço pela mediocridade,
12:33But it turns out this is just a reminder
Mas se tornou um lembrete
12:35that, although this is a lot of fun,
de que, mesmo sendo muito divertido,
12:52Actually, we're not going to have to talk,
Na verdade, não precisaremos falar,
13:00There's various types of frustration.
Existem vários tipos de frustração.
13:03If you stub your toe, that's a one A "argh."
Se você esfolar o dedo do pé, É um "ai" com um 'A'.
13:06If the planet Earth is annihilated by the Vogons
Se a Terra é aniquilada pelos Vogons
13:08to make room for an interstellar bypass,
pra dar lugar à um atalho interestelar,
13:10that's an eight A "aaaaaaaargh."
é um "aaaaaaaai" com 8 'A's.
13:12This person studies all the "arghs,"
Esta pessoa estudou todos os "ais",
13:14from one through eight A's.
de 1 até 8 'A's.
13:16And it turns out
E acontece
13:18that the less-frequent "arghs"
que os "ais" menos frequentes
13:23except, oddly, in the early 80s.
exceto, curiosamente, no começo dos anos 80.
13:30JM: There are many usages of this data,
JM: Existem muitos usos para estas informações,
13:40It's a sizable chunk of human culture.
É um pedaço considerável da cultura humana.
13:48These all happen to be on our computers,
Acontece que estes estão em nossos computadores,
13:50on computers across the world.
em computadores ao redor do mundo.