O Futuro da Informação/USP 2011/Trabalhos/Grupo 02

O objetivo desse trabalho é fazer uma discussão de como um formato livre de dados científicos traz avanços na ciência, proporcionando até mesmo o desenvolvimento de um ciência "colaborativa". A ideia é explorar algumas áreas das ciências biológicas e das ciências climáticas. Nas ciências climáticas vamos mostrar como ferramentas open source (NetCDF e o protocolo OPeNDAP) contribuíram com avanços nessa área.

O quarto paradigma: a ciência da análise de dados

O blog The Fourth Paradigm mantido pela Nature Magazine propõe que atualmente a ciência está vivenciando o seu quarto paradigma. Esse novo paradigma é caracterizado pelo uso intenso de ferramentas computacionais (e-Science) e pela análise de grandes volumes de dados.

De acordo com Thomas Kuhn uma mudança de paradigma na ciência pode ser entendida como uma mudança profunda num modelo fundamental ou na percepção de eventos. Neste contexto The Fourth Paradigm propõe que inicialmente a ciência era puramente teórica (primeiro paradigma). Pesquisadores pensavam e propunham modelos de funcionamento do Universo. A medida que o pensamento científico foi evoluindo passou-se para a fase da experimentação, ou ciência empírica. Em seguida, com o surgimento de computadores, um novo recurso foi adicionado à ciência: as simulações. Por meio de equações matemáticas busca-se criar um modelo aproximado que corresponda à situação real que se deseja simular. E atualmente, com o avanço da computação e o uso intensivo da mesma vivemos o paradigma do e-Science.

Dentro deste paradigma a ciência vem evoluindo bastante nas técnicas de processamento e visualização científica de dados. Diante da imensa quantidade de dados que são gerados é necessário o desenvolvimento de formas eficientes de trabalhar, interpretar, armazenar e visualizar tais dados.

No presente trabalho vamos apresentar alguns casos em que a ciência avançou consideravelmente se beneficiando da enorme quantidade de dados e das novas tecnologias envolvidas na análise de grandes volumes de dados.

Dados e as ciências climáticas

Atualmente grande parte dos esforços nas pesquisas climáticas envolve em algum momento manipular dados. Para entender o clima é preciso analisar dados. Com isso, não há pesquisa climática se não há dados. Nesse meio existem basicamente duas grandes fontes de dados: dados observacionais (medição in-situ, satélites) e dados provenientes de simulações numéricas. Dados observacionais custam caro e é praticamente impossível amostrar todo o globo terrestre. Logo, nos últimos anos um grande esforço foi dedicado ao aprimoramento das técnicas de simulação do clima por meio de computadores (modelos matemáticos).

A ferramenta

No meio científico é bastante valioso que um conjunto de dados seja facilmente disponível, hardware independent (portabilidade), auto descritivo e que esteja dentro de um padrão pré estabelecido. Um dos primeiros padrões adotados no meio científico foi o formato ASCII, que continua sendo amplamente utilizado. A grande desvantagem dos arquivos ASCII são o desperdício de espaço de disco, leitura e acesso aos dados bastante lenta. Quando se trata de grandes conjuntos de dados esse formato passa a ser inviável. A solução encontrada para reverter tal situação foi a utilização de formatos científicos binários [1]. Dentre os diversos formatos que surgiram vamos destacar aqui o Network Common Data Form (NetCDF). Basicamente as principais características desse formato são:

auto descritivos;
formato binário com um cabeçalho em ASCII;
acesso rápido;
capacidade de armazenar múltiplas dimensões (até 32 dimensões);

NetCDF

O formato network Common Data Form (NetCDF) é desenvolvido e mantido pela University Corporation for Atmospheric Research (UCAR). Ele é um software livre e constitui de um conjunto de bibliotecas escritas em C, FORTRAN, C++ e Java que permitem a criação, acceso e compartilhamento de dados científicos ^[1] .

A principal vantagem desse formato de dados é o suporte a criação de dados com multiplas dimensões ^[2]. No caso de dados climáticos gradeados isso proporciona um enorme avanço. No geral os dados climáticos são montados como arquivos de 4 dimensões, sendo 3 dimensões de espaço e uma de tempo (lon,lat,z,time). A forma que os arquivos NetCDF são criados proporciona o rápido acesso de qualquer informação dentro dessa matriz.

Dessa forma diversas rotinas de cálculo numérico foram criadas de forma a utilizarem essa estrutura de dados, tornando alguns cálculos que envolvem grandes matrizes muito mais eficientes (rápidos). Um exemplo de benefício trazido por essa tecnologia é por exemplo diversos pesquisadores que não possuem "background" em cálculos numéricos que envolvem matrizes (de tamanhos gigantescos) são capazes de gerar análises estatísticas sofisticadas e que produzem informações a respeito do clima, avançando com o conhecimento na área.

OPeNDAP
- O Open-source Project for a Network Data Access Protocol é um protocolo livre para servir dados científicos. No meio climático existem programas clientes escritos em diversas linguagens de programação que utilizam tal protocolo para acessar grandes conjuntos de dados. Estes clientes geralmente já estão interligados com algum software de análise estatística permitindo uma eficiente análise dos dados de interesse.

Um exemplo

http://ivambd.iag.usp.br:8080/las/getUI.do

O IPCC e seu portal de dados

O Intergovernmental Panel on Climate Change (IPCC) é um orgão intergovernamental da ONU criado para reunir e avaliar a maior quantidade possível de informações científicas relacionadas às mudanças climáticas. Milhares de cientistas de todo o mundo contribuem com o IPCC por meio de Grupos de Trabalho focados nas diversas áreas no âmbito das mudanças climáticas. Em 2007 o IPCC recebeu o prêmio Nobel da Paz pelo seu esforço em mostrar a importância das mudanças climáticas para a sociedade.

Simulações numéricas do clima

Uma das frentes em que o IPCC atua é em estabelecer cenários futuros de desenvolvimento socio-econômico do mundo (SRES). Esses cenários são bastante devergentes. Alguns assumem que as atividades industriais crescerão vertiginosamente nos próximos anos, aumentando ainda mais a concentração de gases estufa que são lançados na atmosfera. Outros assumem que o mundo se tornará mais sustentável e que tecnologias verdes serão amplamente utilizadas pela sociedade. Ao todo são 40 cenários, desde o mais pessimista até o mais otimista (em relação às emissões de gases estufa).

Uma vez estabelecido tais cenários passam-se a fazer projeções do clima futuro. Essas projeções são simulações numéricas do clima global. Tais simulações buscam reproduzir a dinâmica do clima por meio de modelos matemáticos (GCM). Esses modelos são bastante complexos e exigem uma alta demanda computacional. Dessa forma somente centros de pesquisa com grande poder computacional são capazes de gerar tais simulações.

No último Relatório de Avaliação do Clima do IPCC foram utilizadas simulações de pouco mais de 20 centros de pesquisa. Cada centro utilizando seu próprio GCM para realizar projeções climáticas de acordo com os cenários estabelecidos pelo IPCC.

Os resultados dessas simulações são milhares de petabytes de dados climáticos e que sem uma análise, processamento e tratamento estatístico não passam de números sem valor algum científico. Na prática os dados gerados por tais simulações são variáveis climáticas que descrevem o clima, tais como temperatura do ar, velocidade do vento, salinidade dos oceanos, etc. Ao todo são 110 variáveis^[3] que um GCM simula.

O "tamanho" do problema

Para se ter uma ideia da quantidade de dados gerados por uma simulação numérica do clima feita por um GCM vamos considerar a seguinte situação (aproximação grosseira). O globo terrestre é representado por uma matriz tridimensional sendo cada ponto dessa matriz um determinado local do globo. Para a última avaliação do IPCC os GCM's tinham em geral a resolução de 1º de resolução horizontal (latitude e longitude) e 30 níveis verticais. Dessa forma o globo terrestre é representado por uma matriz 360x180x30 pontos (lon,lat,z). A cada passo de simulação é gerado uma matriz com essas dimensões representando uma única variável. No geral um intervalo de tempo desses GCM's é em torno de 6 horas. Ou seja, a cada 6 horas de período simulado é gerado uma nova matriz de 360x180x30 pontos representando uma única variável.

Uma simulação do clima cobrindo um período de 100 anos geraria:

110 x (4x365x100) x 360x180x30 = Muito dado!!

Ainda vale lembrar que isso é somente uma simulação para um único cenário. Na prática são feitas cerca de 5 simulações para cada um dos 40 cenários propostos por cada um dos 20 GCM's. Armazenar essa enorme quantidade de dados na forma de arquivos ASCII geraria uma enorme quantidade de bytes e que na prática se tornaria inviável de organizar e consequentemente de gerar alguma informação a partir desses dados.

Avaliação das simulações

Além do esforço de produzir tais simulações existe um outro esforço de igual ou até mesmo maior tamanho/importância de analisar os dados gerados por tais simulações. E é nessa parte que entra um trabalho colaborativo de todo a comunidade científica interessada em estudos de projeções climáticas. A responsabilidade pela análise dessa enorme quantidade de dados está na mão de mais 4000 mil cientistas trabalhando nas mais diversas questões climáticas, tais como, derretimento de calotas de gelo no Himalaia, formação de massas de água nos mares das regiões polares, regime de chuva na região amazônica, desertificação de pantanos, detecção de buracos de ozônio, etc. Um dos principais fatores que possibilitam essa diversidade de estudos utilizando esses dados é a padronização do formato, organização e distribuição desses dados. E é nesse sentido que iniciativas como o desenvolvimento do software NetCDF ^[4] é fundamental para o avanço dessa ciência. Graças a essa iniciativa hoje existe uma forma eficiente de organizar esse tipo de dado e também de distribuí-lo.

Dados e as ciências biológicas

No campo das ciências biológicas, mais precisamente ciências moleculares, o desenvolvimento de técnicas laboratoriais automatizadas (sequenciadores, por exemplo) teve como consequência a criação de enormes quantidades de dados (genomas inteiros, como o humano) em intervalos de tempo cada vez menores. Uma das tecnicas empregadas atualmente, chamada 'Pyrosequencing', pode sequenciar por volta de 400 milhões de pares de bases nitrogenadas num ciclo de 10 horas^[5]. Ao que nos parece, muito desta massa enorme e ainda crescente de informação, em sua maior parte 'crua', carece ainda de análise.

Um dos recursos que facilitou o acesso e o compartilhamento deste tipo de informação foi o GenBank inicialmente desenvolvido por Walter Goad e outros, em 1982^[6]. Em 1979 foi criado um banco de dados local, em Los Alamos, chamado 'Los Alamos Sequence Database' que posteriormente cresceu e tornou-se o GenBank.

O GenBank é um banco de dados de acesso livre que contém, atualmente, mais de 140 milhões de sequências de nucleotídeos^[7], as unidades básicas das moléculas de DNA e RNA. Por ser de acesso livre, qualquer pessoa com acesso à internet pode ver seu conteúdo. Os arquivos que contém as sequências genomicas e proteomicas podem ser baixados via FTP.

As informações estão disponíveis em alguns formatos, dentre eles o Abstract Syntax Notation One (ASN.1), que é um formato padronizado de representação de estruturas de dados. Dentro do GenBank, os dados podem estar na forma binária ou texto do ASN.1 (para impressão)^[8]. Outro formato possível é o GenBank format^[9].

Alem dos dados disponíveis de forma aberta, existe uma família de programas conhecidos como BLAST (Basic Local Alignment Search Tool), que é utilizada para realizar buscas e comparações em sequencias de nucleotídeos ou sequencias de aminoácidos, disponível para download no site do NCBI (National Center for Biotechnology Information), que atualmente hospeda também o GenBank. Os formatos de entrada do programa blastall, que contém todas as funções num só executável, são os mesmos utilizados para armazenar informação no GenBank^[10], tornando o uso da ferramenta muito mais simples, uma vez que não há necessidade de conversão dos dados.

No contexto da disciplina

A organização dos dados em formatos livres facilita a troca de informação entre os pesquisadores, tanto enviando quanto baixando dados pois os isenta de perder tempo aprendendo novas ferramentas ou peculiaridades deste ou daquele banco de dados que desejem acessar. Aliado a isso, o exemplo citado mostra uma ferramenta de análise de dados construída baseando-se nestes formatos livres, o que colabora ainda mais com a homogeneidade da troca de informações no campo das ciências biológicas.

As ciências moleculares, no que dizem respeito ao sequenciamento de proteínas ou genomas, se mostram bastante alinhadas com as idéias de construção colaborativa do conhecimento, discutidas em aula. Uma evidência disto são os pesquisadores da área de computação, cada vez mais interessados em estudos em bioinformática. De maneira geral, estes pesquisadores se encarregam da parte de tratar os dados gerados nos laboratórios de pesquisa em biologia molecular. A não-propriedade sobre os dados gerados no sequenciamento permite a emergência de dinâmicas de divisão de tarefas por parte dos acadêmicos: alguns pesquisadores se encarregam de produzir os dados, outros de tratá-los.

Conclusão

Com a popularização e crescente avanço da computação no meio científico a quantidade de dados produzidos aumentou bruscamente. Boa parte das pesquisas acadêmicas atuais são fundamentadas na análise de dados. Dessa forma a necessidade da padronização e organização de dados passou a ser um tópico de bastante importância para o avanço de muitos campos da ciências. Diversas iniciativas estão sendo feitas nesse sentido nos mais diversos ramos da ciência. Tais iniciativas proporcionam um ambiente de compartilhamento de dados e até mesmo de um sistema colaborativo de produção científica, uma vez que devido ao enorme volume dados fica praticamente inviável um pequeno grupo de pessoas analisar todo um conjunto.

Referências

[1] ttp://www.unidata.ucar.edu/software/netcdf/#netcdf_faq

[2] ttps://wiki.ucar.edu/display/NNEWD/Gridded+Data+Formats

[3] ttp://esg.llnl.gov:8080/about/ipccTables.do

[4] ttp://www.unidata.ucar.edu/software/netcdf/

[5] ttp://en.wikipedia.org/wiki/Pyrosequencing#Commercialization

[6] ttp://en.wikipedia.org/wiki/GenBank#History

[7] ttp://en.wikipedia.org/wiki/GenBank#Growth

[8] tp://ftp.ncbi.nih.gov/genomes/Arabidopsis_thaliana/README

[9] ttp://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

[10] ttp://en.wikipedia.org/wiki/BLAST#Input

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]