Por Thiago Ávila*
No primeiro artigo desta série, abordamos a problemática da oferta de dados que vem crescendo exponencialmente no âmbito da economia digital, mas com qualidade e poder de reutilização muito baixo. Conforme já explorado, estes dados estão, predominantemente, em formato não estruturado – o que limita sua descrição e reutilização por outras aplicações e pessoas. Além disso, devido à baixa qualidade dos dados disponibilizados, o processo de reutilização tem sido caro [1].
Nesta direção, novas abordagens em torno dos dados foram sendo desenvolvidas ao longo dos anos e atualmente, busca-se o estabelecimento de um conceito de dado que possa ser amplamente utilizado sem restrições de uso e aplicações, de tal maneira que o ciclo de produção de conhecimento possa ser mais rico e aprimorado [2]. O conceito de dados abertos foi estabelecido neste horizonte e consistem de Dados que podem ser utilizados livremente, reutilizados e redistribuído por qualquer pessoa – sujeito apenas, no máximo, com a exigência de atribuir o compartilhamento pela mesma licença [3].
Os dados abertos permitem que pessoas e organizações utilizem informações públicas livremente para gerar aplicativos, fazer análises ou mesmo produtos comercializáveis. Para que um conjunto de dados seja considerado aberto, ele precisa permitir que o cidadão acesse com facilidade e o utilize ou redistribua sem restrições. Ademais, os dados precisam ser facilmente encontrados em um lugar indexado, sem impedimento de leitura por máquinas ou restrições legais [4].
No âmbito governamental, para conceituar o como devem ser os dados abertos governamentais foram estabelecidas três leis, ou seja, as condições para que um determinado dado governamental seja considerado como aberto [5]:
– Se o dado não pode ser encontrado e indexado na Web, ele não existe;
– Se não estiver aberto e disponível em formato compreensível por máquina, ele não pode ser reaproveitado; e
– Se algum dispositivo legal não permitir sua replicação, ele não é útil.
Complementarmente, a The Association of Computing Machinery’s publicou uma recomendação para dados governamentais, onde estabeleceu que:
“Os dados publicados pelo governo deve ser em formatos e abordagens que promovam a análise e reutilização desses dados.” [6].
Desta forma, o conceito de dados abertos governamentais emergiu como uma forte referência à publicação de dados na web, criando novos canais de comunicação entre governos e seus cidadãos, onde inúmeros portais e catálogos de dados web foram desenvolvidos, em nível continental, como o da União Europeia (reunindo catálogos de 29 países), em nível nacional como o dos E.U.A., do Reino Unido e do Brasil, e ainda em nível local, como o do Estado de Alagoas, ofertando milhares de conjuntos de dados online. Tais iniciativas têm sido bastante impulsionadas em nível global, como o estabelecimento da Parceria para o Governo Aberto (Open Government Partnership) [7] que reúne cerca de 65 países (incluindo o Brasil) em torno do estabelecimento de Governos mais transparentes, participativos e que engajem a sociedade na co-criação e colaboração em torno de soluções de interesse público.
Assim, o volume de dados e informações produzido, bem como a atual descentralização destas estruturas de produção impõem desafios cada vez maiores, pois a tomada de decisão precisa ser subsidiada por informações integradas, comumente decorrente do cruzamento de várias bases de dados. Neste contexto, os consumidores de dados visualizam que a oferta de dados atual vastamente espalhada pela web representa um grande inconveniente, pois existe a necessidade de primeiro obter e armazenar estes dados localmente, antes que possam ser utilizados para a produção de informações relevantes [8].
Cumpre ressaltar ainda que, mesmo que a informação do setor público esteja disponível em formato aberto, pode estar publicada de forma caótica. Ademais, a mesma informação pode ser encontrada em diferentes locais da web e ainda, sem haver nenhuma conexão entre tais fontes de informações, apresentando, por exemplo, qual é a informação mais atualizada. Diante desta situação, para que os usuários tenham confiança nos dados disponibilizados eles buscam analisar a sua procedência, dando preferência àqueles que são originários de fontes confiáveis. Por outro lado, estes dados confiáveis são naturalmente disponibilizados por fontes distribuídas, não sendo incomum a ausência de hiperlinks para informações relacionadas, ora armazenadas no mesmo repositório de dados ou não [9].
O desafio presente consiste no fornecimento de meios eficazes para acessar dados das fontes distribuídas, e ainda, estipular mecanismos por meio dos quais eles podem ser conectados e integrados [8]. Outro desafio reside na limitação dos seres humanos em processar e conectar a atual oferta de dados e informações disponíveis, considerando que a internet faz com que a riqueza do conhecimento humano esteja disponível para qualquer pessoa, em qualquer lugar. Mais um desafio reside em como classificar e efetivamente utilizar o crescente volume de informação disponível para a obtenção das respostas necessárias.
Uma iniciativa interessante na direção desse desafio foi à proposição, por Tim Berners-Lee de uma escala de maturidade dos dados, conhecida como Esquema das 5 Estrelas dos Dados Abertos[10]. Esta escala foi estabelecida quando da definição do conceito de Dados Conectados, conforme abaixo [2]:
1-Estrela: O dado está disponível na web, em qualquer formato (pdf, png, jpeg);
2-Estrelas: O dado está disponível como sendo legível por máquina e estruturado (uma planilha do Excel);
3-Estrelas: O dado está disponível num formato não-proprietário (uma planilha CSV).
4-Estrelas: O dado é publicado usando os padrões de dados abertos do World Wide Web Consortium, como o (RDF e SPARQL) e possui identificadores universais (URIS);
5-Estrelas: Todos os itens acima se aplicam, além de links para dados de fontes diferentes e utilização de semântica, ou seja, o dado é enriquecido e conectado com outros dados.
Precisamos ou não pensar em como melhorar esta oferta de dados e conectando-a e enriquecendo-a efetivamente?
No próximo artigo desta série, apresentaremos uma das perspectivas em desenvolvimento para a melhoria de dados na Web, que são os “Dados Conectados” apresentaremos este conceito e ao longo dos próximos posts, seu potencial, casos e uso, vantagens e limitações.
Até a próxima!!!
- Thiago Ávila é conselheiro consultivo da Open Knowledge Brasil.
- Estes artigos são oriundos de pesquisas científicas desenvolvidas no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de Computação da Universidade Federal de Alagoas (UFAL) e contam com a contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr. Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira, Thiago Ávila e Williams Alcântara (UFAL).
[1] Alcantara, Williams; Bandeira, Judson; Barbosa, Armando; Lima, André; Ávila, Thiago; Bittencourt, Ig & Isotani, Seiji. (2015). Desafios no uso de Dados Abertos Conectados na Educação Brasileira. Anais do DesafiE – 4º Workshop de Desafios da Computação Aplicada à Educação. CSBC 2015. Recife: Sociedade Brasileira de Computação.
[2] Bandeira, Judson; Alcantara; Williams; Barbosa, Armando; Ávila, Thiago; Oliveira, Danila; Bittencourt, I. & Isotani, S. (2014). Dados Abertos Conectados. Jornada de Atualização em Tecnologia da Informação. Anais do III Simpósio Brasileiro de Tecnologia da Informação – SBTI 2014.
[3] OKFN. Open Data HandBook. Why Open Data ?. Open Knowledge Foundation. Disponível em: http://opendatahandbook.org/guide/en/why-open-data/. Acesso em: jul. 2015
[4] Neves. Otávio Moreira de Castro. Evolução Das Políticas De Governo Aberto No Brasil. Anais do VI Congresso Brasileiro de Gestão Pública – CONSAD. Brasília, Brasil. 2013. Acesso em out. 2014. Disponível em: http://consadnacional.org.br/wp-content/uploads/2013/05/092-EVOLU%C3%87%C3%83O-DAS-POL%C3%8DTICAS-DE-GOVERNO-ABERTO-NO-BRASIL.pdf
[5] Eaves, David. (2009). The Three Laws of Open Government Data. Disponível em Eaves.ca: http://eaves.ca/2009/09/30/three-law-of-open-government-data. Acesso em: jul. 2015
[6] ACM. Association of Computing Machinery. ACM Recommendation On Open Government. 2009. Disponível em: http://www.acm.org/public-policy/open-government
[7] OGP. Open Government Partnership. Participating Countries. 2014. Acesso em: jul. 2015. Disponível em: http://www.opengovpartnership.org/countries
[8] Heath, T. (2011). Linked Data — Welcome to the Data Network. IEEE Internet Computing archive. Volume 15 Issue 6. Pages 70-73
[9] Galiotou, Eleni and Fragkou, Pavlina (2013). Applying Linked Data Technologies to Greek Open Government Data: A Case Study. Journal of Social and Behavioral Sciences, p 479-486, vol. 73; doi: 10.1016/j.sbspro.2013.02.080.
[10]Berners-Lee, Tim (2006). Linked Data. W3C. Acesso em: jul. 2015. Disponível em: http://www.w3.org/DesignIssues/LinkedData.html
[11] 5 STARS OPEN DATA… “5 Stars Open Data”. 2012. Acessado em set. 2014. Disponível em: http://5stardata.info/
Texto publicado no site Thiago Ávila. Ele faz parte da série de artigos Dados abertos conectados.