As camadas que faltam nos Dados Abertos

29 mar de 2016, por OKBR

Compartilhar

* texto originalmente publicado no Medium por Nicolas Terpolilli

O movimento de Dados Abertos está crescendo, há mais e mais portais, mais e mais editores e mais e mais pessoas usando os dados. Com o movimento crescendo, tanto as pessoas que publicam quanto as que usam os dados evoluem. E embora pareça que a pilha de Dados Abertos está evoluindo também, ainda existem algumas camadas faltando, algumas ferramentas em falta e, como um ecossistema, devemos nos preocupar mais com elas!

Open Bus por OKDe

Open Bus. Flickr/OKDe

A estranha difusão dos Dados Abertos

Conjuntos de dados abertos são geralmente produzidos por pessoas que sabem o que estão fazendo. Elas podem estar um pouco enferrujadas, podem usar ferramentas datadas, podem estar em grandes equipes com alguma luta pelo poder, mas os produtores de dados conhecem seus dados.

O que eles normalmente não entendem é quem vai reutilizar seus dados abertos, através de qual mídia estes dados vão alcançar as pessoas, e como comercializá-los e publicizá-los.

O principal problema: dados abertos devem ser úteis para um monte de pessoas diferentes. E eles não vão beneficiar o produtor de dados / abridor se não atingirem um número suficiente de pessoas e segmentos distintos o suficiente.

Seus dados abertos podem ser usados por:

  1. Desenvolvedores em tempo privado,
  2. Desenvolvedores em seu tempo de trabalho,
  3. Analistas de dados,
  4. Especialistas do Excel,
  5. Novatos do Excel,
  6. Cidadãos curiosos,
  7. Cidadãos menos curiosos,
  8. Estudantes,
  9. Jornalistas de dados ocupados,
  10. Algoritmos,
  11. Sensores,
  12. Leitores de dispositivos móveis,
  13. Trolls,
  14. Você,
  15. Usuários com pouca banda,
  16. Bots de buscadores,
  17. Outros editores de dados,

Se você está a cargo de um portal de dados, você sabe como cada um desses segmentos de clientes acessa, reutiliza e faz o máximo de seus dados?

Camadas realmente fortes

Desde os primeiros dias da abertura dos dados, por volta de 2008, algumas camadas muito fortes surgiram. Principalmente por causa do design das primeiras grandes plataformas de dados abertas – pense no CKAN – essas camadas são: o download de dados, a escolha de um formato de dados e definição de metadados úteis, e é basicamente isso! Isso já é incrível e quando reunimos uma lista de mais de 1600 portais de dados abertos em todo o mundo, descobrimos que um monte de portais de todo o mundo são realmente arrumados, úteis e bem desenhados em torno dessas camadas.

Se você adicionar a crescente presença de APIs, o número de portais de dados interligados e a enorme quantidade de boas práticas de partilha de dados, a pilha é cada vez mais completa. No entanto, eu realmente não tenho certeza de que metade dos segmentos de clientes pode reutilizar os dados.

Pilha de Dados Abertos (provavelmente ainda incompleta)

Pilha de Dados Abertos (provavelmente ainda incompleta)

A estratégia de “não deixar ninguém para trás” dos Dados Abertos

A natureza inerente dos dados abertos é capacitar todos através de um acesso adaptado para informações reutilizáveis. E quando digo todos que eu realmente quero dizer todos. Editores de dados abertos devem adaptar os seus meios de comunicação para um grande espectro de clientes de dados. E apenas uma pequena parte dessas pessoas está disposta a procurar um portal, para procurar um pedaço dos dados, para baixá-lo, para procurar alguns registros e achá-los antes de enviar o resultado para um colega por e-mail.

Agora, considere que, para além das camadas básicas (download em massa de dados brutos), os portais de dados abertos ofereçam uma API pronta para uso, sem conta de acesso, para acessar os dados brutos. E melhor ainda, considere que eles ofereçam ferramentas prontas para o uso – para analisar os dados, para criar gráficos em movimento, ou – ainda -, que já mapeiem automaticamente os dados. Claro que a mesma ideia pode ser aplicada a dados geográficos, que devem estar sempre diretamente no mapa. Estas camadas de dados abertas permitem que pessoas sem conhecimentos técnicos sejam independentes em seu uso dos dados, compreendam uma tendência e compartilhem os dados facilmente em poucos minutos, sem ter que baixá-los em seu próprio dispositivo. Não há absolutamente nenhuma razão para que o uso de dados deva ser reservado a apenas algumas pessoas qualificadas. Como os blogs e as mídias sociais, que têm dado a todos a oportunidade de dizer algo ao mundo, os dados abertos devem permitir que qualquer pessoa possa facilmente contar uma história.

Se queremos que todos acessem os dados, temos que fortalecer aqueles sem as habilidades! Via incorporação, painel de controle, e-mails, tweets, FB, Snapchat (eu realmente não consigo esperar para ser capaz de mostrar os dados para os amigos), tabelas HTML dinâmicas ou básicas, cada meio deve ser um meio de dados acessível.

Outra grande parte da pilha, que ainda é um pouco fraca, é a descoberta de dados. Por enquanto, existem 3 maneiras de descobrir dados:

  • Horas rolando páginas e páginas de conjuntos de dados não relacionados,
  • Experiências de busca que remontam aos anos 2000, baseadas em listas de tags incompletas e fornecidas por humanos,
  • Consultas em SPARQL – ricas, mas que exigem experiência e habilidades – de dados vinculados.

Isso não tá ok em 2016! Cada site de compras online tem uma ferramenta de recomendação. Cada site de notícias sugere outros artigos relacionados quando você termina um. Quando havia apenas dois mil conjuntos de dados abertos disponíveis on-line, tudo bem publicarem listas estáticas de links em linguagem de marcação. Agora precisamos de uma experiência para descoberta de dados que se assemelhe ao Netflix / Medium / Spotify ! Eu acredito que o caminho para esse tipo de experiência é muito mais semântico, mas o design de experiência deve ser com muito menos semântica.

As camadas que faltam nos Dados Abertos

De certa forma, descrevi um ecossistema de Dados Abertos em que a maioria das camadas já existem e são usadas todos os dias. O que falta é uma maior integração entre elas, uma maior consistência e muito mais fluidez na experiência global de lidar com dados.