Diagrama Venn de datos abiertos gubernamentales, por justgrimes La ley de infogobierno venezolana dice entre otras cosas que todo lo que produzca y publique la administración pública es automáticamente de dominio público. Esto significa que toda información que un organismo público coloque en una página web es información que puede copiarse, reproducirse, comentarse y usarse para los fines que se requiera siempre que se de crédito al creador de dichos datos y se mencione la fuente para que quien lo desee pueda tomar los datos directamente de ella. Pero la información que publica las instituciones del Estado no siempre es fácil de leer o articular para su procesamiento como información básica, a veces se publican datos insertados en documentos pdf o en tablas dinámicas web, que si bien permiten moverse por grandes masas de información no son lo suficientemente flexibles como para cruzar todos esos datos o explorarlos desde otras perspectivas. Otra cosa es que los informes presentados suelen pedir a gritos un poco de limpieza, agregar acentos, eliminar duplicados, etc.

Inicié un pequeño proyecto de datos abiertos con la intención de ayudar a las instituciones públicas a compartir sus datos publicados en formatos que puedan ser mejor estudiados o simplemente descargados cuando las páginas oficiales se encuentran caídas o no provean medios cómodos para tomar dicha información, en la siguiente tabla iré agregando los datos que vaya procesando.

Datos Formatos a descargar Fuente
Candidatos a la Asamblea Nacional Constituyente, Venezuela 2017 .back postgresql, .sql postgresql, .json, .csv, original CNE
Ubigeo INE .tsv, .json INE

¿Cómo obtengo los datos?

  • Web Scraping es una técnica que permite recabar datos de páginas web
  • Existe software que permite recabar datos desde archivos pdf
  • Los datos de candidatos a la constituyente del 2017 se descargan directamente como un documento json desde el sitio web publicado por el Consejo Nacional Electoral. La página muestra una tabla dinámica que se carga con los datos pero no permite cómodamente el descargarse el archivo json generado, es necesario leerlo desde la caché del browser o tomarlo con ayuda de plugins como firebug. A los datos le agregué una columna llamada ‘adjudicados’ que se muestra como ‘t’ (de true) para los participantes que el CNE a afirmado como adjudicados a puestos en la ANC en ruedas de prensa o boletines

LICENCIA

Comparto el trabajo de recopilación bajo una licencia CC by-sa 4.0. Los propios datos son públicos, pertenecen a sus creadores y pueden encontrarse en sus sitios de publicación, mencionados donde corresponda.

¿Quieres ayudar agregando o limpiando datos?

  1. Has un fork.
  2. Crea una rama propia (git checkout -b mi_rama)
  3. Has un Commit con tus cambios (git commit -am "Descripción de los cambios")
  4. Sube los cambios a tu rama (git push origin mi_rama)
  5. Crea un Pull Request
  6. ¿Hay algún formato en que desees obtener los datos? ¡Déjame un comentario más abajo!

Crédito de la imagen: Open Government Data Venn Diagram by justgrimes / CC BY-SA

La palabra “datos” se repite 27 veces en este documento. Parece que me emociono cuando hablo de datos…