TRIBUNE : Laissez une trace de votre hackathon!

TRIBUNE : Laissez une trace de votre hackathon !

Dans les semaines qui viennent, de nombreux hackathons vont se dérouler, sur la consommation énergétique, sur les données de la cour de comptes ou encore sur les fréquences, et je ne pourrai pas participer à tous ce événements. Mais j’espère pouvoir profiter du travail qui sera accompli pour réutiliser plus tard les données peut-être pour d’autres usages… Car c’est bien à ça que sert un hackathon open data ?

On sait déjà qu’une partie du travail consistera à nettoyer de la donnée. Les jeux mis à disposition par les administrations sont la plupart du temps dans des formats… Disons exotiques ! Par exemple pour les accidents de la circulation, l’identifiant de la commune est séparé en deux champs, et le code département est “complété” par un zéro à droite (oui, vous avez bien compris, le code département de Paris est, comme chacun sait, 750 !). Par conséquent une partie du hackathon s’est attelée à redresser le fichier pour produire un nouveau [jeu de données] (Base de données des accidents corporels de la circulation - data.gouv.fr) pour les années 2006 à 2011.

Cela peut apparaître comme une perte de temps, pourtant c’est une énorme avancée dans l’open data. En effet les administrations sont enfin rentrées dans une démarche de partage de leurs données. Mais si elles ont bien changé depuis l’époque où elles gardaient jalousement leur trésor numérique, elles ne vont pour l’instant pas beaucoup plus loin qu’un export brut de leur format interne. Et c’est à nous, citoyens, de transformer cette matière dans un format adapté à nos réutilisations.

Le jeu de données corrigées cité plus haut a été réutilisé pour de nombreuses cartes, cependant on ne peut malheureusement pas en profiter de cette avancée sur la durée car la méthode de nettoyage utilisée reste inconnue. Tout le travail est à refaire si quelqu’un veut étudier ou cartographier les années suivantes, à partir des nouvelles données mises à disposition par le ministère de l’intérieur.

Pour que le travail réalisé pendant un hackathon soit pérenne, il faut au minimum le documenter, à l’image de ce que fait Idées Libres, ou encore mieux de publier le code informatique et les requêtes utilisées sur une plateforme reconnue. La valeur ajoutée pendant le hackathon sera ainsi disponible pour tous et quasi indéfiniment, alors qu’une partie des réutilisations ou expérimentations
ne seront plus en ligne au bout de quelques mois.

Au même titre qu’un logiciel gratuit n’offre pas la même liberté qu’un logiciel open source, une donnée n’est réellement ouverte qui si on expose comment elle a été obtenue.

Alors mercredi, lorsque vous cogiterez pour exploiter l’essence des données nouvellement ouvertes, créez un dépôt sur github pour laisser une trace réutilisable de votre travail !

Alexandre Bonnasseau

1 Like

It’s unfortunate that your really excellent post here almost 5 years ago got mostly overlooked, Alexandre! Here is a quick translation, with my highlighting, in English:

In the coming weeks, many hackathons will take place, on energy consumption, on data from the Court of Auditors or on frequencies, and I won’t be able to participate in all of them. But I hope to be able to take advantage of the work that will be done to reuse the data later, perhaps for other purposes… Because that’s what an open data hackathon is for.

We already know that part of the work will consist of cleaning the data. The datasets made available by the administrations are mostly in… let’s just say, exotic formats! For example, for traffic accidents, the municipality identifier is separated into two fields, and the department code is “completed” by a zero on the right (yes, you’ve got it right, the department code for Paris is, as everyone knows, 750!) Therefore part of the hackathon set about rectifying the file to produce a new dataset for the years 2006 to 2011.

This may seem like a waste of time, but it is a huge step forward in open data. Indeed, governments have finally started to share their data. But even if they have changed [their attitude] since the days when they jealously guarded their digital treasures, they are not yet going much further than to provide a raw export of their internal formats. And it is up to us, the citizens, to transform this material into a format suitable for our re-use.

The above-mentioned corrected dataset has been reused for many maps, but unfortunately we cannot benefit from this progress over time because the cleaning method used is still unknown. All the work has to be redone if someone wants to study or map the following years, using the new data made available by the Ministry of the Interior.

For the work done during a hackathon to be sustainable, it is necessary at least to document it, as is done by Idées Libres, or even better, to publish the computer code and the queries used on a recognised platform. The value added during the hackathon will therefore be available to all and almost indefinitely, although some of the reuses or experiments will no longer be online after a few months.

In the same way that free software does not offer the same freedom as open source software, data is only really open if you expose how it was obtained.

So [at your next hackathon], when you’re thinking about how to explore the essence of newly opened data, create a repository on github to leave a reusable record of your work!