Canalblog
Suivre ce blog Administration + Créer mon blog

Data journalism

Data journalism
Archives
20 décembre 2011

GoogleViz Elections 2012: commentaires sur Thema Tweets

La particularité de cette cet outil est de chercher à ouvrir plusieurs terrains d'exploration de l'actualité électorale. Bien qu'elle ne soit pas complètement ou parfaitement satisfaite, cette ambition est servie par une navigation simple, donc efficace. La parole est aux auteurs.

Thema Tweets 1ThemaTweets scrute les tweets qui parlent des candidats et de leur parti politique, les classe selon des thèmes prédéfinis et  les restitue sous forme de visuels.

Nous nous sommes concentrés sur Twitter en utilisant l'API de streaming. A la réception d'un tweet, nous tentons de le classifier via un algorithme simple (tokenisation + stemming + poids sur keyword). Les données sont pré-agrégées quotidiennement et restituées depuis un client qui fonctionne principalement en JSON/Ajax.

Mes commentaires

Le graphique ci-dessus combine la figure des secteurs (ou "camembert) et celles des anneaux (circonférence extérieure). Il semble à première vue déroutant voir incongru si l'on additionne les pourcentages. L'internaute parvient néanmoins à saisir les importances relatives des thèmes de campagne selon les candidats. C'est le premier territoire exploré: "Qui dit quoi à qui".

Ci-dessous, la visualisation interactive esthétiquement réussie bien qu'un peu "chargée" montre les thèmes communs à différents candidats. Dans cette capture d'écran qui modifie le graphisme originel, j'ai voulu suggérer dans un premier temps l'aspect "pléonasme" de cette fonctionnalité: il n'y a rien d'étonnant, en effet, à ce qu'Eva Joly et Corinne Lepage parlent de la même chose puisqu'elles se réclament toutes deux de l'écologie. C'est le contraire - si elles n'avaient pas du tout parlé des mêmes enjeux - qui aurait été surprenant.

En tant qu'ancien journaliste politique, je me suis insurgé pendant les délibérations du jury, contre l'idée suggérée que deux candidats qui parlent des mêmes problèmes pourraient "s'assembler", c'est à dire être objectivement alliés. Au contraire, ils - en l'occurrence "elles" -  sont terriblement concurrent(e)s sur le même "segment" du corps électoral. Le vrai titre devrait être "Qui se ressemble se combat au nom de la concurrence". Du moins pour le premier tour. Comme la probabilité est faible qu'Eva Joly et/ou Corinne Lepage participent au deuxième tour, ce que révèle l'application n'a pas beaucoup d'intérêt politique.

Thema Tweets 2Le troisième registre exploré, celui de "l'alignement des thèmes" de campagne, suscite de la perplexité. Autant il est compréhensible que Nicolas Sarkozy, candidat potentiel et président en exercice, parle énormément de l'Europe et de la crise (cercles respectivement vert et violet en haut à droite) autant il est difficile de comprendre pourquoi les candidats de gauche n'abordent pratiquement pas ces thèmes. A vrai dire, c'est plus que bizarre...

Thema Tweets 3Thema Tweets mots colorésLa fonctionnalité la plus excitante de Thema Tweets est celle qui associe le prélèvement des tweets politiques les plus récents (ci-contre) à un graphisme interactif de flux.

Dans les gazouillis qui mentionnent des acteurs de la campagne électorale, certains mots associés à des thèmes prédéfinis sont surlignés en différentes couleurs.

Dans cette capture d'écran, le mot "santé" est valorisé en orange tandis que le nom du président de la République apparaît sur fond bleu foncé.

On comprend bien que "Santé" en orange va alimenter les graphiques qui donnent à voir les thèmes et que "Nicolas Sarkozy", en bleu, est destiné aux visualisations centrées sur les candidats.

Mais la grande trouvaille est dans le clic qui conduit d'un mot à un graphisme de flux. Ci-dessous, voici ce que l'on obtient si on clique sur le mot "santé" associé dans un gazouillis à la mention colorée du président de la république.

Thema Tweets Santé SarkozyC'est une time line (peu lisible sur cette capture d'écran comme sur l'interface originelle) surmontée d'un graphique de flux. Il permet de voir, en bleu, l'importance que le probable candidat de l'UMP accorde à la santé mais aussi de comparer, en rose, le traitement que François Hollande réserve à ce thème. Il est assez fascinant de voir comment, chez les candidats prédominants, certains thèmes se chevauchent.

Mes notes et remarques avant la discussion au sein du jury

Thema Tweets notations

C'était ma troisième meilleure note, compte tenu du fait que je n'ai pas de légitimité pour apprécier la technique, c'est à dire l'exploitation des langages de programmation.

Précisions techniques

Langages de développement: Java, Javascript, SVG

Frameworks ou librairies: Spring Framework, Hibernate, LiquiBase, Jackson, Jaxb2, Freemarker, Twitter4j, Analyzers Lucene & Solr, Classifier4j pour le backend JQuery, D3.js, Raphaeljs, Hightcharts pour le client


Publicité
19 décembre 2011

GoogleViz Elections 2012: à propos de Bubble-Tweets

Grande sévérité, de ma part, à l'encontre de cette application qui collecte et répartit les tweets en temps réel. Puis, la dimension ludique a atténué les préventions. Enfin, une utilité est apparue: pendant les débats télévisés, Bubble-Tweets méritera une observation attentive.

Bubble 1

En quelques dizaines de secondes, les hauteurs comparées des silos permettent de voir quels candidats inspirent le plus de gazouillis, positifs ou négatifs. Ici, François Hollande, Nicolas Sarkozy, François Bayrou, Eva Joly.

Les intentions des auteurs

Il était important pour nous de partir de l’expression des utilisateurs de médias sociaux afin de voir comment cette expression pouvait rencontrer, d’une part, les propositions politiques des candidats et, d’autre part, les flux de la presse en ligne. C’est dans cette démarche que nous avons décidé d’"écouter" les tweets dans lesquels sont cités les noms des candidats.

Notre application propose trois vues sur les informations :

1. Temps réel

2. Chronologique

3. thématique

La zone "temps réel" se situe en haut de l’interface et permet de suivre les tweets, au fur et à mesure de leur arrivée.

Bubble 2

Les frises chronologiques, en bas, indiquent l’évolution du nombre de tweets citant chaque candidat, sur une journée ou sur une semaine.

Bubble 5

Le nuage de mots-clés donne un aperçu des thématiques des discours associés à chacun des candidats ainsi que leur évolution au cours des dernières heures.

Mes commentaires

Autant, il est amusant de voir les symboles de tweets arriver à gauche avant de tomber dans les silos des candidats, autant je suis peu convaincu par la valeur réellement informative de l'application, du moins en profondeur. La seule information provient des comparaisons entre les taux de remplissages des silos; mais cette comparaison n'apporte rien de plus que ce que les médias traditionnels font ressentir, sans parler des sondages, à savoir que Nicolas Sarkozy et François Hollande sont les plus présents dans cette campagne.

Bubble 3Les résultats d'un suivi méthodique des "observations" de Bubble-Tweets, notamment pendant et après les grands débats télévisés, pourraient être utilement comparés aux fluctuations des sondages. Ce serait l'occasion de voir si la twittosphère anticipe ou reflète les éventuels mouvements d'opinions. A condition que ces mouvements aient une certaine amplitude.

Précisions techniques

Langages de développement: Python, Javascript, HTML, CSS

Frameworks ou librairies: Flask, JQuery, JQuery Tools, Fancybox, Underscore.js, Box2d.js, D3.js, JQuery Sparklines

16 décembre 2011

GoogleViz Elections 2012: commentaires sur Retwhit 2012

Convaincu par les arguments des autres membres du jury, j'ai changé d'avis dans l'après-midi du 12 décembre, sur cette application. Transparence oblige: les ruminations défavorables ainsi que les notes attribuées en solitaire pendant le week-end des 10 et 12 décembre figurent à la fin de ce billet. Mais si j'ai révisé ma position globale, certaines perplexités demeurent.

La parole est d'abord à l'auteur de Retwiht 2012, dont voici l'accueillante interface:

Retwiht interface

Ce que dit l'auteur

Le but de Retwhit 2012 est de mesurer l'influence des personnalités politiques française sur le réseau Twitter.

Le niveau d'interactivité de l'application (tri par parti, par homme politique, par date) permet à l'utilisateur final de moduler l'application en fonction de l'info qu'il recherche. L'application récupère les tweets de différentes personnalités politiques françaises présente sur twitter et ayant une activité régulière sur le média social  Les données sont stockées et traitées afin de présenter une visualition des tweets des politiques classés en nombre de retweets.

Ce mode de classement est plus pertinent que le nombre de followers pour savoir qui compte vraiment sur le réseau. Et surtout il permet de visualiser très facilement quels tweets et donc quels messages politiques ont connu le plus de succès sur Twitter.

Mes commentaires

En tant que blogueur, je me méfie du mot "influence". Cette notion a été complètement vidée de sa substance dès les années 2003-2005 par quelques zozos du marketing web 2.0. s'auto-proclamant influenceurs.

Dans le cas des données collectées par Retwhit, il vaudrait mieux parler d'activité, de présence et d'impact pour certains tweets massivement répercutés. Au-delà de cette querelle de vocabulaire, l'application impose une crédibilité certaine quand elle préfère les re-tweets aux nombres de followers.

Elle est surtout simple à utiliser et très interactive, nonobstant quelques confusions possibles au niveau des couleurs, en particulier à droite: difficile de distinguer le bleu de Sarkozy, du bleu de Villepin et du bleu de Christine Boutin. Mais aussi à gauche, entre la couleur attribuée à François Hollande et celle qui désigne Jean-Luc Mélenchon.

Deux sources de perplexité

Il y a lieu de s'interroger sur la signification politique du nombre de re-tweets qui ont propulsé, la semaine dernièr, le nom de François Bayrou vers les sommets de l'interface, à propos du slogan 'Achetez français".

Retwiht BayrouIl semble bien, en effet, que cette amplification-là ait été suscitée par une séquence du "Petit Journal" qui montrait, sur Canal Plus, le candidat du Modem s'engouffrant dans une voiture allemande. Dans ma conception du journalisme, cette anecdote n'a aucune valeur politique. C'est du lol, niaiserie que j'abandonne volontiers à quelques blaireaux médiatiques.

Il se trouve que cette anecdote insignifiante met Bayrou en évidence dans un outil qui prétend aider les citoyens à explorer l'actualité électorale. Fâcheux. Le moteur de tri manque de discernement pour hiérarchiser les tweets, quelle que soit la quantité de re-tweets dont ils bénéficient.

Autre perplexité: l'omniprésence d'Eva Joly en tête du palmarèsRetwiht Eva Joly de l'amplification depuis que j'utilise cette application.

Rien de gênant à priori. Après tout, il est possible que les militants écologistes soient plus nombreux et plus actifs sur le web que les partisans des autres candidats.

Il est possible aussi que les sujets abordés sur Twitter par Eva Joly aient un impact particulier sur cette partie de la population française qui est très active sur Twitter. Mais qui n'ira pas forcément voter.

Il est enfin possible qu'Eva Joly ait été particulièrement présente dans l'actualité de la période observée par Retwhit.

Le problème est qu'aucune autre application examinée à la faveur du concours Google Viz Elections 2012 ne fournit une indication de ce type sur la même période.

Retwhit a peut-être détecté un phénomène singulier - une singularité, disent les spécialistes du hasard et des émergences - à l'intérieur du phénomène politique que constitue l'activité électorale sur les réseaux sociaux.

Explications sur ma notation

Retwiht notesC'est en grande partie en raison d'arguments développés par les autres membres du jury, parce que l'application est facile à utiliser et surtout parce que j'ai la certitude qu'elle pourrait révéler des corrélations plus édifiantes, que j'ai rallié la majorité afin de faire figurer Retwhit parmi les six applications à récompenser.

Il me semble qu'un développement de l'applicataion telle qu'elle a été proposées au concours pourrait la rendre beaucoup plus productive en significations politiques.

Bref, Retwhit 2012 a du potentiel.

Pour cette raison, j'y reviendrai sans doute au terme d'une utilisation plus longue.

La note de 5 étoiles sur 15 équivaut à 7/20.

(La technique n'est pas notée à cause de mon incompétence provisoire dans le domaine de la programmation.)

La sévérité de cette note a été atténuée par des arguments auxquels je n'avais pas pensé en travaillant seul. D'où l'utilité des délibérations entre gens qui ont des approches différentes du journalisme et de la visualtion interactive de données.

Informations techniques

Langages de développement: PHP/Mysql HTML5 CSS3 Javascript

Frameworks ou librairies: Jquery

15 décembre 2011

GoogleViz Elections 2012: commentaires sur l'application "Partie2Campagne"

C'était mon application préférée. Je lui avais attribué une note de 18/20. Lors des délibérations finales, dans l'après-midi du 13 décembre, je me suis rangé à l'avis majoritaire des autres membres du jury pour deux raisons: les critiques justifiées sur l'un des graphiques mais aussi et surtout parce que, dans mon palmarès personnel, l'application Mediarena arrivait en deuxième position avec 17/20. Voici ce que les auteurs de Partie 2 campagne disent de leur travail.

Partie 2 campagne nuage

Le concept

Comment aider les citoyens à organiser et analyser l’information ? Doit-on leur « raconter le monde » ou les aider à devenir les nouveaux explorateurs découvrant eux-mêmes l’information par leurs fouilles ? C’est clairement cette seconde voie que « Partie2Campagne » a décidé de prendre en offrant un outil d’analyse de données s’appuyant sur un chemin d’analyse qui part d’une idée simple : « Parce qu’une campagne politique est un véritable parcours, choisissez un des thèmes qui mènera à l’Elysée en 2012 »

Le public cible 

"Partie 2 campagne" est au service de l’ensemble des citoyens internautes. Notre parti pris éditorial a été d’outiller le débat citoyen à la fois au niveau individuel (chacun trouve son chemin sur notre carte) et collectif (chacun peut publier ses cartes via Twitter). Aux internautes à privilégier les usages qui leur paraissent pertinents. Nous saurons être à l’écoute de leurs suggestions pour les futures versions.

 L’information 

Comprendre ce que les utilisateurs veulent et peuvent explorer Il est difficile mais intéressant de tenter de suivre comment les politiques et les médias se suivent, font échos les uns aux autres ou partent sur des sens différents autour d’une thématique. Pour autant il est pratiquement impossible de savoir quel candidat ou journaliste a lancé un thème de campagne dans la mesure où souvent les candidats se répondent entre eux en décalant systématiquement le débat. En effet chacun insiste sur un aspect différentiateur qui met en valeur sa position (vis-à-vis de ses militants habituels ou au contraire pour fédérer de nouveaux électeurs.

Mes commentaires

Un outil puissant et subtil

L'application s'utilse en trois séquences. La première commence quand l'internaute choisit un des termes du nuage de tags. Il est possible que ce nuage devienne un peu trop dense, chargé de mots inutiles. Les mots inutiles seraient alors ceux qui ne suscitent pas le moindre réflexe de curiosité. Les mots décisifs sont ceux qui, comme "crise" donnent envie de savoir ce qu'en disent les acteurs de la campagne et ce qu'en dit la presse.

Partie 2 campagne delta

La deuxième séquence amène l'internaute sur un des graphiques les plus controversés au sein du jury, le delta. Sous la métaphore fluviale - qui aurait sans doute gagné à être plus figurative - se trouve la possibilité d'associer plusieurs mots clés, chaque mot étant un des bras de la rivière textuelle. Par exemple: crise + financière + France. Si la dette souveraine tricolore perd son AAA, les trois mots permettront de savoir ce qu'en disent les journaux et comment réagissent les candidats.

Partie 2 campagne comparaisons

Information intéressante: la presse n'est pas, en l'occurrence, un amplificateur inerte de la parole politicienne. Les courbes montrent qu'elle évoque beaucoup plus la crise que les candidats. Ce décalage s'explique, d'abord part le fait que les journaux traitent de différentes dimensions, pas forcément politiques, de la crise, ensuite par les thématiques des candidats qui se penchent moins sur la crise quand ce sujet ne domine pas l'actualité: ils mettent alors l'accent sur le dossier de la retraite ou de la sécurité tandis que les journaux continuent à déployer les différents aspects de la crise.

Partie de campagne tendance

Troisième séquence: l'exploration. Ayant choisi ses centres d'intérêt à un moment donné de la campagne, le citoyen peut aller à la source et consulter, sur sa thématique à lui, les documents textuels ainsi que les éventuelles vidéos postées sur YouTube

 Exploration, donc discernement

Voici les remarques spontanées rédigées lors de l'analyse personnelle qui a précédé les chois collectifs du jury:Notation partie de campagne

- « Angle » candidats/thèmes très pertinent

 - Bonne perception du fonctionnement de « circularité » entre policitiens et journalistes

 - Bonne analyse du positionnement politique des candidats : choix différenciteurs

 - Outil d’exploration de l’actualité

 - Outil de documentation très riche

 - Outil de réflexion

 - Web 2.0 : compréhension de ce que veulent les internautes

Le plus important dans cette application réside dans l'incitation à explorer les contenus brassés par la campagne électorale. Exploration assez poussée grâce à l'association de mots-clés issus du nuage introductif. Mais aussi, comparaisons, confrontations, donc discernement.

La démocratie représentative a plus que jamais besoin de discernement, face aux politiques, face aux médias.

 Les 14 étoiles deviennent 18/20 parce que j'ai pas noté la qualité des langages de programmation.

Renseignements techniques

 Langages de développement: Java + Javascript

Frameworks ou librairies: Framework de développement : Google Web Toolkit technologie côté serveur : J2EE technologie côté client : HTML5 + AJAX + Canvas API : Collecte des données Twitter : Twitter4J Analyse des données : - Extraction du contenu pertinent des sites Internet : AlchemyAPI - Extraction d’entités nommées et de mots clés : API Syllabs - Diagrammes de données : Google Chart Tools

Pour plus d'informations : http://www.partie2campagne.fr/presentation/technologies-utilisees 

14 décembre 2011

Mediarena gagne le concours Google DataViz Elections 2012

Dix-huit applications en compétition pour une meilleure compréhension de l'actualité électorale.

Ce concours organisé par Google France devait inciter les développeurs, designers et journalistes à proposer des outils d'exploration et de traitement des données disponibles sur le web. Les six réalisations considérées comme les meilleures par un jury indépendant seront analysées dans ce blog, une par une, au fil des jours.

A commencer par l'application gagnante.

Mediarena accueil

Selon la note d'intention des auteurs, il s'agit de comparer les différents traitements réservés aux candidats par douze organes de de presse et de mesurer l'écho suscité sur Twitter par certains articles.

La confrontation des contenus en ligne s'effectue par un suivi en continu des flux RSS émis par les sites web des journaux. Les articles dans lesquels figurent le nom d'un candidat sont indexés. Une fonctionnalité de Twitter permet à l'application de comptabiliser le nombre de gazouillis qui mentionnent chaque article.

Facile à utiliser

La première qualité de Mediarena est suggéré dans son nom: "arène" des médias, donc confrontation. Elle s'impose visuellement dès la page d'accueil qui évoque le fronton d'un monument équilibré. Au milieu, la liste des candidats avec des barres qui actualisent leurs poids spécifiques dans les médias et sur Twitter. De chaque côté du "pilier" central, cinq indicateurs de présence médiatiques. Rien de plus intuitif que l'ergonomie de ce dispositif dont le fonctionnement global est, métaphoriquement parlant, celui de la balance, du fléau de la Justice.

Pertinence

Mediarena critèresLes critères de comparaison des contenus sont limités mais pertinents. Les auteurs ont délibérement évité de capter et de traiter des signaux plus fins comme les re-tweets ou les hashtags en partant d'une idée de bon sens: de plus en plus de citoyens s'informent sur le web mais tous ne sont pas initiés aux arcanes de Twitter. Ils ont donc privilégié des critères que tout le monde peut comprendre, avec des étiquettes explicites.  

De  cette choix d'une option grand public pour fonder la pertinence des critères de comparaisons des contenus découlent plusieurs qualités:

Une approche édifiante des relations entre la presse et les réseaux sociaux. On sait que Twitter notamment fonctionne beaucoup comme une caisse de résonance; ses utilisateurs se contentent de propager (ou de réagir à) des contenus produits par d'autres, en l'occurrence ici, des articles mis en ligne par des journalistes. Il y a dans ce phénomène, une mesure de l'intérêt - positif ou négatif - suscité par cet article. Même remarque pour les mots-clés et les thématiques.

Par ailleurs, la présence médiatique des candidats gagne à être comparée à l'intérêt que ces candidats suscitent sur le web.Ala longue, il devrait être possible de se faire une idée de la mobilisation militante au profit des différents prétendants à l'Elysée. Il sera intéressant, aux lendemains du premier tour de revenir sur ces évaluations pour voir si un candidat dont le score aurait créé la suprise a été, ou non, aidé par des internautes qui seraient, en quelque sorte, les héritiers des colleurs d'affiches.   

Mediarena presse tweets

L'application offre aussi la possibilité de croiser la prépondérance des thèmes et la présence des candidats. Ce qui confère à Mediarena une fonctionnalité d'exploration de ce qui fait la substance de la campagne électorale: les thèmes, les idées.

Enfin, le nombre d'articles cités sur Twitter fournissent des éléments d’appréciation sur ce qui intéresse le plus les internautes – ceux qui sont actifs sur Twitter – parmi les thématiques de la campagne. 

Données techniques et ma notation

 Voici, en marge de ma notation - évidemment pondérée Mediarena notationpar celles des autres membres du jury - quelques données techniques fournies par mes auteurs:

- Extraction des contenus avec Boilerpipe http://code.google.com/p/boilerpipe/.

- Moteur de captation en Clojure

- Interface en  HTML, CSS3 et Javascript

- "L'interface web s'appuie sur JQuery. Nous utilisons Boilerpipe pour l'extraction de contenu dans les pages, Compojure et Ring pour l'API qui fait l'interface entre l'interface et le moteur, Lucene pour l'indexation du texte, et H2 pour la base SQL et Jetty pour servir les requêtes web"

Je n'ai pas noté les applications sur la partie technique (langages de programmation) , domaine dans lesquels ne je suis pas (encore) assez compétent. 13 sur 15, ça 16 sur 20. Note que j'ai décidé d'augmenter d'un point, prime à sa dimension "grand public". Soit: 17 sur 20.

Publicité
14 février 2011

Many Eyes: initiation à la visualisation de données

L'outil de visualisation le plus facile pour quiconque veut s'initier à la visualisation de données est incontestablement Many Eyes, site de partage - voir la liste des outils ci-contre à droite - conçu par la géniale Fernanda Viègas.

Initiation en sept temps:

  1. Préparation des données sur un traitement de texte ou une feuille de calcul.
  2. Inscription gratuite sur le site Many Eyes.
  3. Petit formulaire à remplir.
  4. Chargement des données.
  5. Choix de la visualisation dans un catalogue d'une trentaine de solutions.
  6. Publication de la visualisation.
  7. Importation de la visualisation dans un site ou un blog.

Si les données sont prêtes, une visualisation interactive comme celle-ci est réalisée en quelques minutes.

20 décembre 2010

Fiscalité locale: le travail exemplaire de "La Gazette des Communes"

Il y a plus compliqué que le système fiscal français: une réforme du système fiscal. La rédaction web de « La Gazette des communes » a réussi une prouesse de data journalism en donnant à voir, dans un triptyque exemplaire, les tenants et les aboutissants de la suppression de la taxe professionnelle.

Infographie en rich media: image + texte + son + interactivité

Une première approche infographique et interactive, réalisée en flash par l’agence Art Presse, se concentre sur ce qu’était la taxe professionnelle, l’évolution de son rendement global depuis sa création en 1975, qui la payait, quelles collectivités en bénéficiaient.

Courbes_jaunes

Le dispositif en rich media comporte du texte, pour la contextualisation, un commentaire audio et des animations électroniques. Les trois modes d’expression se complètent, la navigation par onglets bien signalisés ne pose aucun problème.

Colonnes_transferts

La seconde infographie est un peu plus compliquée car elle tente de montrer les changements apportés par une réforme truffée de canalisations et de rustines. Le principal intérêt de l’image est de montrer ce que recouvre l’expression « usine à gaz ».

Ce travail d’explicitation a été accompli en amont de la réalisation graphique par Sylvie Fagnart, pigiste, spécialiste des finances locales, Pascale Distel, Directrice artistique adjointe du pôle collectivités locales au sein duGroupe Moniteur. Toutes deux ont conçu et développé le scénario sur lequel Art Press a réalisé les animations audiovisuelles.

A ce stade, la rédaction est encore dans une configuration classique pour l’information en ligne, bien que de très nombreux sites de presse français ne proposent toujours pas d’infographies animées et/ou interactives.

Le journaliste médiateur entre la complexité et les infonautes

Le passage à une forme plus élaborée de data journalism intervient lors de la conception et de la création d’une application de simulation.

Simulation justifiée par une problématique qui montre ce que pourrait être la place du journalisme, médiateur entre la complexité du monde actuel et le besoin de comprendre qui anime certaines audiences.

Romain Mazon, rédacteur en chef web de « La Gazette » : « Bon nombre de collectivités ont contesté les arguments rassurants du gouvernement. Dans ce débat, notre devoir était d’essayer de cerner la vérité. Rien de tel, pour cela qu’une simulation à partir des réalités chiffrées. Avec notre spécialiste des finances publiques, Marion Cabellic, nous nous sommes lancés à la recherche des bases de données. Pas facile: certaines sont inaccessibles; d’autres sont accessibles mais mal construites; et il y a des « trous noirs ».  

Nous avons travaillé avec OWNI sur la sélection des données pertinentes, adaptées à notre projet de simulation.

Nous avons fait valider notre sélection de données par un expert. C’était absolument indispensable car, d’une part certaines statistiques font défaut pour certaines périodes et, d’autre part, les dynamiques fiscales sont parfois déformées par de fréquentes retouches et on ne peut donc pas établir de relations fiables.

Par ailleurs, les projections gouvernementales s’appuient sur des prévisions de croissance optimistes qui, si elle ne se vérifient pas dans les faits, changent complètement la situation de certaines communes.

Convaincus de la justesse de notre démarche, nous avons demandé à OWNI de réaliser un outil à l’intention de nos lecteurs, décisionnaires au sein des collectivités et c'est OWNI qui nous a proposé l'interface graphique qui est en ligne sur notre site.

Compensation_1

La simulation s’effectue en trois temps: d’abord entrer le nom d’une commune (ici: Orsennes, dans l'Indre); accéder ensuite aux mécanismes chiffrés de compensation prévue entre l’ancien et le nouveau système; vérifier enfin sur un diagramme à colonnes si les ressources communales de la période 2010-2015 seront supérieures ou inférieures à celles de 2004-2009. Autrement dit, les gagnants et les perdants de cette réforme (A en juger par la taille relative des colonnes oranges, à droite, cette commune devrait figurer parmi les gagnantes de la réforme. Mais la progression de ces colonnes est fondée, dans cet exemple, sur les prévisions de croissance optimistes ("+2,5 %").

Compensation_2

Le data journalism soustrait la presse à l'influence des pouvoirs

Le travail de Romain Mazon, de son équipe au sein de "La Gazette" et de ses partenaires suscite quatre réflexions:

1 - La première est proposée par Romain Mazon. Elle est importante pour la régénérescence d'un "journalisme à la française" peu crédible parce que trop soumis aux communiqués des pouvoirs politiques et économiques:" Avec la recherche, la sélection et le traitement des données, les journalistes s'octroient une grande autonomie par rapport aux versions que les pouvoirs cherchent à imposer et que la presse a trop souvent accepté telles quelles. Bien sûr, les données sont souvent produites par des organismes officiels mais, d'une part, c'est de moins en moins un monopole et d'autre part, tout réside dans la manière de choisir dans la masse des données, celles qui produisent la meilleure vision de la réalité."

2 – La traduction – qui ne peut pas être une simplification réductrice – des évolutions fiscales confirme l’idée selon laquelle ne sont éligibles au journalisme de bases de données que les phénomènes complexes et durables.

3 – La presse professionnelle - dont relève « La Gazette » - peut se permettre de traiter des phénomènes complexes et durables compte tenu des caractéristiques de ses audiences. Mais elle ne peut pas, pour les mêmes raisons, s’autoriser la moindre suspiscion sur la fiabilité de ses contenus.

4 – Aux objections qui montent – en France surtout – à l’encontre du journalisme de bases de données (« Ce n’est plus du journalisme, c’est du consulting »), Romain Mazon est tout à fait fondé à répondre que les journalistes ne peuvent pas gémir sur « la crise de la presse », sans chercher à créer des contenus à forte valeur ajoutée.

(De ce point de vue, les praticiens du data journalism sont assurément plus utiles à l’avenir de la profession que ceux de leurs confrères qui dénigrent cette approche.)

Cet avenir du journalisme, que le « Guardian » et le « New York Times » ont commencé à façonner, passe – notamment dans la presse professionnelle – par l’intégration de journalistes de données et de programmeurs au sein des rédactions. C'est un investissement en matière grise qui n'exclut pas le recours occasionnel, pour des opérations précises, à des agences considérées comme des laboratoires de Recherche et Développement.

28 novembre 2010

"Nosdonnees.fr" collecte les gisements d'informations latentes et propose des outils de traitement

Nos_donn_es_logo_du_siteParmi les nombreuses initiatives visant à mettre à la disposition des citoyens les bribes d'informations collectées par les administrations publiques, le site Nos données est particulièrement prometteur parce qu'il est à la fois un espace de collecte, un atelier de transformation et un lieu d'initiation.

La collecte

Elle s'effectue en mode collaboratif. Quiconque a connaissance de l'existence d'une base de données publique centrée sur un thème d'intérêt général est invité à contribuer à l'enrichissement d"un répertoire qui est à la disposition de tous.

La récolte est inventoriée quasiment en temps réel sur un wiki, système de publication qui présente pour les journalistes l'intérêt de la traçabilité: l'origine et les modifications successives des contenus sont repérables.

Le site propose de très intéressants gisements qui concernent essentiellement, pour l'instant, la fiscalité, les résultats électoraux, les importations de produits et la pollution industrielle.

Nos_donn_es_nuage

Ces "briques élémentaires" d'informations sont accessibles par des nuages de mots ou par une requête adressée à l'index du site. Chacun peut les télécharger en différents formatsNos_donn_es_formats pour les analyser en détail. Une des caractéristiques majeures de la mouvance Open Data est de favoriser la consultation des données publiques par tous les dispositifs informatiques.

Lire des mots, des noms et des chiffres dans des colonnes ne constitue pas un but en soi, même si le regard peut être "accroché" par certaines quantifications associées à certains lieux. Par exemple, le nombre de contribuables soumis à l'Impôt de Solidarité sur la Fortune dans les différentes communes de certains départements:

Nos_donn_es_ISF_Hauts_de_Seine

Le simple fait d'établir une relation de comparaison entre le chiffre attribué à Nanterre et celui qui singularise Neuilly-sur-Seine constitue l'amorce d'un traitement des données.

Le traitement

Le traitement commence avec la sélection d'éléments bruts afin de les transformer en visualisations interactives. Le site propose des outils de traitement conçus et développés par l'Open Kkowledge Fundation (1).

Nos_donn_es_visualisation_CKan

CKan (2) permet de chercher, de répertorier dans un catalogue, d'enrichir et de partager des bases de données.
Le traitement journalistique proprement dit suppose une confrontation - simple exemple - entre certaines données fiscales et certaines données électorales.

Concrètement: chercher, dans la base "Fiscalité ISF par commune", les colonnes qui recensent les communes abritant le plus grand nombre de contribuables lourdement assujettis à l'ISF et, dans la base "Résultats par commune de l'élection présidentielle de 2007, les colonnes dans lesquelles apparaissent les plus gros pourcentages de suffrages exprimés en faveur de Nicolas Sarkozy.

De la juxtaposition des colonnes de noms et de chiffres issues de deux bases différentes naît une première information visualisable sur une carte interactive: la consistance géographique et patrimoniale de l'électorat de Nicolas Sakorzy, ainsi que l'évolution de son comportement dans les scrutins successifs.

La valeur ajoutée journalistique

Un journaliste qui se veut loyal avec les infonautes - donc fiable - intégrera dans la mise en évidence des relations entre les données fiscales et électorales le fait que l'assiette de l'ISF a évolué ces dernières années et il n'hésitera pas à compléter les chiffres relatifs à l'élection présidentielle de 2007 par ceux des élections régionales de 2010, même si ces deux consultations sont de natures différentes.

La valeur ajoutée de l'information qui gît à l'état latent dans les relations entre données réside dans la qualité et l'ergonomie des visualisations interactives, mais aussi et surtout dans l'enrichissement en profondeur. Chercher, par exemple, s'il existe une corrélation entre l'évolution des sondages sur l'électorat présidentiel depuis 2007 et le comportement réel de cet électorat lors des scrutins. Réaliser une time line sur les initiatives fiscales de l'Exécutif depuis 2007.

Le résultat  journalistique sera différent de l'enquête à caractère pamphlétaire "Le président des riches" que viennent de publier deux sociologues (3) car il ne comportera que des faits officiels, publics, vérifiables par tout le monde car scrupuleusement "sourcés".

En ce sens, le datajournalism marque bien un retour vers l'investigation et le culte des faits.

L'initiation

Le datajournalism n'étant guère enseigné en France par des journalistes, une initiation est possible sur Nosdonnées.fr en fréquentant attentivement le site, des didacticiels et les liens vers des ressources (4).
Cette initiation concerne aussi un autre aspect crucial du mouvement Open Data: les régimes juridiques des bases de données, en pleine évolution et très différents selon les pays. Voire, en France, selon les villes.

Nos_donn_es_licences

    1. http://okfn.org/
    2. http://www.ckan.net/
    3. "Le président des riches. Enquête sur l'oligarchie dans la France de Nicolas Sarkozy", Michel Pinçon et Monique Pinçon-Charlot, Editions Zones / La Découverte, Paris, septembre 2010.
    4. http://wiki.okfn.org/ckan/doc/

    Sites et ressources en relation avec ce billet


    27 novembre 2010

    Chapitre 1: les données, leurs relations, l'information

    27 novembre 2010

    Chapitre 2 : les bases de données, conteneurs et machines

    Carte interactive du chômage en France depuis 1982 :

    http://lemonde.fr/societe/visuel/2010/03/03/le-chomage-en-france-depuis-1982_1310908_3224.html

    Un déluge de données :

    http://www.uptimeinstitute.org/

    http://www.seamicro.com/

    http://www.ncar.ucar.edu/

    http://www.economist.com/opinion/displaystory.cfm?story_id=15557443

    http://www.bing.com/travel/

    Construire une base de données :

    http://www.openoffice.org/

    La feuille de calcul de Google Documents :

    http://docs.google.com

    DB Worx :

    http://www.plworx-software.com/index.html#iddbworx

    Fileamigo :

    http://www.fileamigo.com/Home.htm

    Le tableur de la suite IBM Symphony :

    http://symphony.lotus.com/software/lotus/symphony/home.nsf/products

    http://www.assemblee-nationale.fr/

    Détecter fraudes et gaspillages :

    http://www.sas.com/

    http://www.sas.com/solutions/fraud/social-network/

    http://www.sas.com/govedu/federal/fraud.html

    http://www.govexec.com/features/0610-01/0610-01admt1.htm

    Les expérimentations du Web 3.0 :

    http://toolserver.org/~daniel/wikiword/wikipics/search.php

    http://www.freebase.com/

    http://www.evri.com/

    L’application qui veut faire du web une base de données :

    http://www.opencalais.com/

    http://www.w3.org/RDF/

    http://addons.mozilla.org/fr/firefox/addon/3999/

    http://www.newsfacet.com/

    Code de la Propriété Intellectuelle (juin 2010):

    http://www.legifrance.gouv.fr/affichCode.do;jsessionid=98EFE6A444FE65A1D732FA1D69B8493C.tpdjo15v_1?idSectionTA=LEGISCTA000006161634&cidTexte=LEGITEXT000006069414&dateTexte=20100706

    Régimes de protection des bases de données :

    http://www.virtualegis.com/bulletins/document.php?ref=291

    http://fr.jurispedia.org/index.php/R%C3%A9gime_juridique_des_bases_de_donn%C3%A9es_%28fr%29

    Ouverture des données publiques :

    http://public.resource.org/open_government_meeting.html

    http://www.liftconference.com/fr/lift-france-10/home_fr

    http://www.apiefrance.fr/sections/acces_thematique/reutilisation-des-informations-publiques/la_reutilisation_des/

    http://datalift.org/fr/

    Conférence internationale « Lift with FING », Marseille juillet 2010

    http://nicolas.cynober.fr/blog/652,datalift-un-catalyseur-pour-le-web-de-donnees.html

    http://www.data-publica.com/

    http://www.adbs.fr/droit-de-l-information--74323.htm?RH=ACCUEIL&RF=DOSTHE_DROINFO


     

    Publicité
    1 2 > >>
    Data journalism
    Publicité
    Publicité