CRFJ-Statistiques

From Mathgen

Jump to: navigation, search
Le contenu de ce document, y compris les liens Internet, est disponible à l'adresse http://www.mathgen.ch/wiki/CRFJ-Statistiques

Cette page contient un petit nombre de ressources sélectionnées pour ceux qui voudraient en savoir un peu plus, ou comme références. Il existe de nombreux livres et pages internet sur le sujet; si vous recherchez quelque chose de particulier, ou pour une question quelconque, n'hésitez pas à contacter Frédéric Schütz <schutz@mathgen.ch>.

Contents

Quelques compléments

Sur les graphiques

Selon Edward Tufte (The Visual Display of Quantitative Information, p. 13), une représentation graphique doit entre autres:

  • Montrer les données
  • Pousser le lecteur à penser à la substance des données plutôt qu'à la méthodologie utilisée, le design graphique, etc
  • Eviter de déformer ce que les données ont à dire
  • Présenter beaucoup de nombres en utilisant peu d'espace
  • Rendre les grands ensembles de données cohérents
  • Encourager l'oeil à comparer différents ensembles de données
  • Montrer les données à différents niveaux, d'une vue d'ensemble à la structure détaillée

Résumer des données

Il arrive souvent que l'on désire résumer un grand ensemble de données (par exemple, l'ensemble des salaires de la population suisse) par un seul chiffre. Il va sans dire que dès que l'on résume quelque chose, on va perdre de l'information; s'il est nécessaire de résumer de l'information sur 7.7 millions de personnes, ne serait-ce que pour qu'elle puisse être traitée, il est beaucoup demander de vouloir la résumer par un chiffre, qui sera forcément biaisé d'une manière ou d'une autre. Idéalement, d'autres méthodes devraient être utilisées, comme par exemple de résumer la population par une distribution (comme sur le graphique montré pendant la présentation); si on veut vraiment un seul chiffre, on cherche en général à indiquer quel est le "centre" de notre distribution. Les grandeurs les plus connues sont:

  • La moyenne (arithmétique): consiste à additionner toutes les valeurs de notre population, puis à diviser la somme par le nombre d'observations.
  • La médiane: représente le point central de la distribution, celui qui sépare la population en deux parties égales (50% de la population est au dessous, 50% est au dessus)
  • Le mode: représente la valeur la plus courante observée dans la population.

La moyenne est, de loin, la mesure la plus connue, les écoliers étant habitués depuis tout petits à calculer la moyenne de leurs notes. Par contre, son interprétation n'est pas forcément évidente, et surtout, elle est très sensible aux données extrêmes: un petit nombre de données, très différentes des autres, peut suffire à modifier grandement une moyenne, qui n'est alors plus forcément représentative de la population entière.

La médiane, moins connue, a une interprétation claire comme "valeur centrale", et ne dépend pas des points extrêmes. Elle est très souvent préférée à la moyenne; par exemple, les statistiques sur les salaires de l'Office fédéral de la statistique utilisent la médiane plutôt que la moyenne.

Le mode est généralement moins intéressant, car il ne dépend que d'une seule valeur, et n'est généralement pas unique.

Quelques pistes pour en savoir plus...

Livres

Darrell Huff, How to lie with statistics. W. W. Norton & Company (1993), ISBN 9780393310726. La lecture de ce petit livre est très fortement recommandée, voire indispensable ! Ecrit pour le grand public, c'est le livre de statistiques le plus vendu au monde; il discute en détail différentes erreurs statistiques (volontaires ou non...) courantes.

Joel Best, Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists. University of California Press (2001), ISBN 9780520219786. Egalement une lecture indispensable, ce livre traite moins du côté "technique" des statistiques, et insiste sur la "vie" d'une statistique: comme elle est créée, quelles sont les motivations de ceux qui la publie, comment elle se diffuse, se transforme ou se déforme.

Edward Tufte, The Visual Display of Quantitative Information. Graphics Press (2001), ISBN 0961392142. Un peu plus technique, ce livre est souvent considéré comme la "bible" de la répresentation graphique des données; il commente de nombreux exemples de graphiques, et suggère de nouveaux types de représentation.

Internet

En 2008, la BBC a publié une excellente série de six articles sur les statistiques, les sondages, etc:

Personal tools