lundi 30 janvier 2017

L’entre-soi social confirmé par le big data

LE MONDE  | Par 

L’existence d’un club des ­riches, possédant la plupart des richesses et pratiquant l’entre-soi, n’est pas un fantasme. Si ce fait n’est pas nouveau pour les sociologues, la manière dont il vient d’être (re) démontré par des informaticiens est assez vertigineuse.

Un groupe de chercheurs français (Inria, ENS Lyon, CNRS) et ­argentins de l’université de Buenos Aires et de l’entreprise GranData Labs a eu accès, légalement, à des données rares et sensibles en provenance du Mexique : des millions d’informations de téléphones portables ainsi que des relevés de cartes de crédit. De quoi construire un réseau économico-social gigantesque. Et donc vérifier, pour la première fois à cette échelle, la stratification en classes sociales et les interactions entre ces dernières, comme ils l’expliquent dans la revue Interface de la Royal Society, parue le 14 décembre.


Données analysées


Plus précisément, les chercheurs ont analysé deux fichiers. L’un contenant les connexions mobiles et SMS d’utilisateurs (dates, ­durées, identifiants anonymes des connectés et localisation de l’antenne mais pas le contenu des ­conversations). L’autre listant les transactions bancaires de 6 millions de personnes, ainsi que leur âge et sexe. 992 000 personnes, connectées par 1,9 million de liens sur plusieurs mois, sont présentes dans les deux bases et ont permis l’étude, bordée par différentes précautions : fichiers anonymes autorisés par les autorités bancaires mexicaines et interdiction de les diffuser autrement que sous une forme « agrégée » dans les ­articles de recherche.

80 % DE LA RICHESSE EST DÉTENUE PAR 20 % DE LA POPULATION
Avec le second corpus, les chercheurs ont d’abord (re) trouvé des lois comme celle dite de Pareto, ­selon laquelle, grosso modo, 80 % de la richesse est détenue par 20 % de la population. Dans le cas mexicain, les chiffres sont de 73 et 27. A noter que la « richesse » se mesure ici par la somme des dépenses, dont les chercheurs ont vérifié qu’elle était corrélée aux ­revenus. Incidemment, ayant accès au taux d’endettement par les cartes de crédit, les chercheurs ont aussi établi une loi de Pareto sur les dettes : 19 % de la population est responsable de 81 % de l’endettement total.

Puis ils ont défini un découpage en classes « sociales » (au sens de leur « richesse »), en neuf groupes, de manière à ce que chaque groupe dépense au total autant (et donc avec un nombre différent de personnes). Les plus riches sont environ 20 000 (pour plus de 3 500 dollars de dépenses mensuelles par individu) quand les plus pauvres sont au nombre de 370 000 (avec moins de 200 dollars de dépenses).

Sur cette « roue de la fortune », la population, d’environ un million de personnes, est divisée en neuf groupes de « richesse » totale équivalente (la richesse est mesurée par les dépenses). La classe la plus pauvre est en orange foncé (370 000 personnes), la plus riche en violet (20 000 personnes). Les liens entre elles correspondent à des interactions téléphoniques (appels ou SMS). Leur largeur à la base est déterminée en comparant les interactions réelles avec des interactions tirées au hasard par les chercheurs. Les riches ont 2,3 fois plus de liens entre eux que de manière aléatoire. Les plus gros « liens » sont intra-classe, et plus l’écart de richesse est grand, plus le nombre de liens se raréfie. Infographie à retrouver sur http://perso.ens-lyon.fr/yannick.leo/chord/Chord/Gradient/LeMonde/

Force des liens


Restait alors à connecter les deux fichiers pour déterminer les interactions entre classes de revenus. Puis à estimer la force de ces liens, ce qui est fait par un test statistique comparant les interactions réelles avec des interactions tirées au hasard par les informaticiens.

PLUS LA DISTANCE ENTRE CLASSES AUGMENTE, PLUS LES LIENS ENTRE ELLES SE RARÉFIENT
Le club des riches est ainsi 2,3 fois plus connecté en son sein que de ­manière aléatoire. Quand les plus défavorisés ne le sont que 1,7 fois. La couche supérieure est en fait la plus liée de toutes. L’« homophilie sociale » domine et plus la distance entre classes augmente, plus les liens se raréfient.


La preuve par la statistique


« C’est comme un enchantement pour nous. Depuis trente ans que nous travaillons sur les classes dominantes, nos ­enquêtes de terrain l’avaient montré, mais ce résultat statistique a du poids dans nos sociétés du chiffre” », salue Monique Pinçon-Charlot, sociologue à la retraite du CNRS, coauteure avec son mari, ­Michel, de Sociologie de la bourgeoisie, récemment réédité (La Découverte).

« Apporter une preuve différente d’un savoir est utile. Il faut encourager cette interdisciplinarité entre les sciences humaines et sociales et l’informatique », estime Dominique Cardon, professeur à Sciences Po et qui était dans le jury de thèse de Yannick Leo, d’où a été tiré ce travail.

Un de ses confrères, Loïc Wacquant, professeur à l’université de Californie, est moins enthousiaste : « Cet article retrouve des ­résultats élémentaires des études de stratification : le capital (économique et culturel) va au capital. Il ne faut pas se laisser aspirer par ­l’effet de mode du big data. Ce n’est pas parce qu’on établit des corrélations statistiques sur des millions d’individus qu’on a découvert quelque chose. »

« Nous quantifions pour la première fois cette stratification. On voit que le réseau social dit aussi qui l’on est », précise Eric Fleury, professeur à l’ENS de Lyon et coauteur de cette publication.


Limites de l’exercice


Plus intrusive encore, dans une présentation à la conférence ­Asonam en août à San Francisco, l’équipe a plongé dans le détail des achats par carte bancaire. Elle a (re) découvert que la classe supérieure dépense plus en billets d’avion et séjours à l’hôtel que la plus pauvre, qui achète surtout nourriture et essence. La classe moyenne est celle qui dépense le plus pour l’éducation. Ils ont aussi déterminé quel sexe et quelle classe d’âge achète le plus de bijoux, de boissons, de voyages…

LA PUISSANCE DES STATISTIQUES SUR DE TELS FICHIERS RESTE IMPRESSIONNANTE
Malgré des limites (représentativité du Mexique, réduction des interactions sociales aux mobiles…), la puissance des statistiques sur de tels fichiers impressionne. Elle rappelle la vigilance nécessaire sur l’utilisation de telles informations à l’heure de la fuite de données par des piratages et de la constitution d’immenses fichiers personnels par des méthodes opaques de suivi des internautes.



Aucun commentaire:

Enregistrer un commentaire