vendredi 15 mai 2015

[Article] Influence, big data et intelligence artificielle




Dans son numéro du mois d'avril 2015, la revue La Recherche consacre un dossier sur « la science de réseaux sociaux » dont je recommande chaudement la lecture. On y trouve ainsi des infographies très pédagogiques sur les évolutions de Facebook dans les domaines aussi variés que la reconnaissance d'image et la traduction mais également le projet d'un « digital assistant », qui vous connaîtra mieux que vous-même et sera en mesure de vous conseiller. Il sera ainsi en mesure de retenir la nature de vos discussions et relations avec vos amis Facebook et détectera tout changement de comportement (synonyme de piratage de votre compte par exemple). Cet « assistant » prodiguera également des conseils sur vos propres publications pour éviter les désagréments d'un « post » précipité lors d'une soirée un peu arrosée par exemple.





Un deuxième article signé Gautier Cariou, traite d'intelligence artificielle et du concept d'apprentissage profond qui serait sur le point de « révolutionner » les réseaux sociaux. L'application aux réseaux sociaux du « deep learning » est un champ de recherche assez récent mais les avancées dans ce domaine depuis deux ans relancent l'intérêt pour la recherhce. L'article cite à plusieurs reprise Yann Lecun, qui dirige le laboratoire d'intelligence artificielle de Facebook. Ainsi, avec l'augmentation de la puissance de calcul, les algorithmes d'apprentissage profond redeviennent intéressant et leurs performances égalent aujourd'hui les capacités humaines. 

En 2014 Facebook a présenté DeepFace, un programme capable de reconnaître automatiquement un individu sur deux photos différentes. Le taux de réussite mesurée est de 97,35 % contre 97,53 % pour un être humain...

Ces percées sont entre autre la conséquence des algorithmes imaginés par Yann Lecun à la fin des années 80 : les réseaux de neurones convolutifs. Au-delà des images, c'est vers l'analyse de texte que la recherche se tourne aujourd'hui. Il s'agit de développer des outils de traduction simultanée, d'analyse de sentiments dans les textes, etc. Depuis plus de 15 ans, il a été démontré que les algorithmes d'apprentissage profond permettaient à une machine d'apprendre par elle-même un langage, il comprend non seulement le sens des mots (individuellement) mais également des liens qui les unissent. Le principe repose sur une « vectorisation » où pour chaque mot, un ensemble de nombres sont générés. « le vecteur est construit de telle façon que les mots de signification proche ou apparaissant dans des contextes voisins possèdent des attributs sémantiques communs. »

L'un des objectifs poursuivi est de permettre à l'usager de dialoguer avec son ordinateur en « langage naturel » et de lui poser des questions « qu'il comprendra ». La machine pourra ainsi analyser les contenus des réseaux sociaux de vos amis pour interpréter et proposer une réponse adaptée.



Dans un troisième article, Laurent Massoulié, qui dirige le centre de recherche commun entre l'institut national de recherche en informatique et automatique et Microsoft Research, présente ses travaux sur la détection de « communauté » sur les réseaux de taille importante. La question étant comment développer des outils pour aider les usagers à trouver des contacts pertinents (c'est à dire avec lesquels ils partagent des caractéristiques communes). Là encore, les applications sont variées, mais les mathématiques sous jacentes ne sont pas neuves ! La recherche s'appuie sur des mathématiques spectrales qui sont utilisées depuis près d'un siècle pour analyser les grandes masses de données (on dirait big data aujourd'hui pour faire bien). Ainsi, en modifiant ces algorithmes spectraux pour les adapter aux réseaux, les équipes de scientifiques ont réussi à détecter des communautés sur des réseaux où le nombre de connexions par utilisateur est faible. Paradoxalement c'est les cas sur les « grands réseaux » sociaux, car si FaceBook compte plus d'un milliard d'abonnés (c'est donc un réseau de grande taille), 85 % des comptes ont moins de 500 « amis ». Or, pour fonctionner les algorithmes précédents nécessitaient que chaque « noeud » du réseau (utilisateur) soit connecté à plus d'une centaine d'autres.



Enfin, Anne Debroise signe un article sur « les ressorts de l'influence virtuelle » et se penche sur les mécanismes de diffusion d'une information sur les réseaux sociaux. Car la propagation des informations sur Twitter, Facebook et autre est devenue l'obejt de nombreuses études mathématiques qui cherchent à les modéliser. Les sociologues sont évidement intéressés par ces études mais, là encore les débouchés potentiels sont nombreux. Comme dans les exemples précédents, on se rend compte que ces travaux sont l'occasion de redonner un éclairage nouveau à des théories mathématiques qui ont parfois plusieurs siècles. Ainsi, c'est vers la théorie des graphes que l'on se retourne car elle permet une première forme de modélisation des mécanismes de propagation (maladie ou information).



« A priori, peu importe ce qui est véhiculé. La théorie des graphes permet d'analyser aussi bien les épidémies virales que les comportements humains. »
Bruno Gonçalves, chercheur au centre de physque théorique d'Aix-Marseille


Pour les réseaux sociaux pourtant, les chercheurs buttent sur deux problèmes de taille. En premier lieu (et cela a déjà été soulevé dans le paragraphe précédent) la taille des réseaux à modéliser pose problème. Mais en définitive ce n'est peut-être pas le plus important car, contrairement à un virus, une information se propage de façon beaucoup plus complexe. Le virus dispose d'une virulence intrinsèque qui peut-être modélisée par une probabilité de transmission. Ce n'est pas le cas d'une information. Pourquoi retweeter cet article ? Pourquoi relayer vers mes contacts telle ou telle information ? Sur quelle plateforme ?


Les plateformes ne répondent pas aux mêmes modes de fonctionnement. Twitter répond au mode « push » (l'information est « poussée » vers nos voisins du réseau, c'est à dire nos followers), d'autres réseaux sont en mode « pull » (lettre spécialisée, forum professionnels, email, SMS).

Les premières études sont basées sur l'épidémiologie. Dans ce cas on observe des « superpropagateurs », sur le WEB il s'agit des « influenceurs ». La question devient pour les chercheurs : comment détecter les influenceurs ? Faut-il privilégier les gens qui ont beaucoup d'amis (les nœuds avec un fort degré de connexion) ou ceux qui ont peu d'amis mais qui échangent beaucoup (nœuds à liens forts) ? 


La recherche démontre alors ce qui peut paraître contre intuitif, les meilleurs propagateurs ne sont ni ceux qui sont « très connectés » ni ceux qui sont proches de leurs voisins...La conclusion est sans appel : Il vaut mieux bien connaître la topologie du réseau ciblé que chercher à identifier des individus influents. En clair, mieux vaut s'appuyer, pour propager un message, sur une famille limitée d'individus ciblés disposant de peu de liens mais assez proches de leurs voisins que d'espérer que son message soit relayé par un individu influent. Par ailleurs, Laurent Massoulié rafine ces études en introduisant un paramètre supplémentaire, celui du « budget d'attention » d'un individu. Ce budget d'attention limité permet notamment de modéliser assez fidèlement la propagation d'une information sur Twitter. Et là encore les résultats sont contre intuitifs puisqu'il ressort que ce sont « les nœuds ayant un faible degré (peu de liens) qui sont cruciaux pour la dissémination rapide ». Ces derniers moins surchargés d'information ont un « budget » supérieur...



S'il est difficile à ce stade de savoir si un modèle performant pourra émerger à moyen terme, les recherches sur les mécanismes d'influence et de propagation de l'information ont encore de beaux jours devant elles et nous permettent, au moins, de ne pas tomber dans le piège des idées reçues.

1 commentaire: