Une des nombreuses dérives d’Internet et de son anonymat, c’est de se faire passer pour ce que l’on n’est pas. Dans le cas présent, se faire passer pour une personne du sexe opposé. Ce problème pourrait bien être réglé. Une équipe de chercheurs a récemment développé un algorithme capable de déterminer si vous êtes un homme ou une femme via Twitter.
Les chercheurs de la Mitre Corporation (John Burger, John Henderson, George Kim, et Guido Zarrella) se sont basés sur un panel de personne dont le sexe était connu de façon incontestable. Ils ont ensuite analysé leurs Tweets issus du célèbre réseau Twitter.
Le panel était constitué de 55% de femmes et 45% d’hommes. Donc si l’ordinateur répond « femme » pour chaque utilisateur, son taux de réussite sera de 55%. Or juste en examinant uniquement le nom de la personne, l’algorithme a vu juste à 89%. Évidemment, l’opération n’est pas particulièrement extraordinaire puisque les prénoms précisent presque toujours le sexe de l’individu (d’où des usurpations faciles d’identité).
Les résultats sont devenus intrigants lorsque les chercheurs ont appliqué leur algorithme sur les tweets de ces personnes. Le procédé était mis en place uniquement sur le message (140 caractères), les informations du profil n’entrent pas en compte. Le programme a été capable de deviner le sexe des personnes à 75.8%. Ce qui offre une amélioration de 20 points de pourcentage par rapport au 55% de réussite de base.
Même en prenant un unique tweet, le programme de la Mitre Corporation permet de définir le genre à 65.9% du temps, soit une amélioration de 10 points de pourcentage.
Au départ, il faut reconnaître que c’est un peu effrayant. Comment un logiciel peut-il déterminer notre sexe avec seulement 140 caractères ? En réalité, ce n’est que de la science, et précisément de la « sociolinguistique ».
Cette branche constate simplement qu’à personne différente, langage différent. Au départ la sociolinguistique était conçue pour analyser les différences de comportement dans la vie réelle. Cette science a été adaptée au cyber espace. Finalement, le procédé est assez simple, si le tweet comporte un smiley ou un point d’exclamation, il y a toutes les chances que le message provienne d’une femme.
D’autres expériences de ce type ont déjà été mises en place. En 2010, Delip Rao avait identifié des traits typiques caractérisant quasiment inévitablement les sexes. Les femmes utilisent plus d’émoticônes (( XD, ^^ …), d’abréviations (Lol, WTF, OMG …), de lettres répétées (looooooool, nooooon …) et également d’expressions affectives (bisous et autres démonstrations passionnelles …). En revanche, les termes « http » ou « google » sont associés à des hommes.
Évidemment, une telle expérience se base sur des stéréotypes. Toutes les femmes ne vont pas s’exprimer de cette façon. Mais si l’algorithme reconnait tel ou tel mot, il l’associera à un sexe de façon catégorique. Rappelons que le taux de réussite est quand même de 75.8%.
Les chercheurs reconnaissent eux-mêmes que les résultats peuvent être biaisés. En effet, ils ne considèrent que la culture des réseaux sociaux dans l’analyse des tweets. Cela reste assez réducteur au regard d’une personnalité peut-être plus complexe.
Au-delà de l’utilisation des clichés, le taux de réussite est suffisamment élevé pour trouver des utilités à cet algorithme. On pense de suite à une exploitation mercantile, un tel ciblage n’est pas négligeable pour les industriels. D’un point de vue plus positif on imagine qu’il pourrait aider à détecter les imposteurs du web, et peut-être limiter certaines dérives.
Source Gizmodo
© shuvro ghose – Fotolia.com
Ping : Un algorithme capable de déterminer si vous êtes un homme ou une femme | Conseiller web