PcEnShort
PcEnArrow

+

  • 17-05-2022
    • Recherche

      Musique

Recherche

Musique

Les fans aiment aussi sur Spotify — 1/3

Présentation de Chain Reaction, notre algorithme qui mesure la distance culturelle sur Spotify.

La question de la diversité culturelle fait l’objet d’une intense littérature et nourrit de nombreux débats académiques et institutionnels, en particulier depuis les travaux du chercheur Andrew Stirling (1999)1 et son approche tridimensionnelle basée sur la variété, la répartition et la disparité. Jusqu'à présent, l'application du modèle de diversité de Stirling à la culture a été assez limitée, compte tenu des difficultés méthodologiques inhérentes à la mesure de la disparité.

Aujourd'hui leader mondial du streaming musical, Spotify revendique 422 millions d'utilisateurs actifs dans le monde au premier trimestre 2022.2 Avec une couverture géographique mondiale et un taux de pénétration élevé dans chaque marché, les données fournies par Spotify offrent des perspectives de recherche extrêmement intéressantes, tant du point de vue de la diversité offerte que consommée.

Du point de vue de l’offre, Spotify compte environ 8 millions d’artistes. Sur chaque page artiste, une recommandation de 20 artistes que "Les fans aiment aussi" est proposée aux utilisateurs. En théorie, toutes les pages artistes sur Spotify, sans exception, proposent cette liste. En réalité, cette rubrique est vraisemblablement générée dès lors qu’un certain pallier d'écoutes est franchi, ce qui est a priori loin d’être le cas pour certains artistes qui ne parviennent pas à rassembler suffisamment d’auditeurs et d'interactions.

Les fans aiment aussi présentés sur la page de Aya Nakamura
Les artistes présents dans 'Les fans aiment aussi' sur la page de Aya Nakamura

Selon les explications fournies par Spotify, la présence d’un artiste A dans Les fans aiment aussi d’un artiste B dépend en grande partie des goûts musicaux des fans de l’artiste B. Si une majorité des fans de l’artiste B écoutent aussi régulièrement les titres de l’artiste A, alors l’artiste A apparaîtra dans Les fans aiment aussi de l’artiste B. Un groupe peu connu peut aisément avoir la majorité de ses fans qui apprécient une star mondiale. Dans ce cas, la star mondiale figurera dans Les fans aiment aussi du groupe peu connu mais il est peu probable que le groupe peu connu figure dans Les fans aiment aussi de la star mondiale, car trop peu de ses fans écoutent ce groupe peu connu. Par ailleurs, Spotify annonce prendre également en compte des informations puisées dans les descriptions d’artistes et sur des sites internet spécialisés pour déterminer quels artistes faire figurer dans Les fans aiment aussi.

Cette rubrique peut donc être interprétée comme une liste des artistes les plus proches culturellement d’un autre artiste, du moins du point de vue de la demande. Étant issue de l'algorithme de Spotify lui-même, et prenant en compte les données d'usage de ses centaines de millions d'utilisateurs, elle constitue un matériau de recherche privilégié.

Notre méthodologie

En traçant un chemin de l'artiste A à l'artiste B en passant par des artistes intermédiaires, nous sommes en mesure de déterminer la distance qui les sépare. Ceci est une étape essentielle de la mesure de la disparité, composante majeure de la diversité culturelle.

Plusieurs développeurs se sont essayé à l'écriture de scripts capables d’effectuer une recherche d’artistes connectant un artiste de départ et un artiste d’arrivée via Les fans aiment aussi3, mais leurs tentatives se sont révélées peu concluantes. Nous avons pris comme point de départ Spotifind4, une application développée en Go par Ryan McDermott, ingénieur logiciel pour Google. Spotifind, dans sa version initiale, était lent, énergivore et peu fiable puisqu’il n’indiquait pas systématiquement le chemin le plus court entre deux artistes. Nous avons donc considérablement optimisé le code existant et créé un nouvel algorithme que nous avons baptisé Chain Reaction.

Ayant recours à 200 workers travaillant en parallèle et s'identifiant auprès de l'API Spotify via le même nombre de tokens uniques, l'algorithme Chain Reaction utilise des formats de données légers et prend avantage des fonctionnalités les plus avancées du langage Go (goroutines, channels, hash tables, singly linked lists). Celui-ci est capable, à partir d’une liste d’artistes, d’établir le chemin le plus court entre chaque paire d'artistes de cette liste, et ce en un temps record. Toutes les données sont récoltées via l’API de Spotify.5

Exemple d’application de la méthodologie entre Aya Nakamura et Ed Sheeran
Exemple simplifié d'une recherche entre deux artistes

L'animation ci-dessus montre un exemple simplifié du fonctionnement de l’algorithme. Partant de Aya Nakamura, il doit trouver le chemin le plus court menant à Ed Sheeran. Dans une logique de Breadth-First Search (BFS)6, il collecte d’abord les artistes figurant dans Les fans aiment aussi d’Aya Nakamura,7 puis ceux qui figurent dans Les fans aiment aussi de ces derniers et ainsi de suite, jusqu’à tomber sur Ed Sheeran. L’algorithme trouve ainsi que le chemin le plus court de Aya Nakamura à Ed Sheeran est composé de deux artistes. Mais ce chemin est à sens unique, car les relations entre artistes via Les fans aiment aussi ne sont pas toujours réciproques. Prenons ici l’exemple des artistes Sean Paul et Pitbull. Sean Paul apparaît dans Les fans aiment aussi de Pitbull mais Pitbull n’apparaît pas dans Les fans aiment aussi de Sean Paul. La relation directe de Pitbull à Sean Paul peut donc être qualifiée de "dirigée" (car non réciproque), ne donnant donc qu'une vision unilatérale de la distance entre ces deux artistes. La distance réelle qui les sépare ne peut être établie qu'en connaissant la distance de Pitbull à Sean Paul d’une part, et de Sean Paul à Pitbull d’autre part. Il en va de même pour notre exemple précédent concernant Aya Nakamura et Ed Sheeran. Si le chemin de Aya Nakamura à Ed Sheeran est composé de deux artistes, le chemin qui part de Ed Sheeran vers Aya Nakamura peut être plus court ou plus long. Dans l’hypothèse où celui-ci est composé d’un seul artiste (voire animation plus haut), nous pouvons établir une distance moyenne entre Aya Nakamura et Ed Sheeran qui serait égale à 1,5, sur la base des deux distances dirigées qui les séparent (2 dans un sens et 1 dans l’autre sens).

Les résultats attendus

Une première phase de bêta-test a permis de valider la preuve de concept et le fonctionnement opérationnel de l’algorithme. L’application de Chain Reaction au Top 50 France, en gardant visibles toutes les relations et artistes intermédiaires, offre une vision inédite de la disparité culturelle entre les artistes les plus écoutés sur Spotify en France. Dans l’exemple ci-dessous, on observe nettement un cluster d’artistes francophones issus de la scène rap française situé en bas avec des artistes comme Ninho et Naps ; et, en haut à droite, la pop internationale incluant des artistes comme Harry Styles et Dua Lipa.

Répartition des artistes présents dans le Top 50 France au 22 avril 2022.

L’intérêt de cette méthode est qu’elle s’applique à toutes les listes de lectures disponibles sur le service (que ce soit des playlists éditoriales comme Rap Caviar et Hits du Moment, mais aussi d’ambiance à l’image de Sous la douche et La vie est belle, algorithmiques comme Discover Weekly et Daily Mix, mais également des playlists personnelles). Il est également possible d’imaginer une analyse comparative des données compilées dans Spotify Wrapped, rétrospective musicale attribuée individuellement à chaque utilisateur en fin d’année.

En appliquant cette méthode à tous les artistes d'une playlist déterminée, il est possible d'obtenir un score reflétant la distance moyenne qui sépare chaque artiste d’un autre. Ce score permettra d'identifier quelles sont les playlists qui sont plus ou moins diversifiées.

La méthode pourrait donc donner lieu à des applications variées comme par exemple :

  • Comparer les playlists Top 50 écoutées dans plusieurs pays (France, Royaume-Uni, États-Unis, Allemagne, Corée du Sud, Japon etc.). Les français, sur la base d’un même catalogue, celui de Spotify, ont-ils tendance à concentrer leurs écoutes sur des artistes plus diversifiés que les japonais ?
  • Comparer différentes playlists proposées par Spotify dans le monde pour évaluer lesquelles sont les plus diversifiées.
  • Comparer, sur la base de playlists personnelles d’un échantillon d'utilisateurs volontaires, la diversité des artistes sélectionnés par chacun sur sa playlist. Les usagers s'enferment-ils eux-mêmes dans des goûts peu diversifiés ou font-ils preuve d’ouverture ?

🗯️ Ce projet de recherche bénéficie du programme « Academia » de notre partenaire Scaleway. Merci à eux de leur soutien !

Notes

  1. Stirling A. (1999). On the economics and analysis of diversity, Mimeo, SPRU Electronic Working Paper, n. 28.

  2. Spotify Financials, Quarterly Results. https://investors.spotify.com/financials/default.aspx

  3. Exemple 1, exemple 2, exemple 3

  4. https://github.com/ryanmcdermott/spotifind

  5. https://developer.spotify.com/documentation/web-api/

  6. https://fr.wikipedia.org/wiki/Algorithme_de_parcours_en_largeur

  7. Dans un souci de lisibilité, au nombre de 3 ici au lieu de 20