Analyser la diversité des genres musicaux grâce aux métadonnées acoustiques sur Spotify

Présentation d'une méthodologie d'analyse des genres musicaux sur Spotify grâce aux métadonnées acoustiques des titres, et comparaison avec les genres usuellement mobilisés rattachés aux artistes.

Les mesures et analyses de la diversité culturelle sur les services de streaming de musique en ligne supposent de préciser quels sont les critères de diversité retenus : diversité des distributeurs ? diversité des langues ? diversité des genres musicaux ? Le choix des genres, des esthétiques musicales, bien souvent retenu, se heurte à la difficulté de définir objectivement des catégories de genres et de placer chaque morceau dans une catégorie.

Pour mieux le comprendre et faciliter une nouvelle approche des genres, nous proposons un test exploratoire sur Spotify, sur la base d’un échantillon du Top 1000 des titres les plus streamés dans le monde, depuis les origines du service suédois. Cet échantillon a été récolté le 14/02/2023. La même méthode pourrait être appliquée à d’autres échantillons.

Analyser le genre musical par les catégories habituelles, une impasse pour l’étude de la diversité

Notre échantillon de 1000 titres correspond à 436 artistes différents. La plupart d’entre eux sont identifiés par plusieurs genres, et on retrouve dans notre échantillon un nombre total de 332 genres différents. Ces genres ont été récupérés grâce à l'API¹ de Spotify. Par la suite, nous avons regroupé les genres et associé chaque artiste à un seul genre "chapeau". Ainsi, une artiste catégorisé dans le genre "Australian Pop" comme Tones and I, a été traitée comme appartenant au genre "Pop". De même, un artiste catégorisé en "Melodic Rap" comme Post Malone a été traité comme "Hip-hop/Rap". Après traitement, 8 genres ont ainsi été retenus pour qualifier l’ensemble de l’échantillon : "Pop", "Hip-hop/Rap", "Latino", "Électronique", "Rock", "RnB/Soul", "Country" et "Autres".

Chacun de ces genres occupe une part différente de l’échantillon : la Pop (35%), le Hip-hop/Rap (23%) et la musique Latino (16%) concentrent près des ¾ des artistes de l’échantillon (Figure 1). Sans surprise, puisque l’échantillon choisi est celui du Top 1000 de Spotify, les genres les plus populaires y sont surreprésentés.

— Figure 1 : Répartition des genres musicaux des artistes dans l’échantillon (en %)

Cette catégorisation possible des genres musicaux présente trois inconvénients majeurs :

Les genres proposés pour chaque artiste sont multiples ce qui rend difficile de privilégier pour chaque cas, un genre plutôt qu’un autre. Par exemple, le groupe The Chainsmokers est classé dans les 6 genres suivants : "Dance Pop", "EDM", "Electropop", "Pop", "Pop Dance" et "Tropical House".
Ces genres sont renseignés par les distributeurs² de manière subjective et dans l’optique commerciale de "saturer" le plus grand nombre de playlists et de marchés de niche. Certains genres correspondent plus à une caractéristique de l’artiste ou du contexte, qu’à une réalité musicale à proprement parler. C’est le cas de l’artiste Lil Nas X, classé dans le genre "LGBTQ+ Hip-Hop", ou de l’artiste Joji classé dans le genre "Viral Pop".
Les genres sont associés à un artiste sur sa page dédiée. Or selon les étapes de sa carrière, un même artiste développera des titres pouvant correspondre à des genres différents. Ainsi l’artiste The Weeknd, qui pouvait être assimilée au genre "RnB" à ses débuts, se rapproche aujourd’hui plutôt de l’"Électronique".

C’est pourquoi nous proposons dans cette note une autre approche des genres musicaux ; nous comparons également les résultats de cette nouvelle approche avec celle proposée ci-dessus.

Approcher les genres musicaux par les métadonnées acoustiques de chaque titre

Le genre musical peut être approché de manière différente, grâce aux métadonnées acoustiques de chaque titre. Des métadonnées acoustiques sont en effet disponibles sur Spotify pour chaque titre, depuis le rachat de l’algorithme de reconnaissance sonore créé par Bernezweig et al. (2004).³ Elles fournissent une mesure pour 13 métadonnées, caractérisant chacun des morceaux. Certaines de ces métadonnées sont parfaitement objectives (tempo, mode - majeur/mineur - ou gamme) ; d’autres moins attendues comme la "joyeuseté" d’un morceau, sa "dansabilité" ou son "énergie"⁴. Les figures suivantes fournissent un aperçu de ces métadonnées pour deux titres de notre échantillon (Figures 2 et 3).

— Figure 2 : Métadonnées acoustiques du titre Don't Start Now de Dua Lipa

— Figure 3 : Métadonnées acoustiques du titre All of Me de John Legend

Pour identifier des genres à partir des métadonnées acoustiques de chaque titre, une méthode de partitionnement faisant appel au machine learning a été implantée. Grâce à la méthode des k-moyennes (k-means), chaque titre est regroupé avec les titres dont les métadonnées acoustiques sont les plus proches. Après traitements statistiques⁵, il ressort que le nombre optimal de groupes (de "clusters") à former à partir de l’échantillon est de 15. Les 1000 titres de l’échantillon sont donc répartis en 15 clusters aux sonorités similaires.

Cette approche permet la création de "clusters" sonores. Par exemple, les titres du cluster 4 et 7 se différencient par leur indice de valence, qui indique la tristesse d’un morceau. Un titre du cluster 7 (comme Jocelyn Flores de XXXTENTACION) est en moyenne plus triste d’un titre du cluster 4 (comme Montero de Lil Nas X). Le cluster 6 se caractérise par des titres à danceability et loudness élevées, on y retrouve des titres tels que Believer de Imagine Dragons, Watermelon Sugar de Harry Styles, ou encore Bad Habits de Ed Sheeran ; le cluster 11, avec des titres tels que Sicko Mode et Goosebumps de Travis Scott, se caractérise par des morceaux à fortes speechiness et energy⁶ ⁷.

L’approche par clusters sonores présente un triple avantage : elle propose une analyse par titre et non par artiste, une mesure objectivée par l’algorithme et unique pour chaque morceau de ses caractéristiques. Elle est cependant moins intuitive puisqu’elle ne correspond pas à des catégories habituelles "nommables" type "Rock", "Rap" ou "Variété".

C’est pourquoi nous avons croisé, dans notre échantillon, les genres attachés aux artistes (point 1) et les clusters acoustiques construits sur la base des métadonnées des titres (point 2).

Des genres usuels qui ne correspondent pas vraiment aux réalités acoustiques

D'un côté, on retrouve dans certains clusters sonores une forte domination des esthétiques musicales habituellement utilisées. Ainsi, les clusters 6, 8, 2 et 14 présentent une forte dominante d’artistes Pop (entre 40.1% et 65.2% d’artistes Pop), le cluster 1 une dominante d’artistes Latino (40.2%). Les clusters 4, 7, 11 et 13 ont quant à eux une dominance d’artistes Hip-hop/Rap (entre 48.8% et 77.1% d’artistes Hip-hop/Rap). D’autres clusters en revanche, ne correspondent pas à un "genre" bien déterminé. C’est le cas des clusters 0, 3, 5, 9, 10 et 12, lesquels se répartissent plus équitablement entre différents "genres" ; le cluster 0 est par exemple centré autour de la Pop, du Hip-hop/Rap et du Latino, tandis que le cluster 5 est centré autour de la Pop et du Hip-hop/Rap toujours, mais cette fois-ci accompagné de l’Électronique.

D’un autre côté, on peut effectuer le traitement inverse en répartissant chacun des 8 genres par clusters sonores ; on observe alors clairement une absence de cohérence acoustique au sein de chaque genre, chacun d’entre eux étant largement « éclaté » entre les différents clusters sonores⁸.

Conclusion

Les tests réalisés dans le cadre de cette note, sur un échantillon d’artistes, montrent une concordance limitée entre les deux approches des genres musicaux. Pour mesurer la diversité sur les services en ligne, l’approche des esthétiques musicales par les métadonnées acoustiques apparaît plus solide que les catégories usuellement utilisées. C’est pourquoi nous privilégierons cette approche dans nos prochains travaux.

Annexes

Annexes 1 et 2 disponibles ici.

Notes

↑
Application Programming Interface, il s'agit d'une interface de programmation, fournie directement par Spotify, et qui permet d'accéder facilement à une large partie de leurs données.
↑
Les genres musicaux sont directement renseignés sur via le service Spotify for Artists. Ce service permet aux artistes ou à leurs distributeurs de mettre en ligne leurs morceaux, et de gérer leur compte professionnel sur Spotify.
↑
Berenzweig, A., Logan, B., Ellis, D., & Whitman, B. (2004). A Large-Scale Evaluation of Acoustic and Subjective Music-Similarity Measures. Computer Music Journal, 28(2), pp. 63-76.
↑
Pour une explication en détail de chaque métadonnée, voir Spotify for developers.
↑
Sur les 13 métadonnées acoustiques, seules les métadonnées distribuées de manière continues sont retenues dans l’analyse, ; les métadonnées distribuées de manière discrète (key, mode et time_signature) sont exclues (voir Bourreau et al., 2022). Par la suite une réduction des dimensions grâce à l’Analyse des Composantes Principales (PCA) est effectuée, car la méthode des k-means est plus performante sur un échantillon dont les dimensions sont réduites (Ding & He, 2004). Le clustering est donc effectué sur les 5 composantes principales, qui expliquent 80% de la variance de l’échantillon.
↑
Voir Spotify for developers pour un détail de chaque métadonnée.
↑
Voir annexe 1 pour le détail des caractéristiques acoustiques de chaque cluster.
↑
Voir annexe 2 pour l'illustration de chaque genre.