PcEnShort
PcEnArrow

+

  • 25-05-2021
    • Recherche

      Audiovisuel

Recherche

Audiovisuel

La mise en avant des contenus sur les services en ligne

Premières expériences sur Netflix

Afin de mieux comprendre les processus de recommandation et de mise en avant, nous avons étudié le cas du service Netflix1 proposé sur le territoire français.

Tout d’abord, il convient de distinguer trois zones sur Netflix :

  1. Le catalogue est un espace comprenant tous les contenus disponibles sur le service à une date donnée. Un contenu peut être disponible dans le catalogue mais pas du tout visible pour l'utilisateur. Sur Netflix, le catalogue complet est accessible en ligne.2
  2. La page d’accueil est un espace restreint du catalogue auquel l’utilisateur accède dès qu’il se connecte. La page d'accueil peut donc être considérée comme la page principale du site. Elle est délimitée, verticalement, par la distance à laquelle l'utilisateur peut faire défiler la page et, horizontalement, par la longueur de chaque rangée de vignettes. Une page d'accueil typique contient environ 1400 vignettes. Un même titre peut apparaître plusieurs fois sur une même page d’accueil, dans différentes vignettes.
  3. Il existe également une hiérarchie entre les contenus positionnés en haut de la page d’accueil et les autres.

Netflix offre la possibilité de scroller de haut en bas et de gauche à droite sur chaque page, donnant ainsi accès à des rangées thématiques. Cette architecture des choix reflète des stratégies de mise en avant.

Le développement d'une méthodologie innovante

Nous avons développé des scripts informatiques dont l’objectif est de reproduire le comportement d’humains sur un ordinateur. Plusieurs profils d’utilisateurs ont donc été créés auxquels sont assignés des comportements extrêmes de consommation en termes de provenance géographique des contenus. Nous avons créé des profils uniquement centrés sur la consommation de séries, produits phares de Netflix aujourd’hui. Quatre profils Netflix, chacun dédié à des séries de nationalités différentes ont été créés. Les quatre profils visionnent des séries en simultané pendant 10 jours sur le même appareil (Dell XPS 13") et la même adresse IP. Le premier profil visionne uniquement des séries françaises, le deuxième des séries américaines, le troisième uniquement des séries indiennes, et le quatrième des séries japonaises.

Les robots vont créer un compte chacun, se connecter une fois par jour et regarder une série pendant trois heures durant dix jours. À chaque fois, nous récoltons les données présentes sur la page d’accueil avant de les intégrer dans notre base de données.

Une fois l'expérience terminée, nous avons la possibilité d’analyser, de manière très détaillée, et pour chaque profil, l’évolution de la composition de la page d’accueil avant et après navigation.

Composition des catalogues et des pages d’accueil avant visionnage

Du 14 au 23 juillet 2020, période de réalisation de cette première expérience, on comptait 4315 titres différents disponibles au sein du catalogue de Netflix en France dont 2649 films (61%), 1608 séries3 (37%) et 58 contenus autres (il s’agit surtout de jeux télévisés). Au sein de ce catalogue 11 à 20% des titres sont présents sur les pages d’accueil. Autrement dit, un utilisateur ne se voit proposer qu’une proportion limitée des contenus disponibles dans le catalogue du service.

Les 1608 séries correspondent à des productions issues de 57 pays différents. Des dominantes existent cependant : près de 40% du catalogue "séries" est composé de titres américains. La France compte 5% des titres, le Japon 11% et l’Inde 2%. Précisons qu’une œuvre peut être coproduite par plusieurs pays différents.

Sur la page d’accueil vierge de navigation, les quatre profils comptent chacun 1431 vignettes dont 543 séries.

  • Les séries américaines représentent 39% des titres du catalogue, 55% des titres des pages d’accueil et 62% des vignettes des pages d’accueil ;
  • Les séries françaises représentent 5% des titres du catalogue, 6,3% des titres des pages d’accueil et 5,8% des vignettes des pages d’accueil ;
  • Les séries japonaises représentent 11% des titres du catalogue, 12,4 % des titres des pages d’accueil et 10,3% des vignettes des pages d’accueil ;
  • Les séries indiennes représentent 2% des titres du catalogue et ne sont pas présentes sur les pages d’accueil.

Avant même tout visionnage, la place consacrée sur les pages d’accueil aux contenus américains, français, indiens et japonais est très différente et reflète notamment leur poids respectif dans le catalogue. Les séries japonaises qui représentent plus du double du nombre de titres dans le catalogue sont par ailleurs moins mises en avant sur la page d’accueil que les séries françaises.

Après visionnage, une personnalisation des pages d’accueil d’autant plus importante que la demande se porte sur des productions présentant une forte distance culturelle

Le service, qui ne sera jamais identique pour deux utilisateurs comporte plusieurs niveaux de personnalisation adaptés à chacun, de la présentation graphique aux recommandations de contenus. Dès que l’utilisateur exprime ses goûts par ses comportements et son historique de visionnage, la recommandation opère et chaque programme de visionnage entraîne une évolution spécifique de la page d’accueil.

L’évolution est particulièrement marquée pour les profils indianophile et japonophile.

  • Pour le profil indianophile, les séries indiennes absentes de la page d’accueil vierge de navigation, passent à 17 titres (4%) au terme de l’expérience et 46 vignettes (4,2%). L’évolution est visible dès le premier jour de visionnage.
  • Pour le profil japonophile, le nombre de séries japonaises proposées passe de 56 (10,3%) à 443 (39%) à la fin de l’expérience en vignettes et de 39 (12,4%) à 122 (33%) en titres. Là encore, le changement se produit dès le premier jour.
  • Pour le profil francophile, la proportion de séries françaises proposées évolue positivement mais bien plus légèrement : le nombre de titres français passe de 20 à 37 (6,3 à 8%) tandis que le nombre de vignettes passe de 5,8 à 7,6% de la page d’accueil.
  • Quant au profil américanophile la proportion de séries américaines proposées au terme de l’expérience a légèrement baissé à la fois en titres (passant de 55% avant l’expérience à 52% après) et en nombre de vignettes (62% avant l’expérience, 58% après).

La personnalisation des pages d’accueil semble donc d’autant plus importante que les usagers expriment une demande pour des contenus présentant une forte distance culturelle avec ceux habituellement attendus sur le lieu de connexion comme les séries indiennes ou japonaises.

Les séries américaines déjà très largement représentées dans le catalogue et dans les pages d’accueil vierges, ne sont pas plus présentes lorsqu’un usager ne demande "que" des séries de cette nationalité. L’algorithme fera sans doute, dans ce cas, jouer la personnalisation sur des variables plus fines que l’origine des productions.

Une personnalisation de la recommandation qui laisse place à la présence de nationalités plurielles sur les pages d’accueil

L’algorithme raffine ses recommandations en fonction des choix exprimés par l’utilisateur, mais il laisse également la possibilité à ce dernier de s’ouvrir sur d’autres nationalités, même lorsque l’utilisateur a exprimé un intérêt monomaniaque pour des séries japonaises ou indiennes.

Ainsi, sur tous les profils, le nombre de vignettes dédiées à des contenus de la nationalité visionnée par l’utilisateur atteint rapidement un plafond puis n’augmente plus. Au terme de l’expérience, aucun pays n’a de monopole sur la page d’accueil : les vignettes consacrées aux séries américaines représentent bien 58% de la page d’accueil pour le profil américanophile au terme de l’expérience et 39% de la page d’accueil du profil japonophile est consacré aux séries japonaises; il n’en reste pas moins que 40 à 60% des pages d’accueil sont respectivement occupées par des séries issues d’autres horizons géographiques.

La diversité géographique des propositions reste, au final, étroitement corrélée au contenu du catalogue, certes large mais "fini", en amont, y compris après que le dispositif de recommandation personnalisé, bien réel, se soit mis en place.

Une personnalisation de la recommandation qui s’articule avec l’éditorialisation de certains titres pour tous les usagers

Pour tous les profils, une grande partie des titres présents sur la page d’accueil après visionnage l’étaient déjà avant. Malgré l’importance d’une personnalisation marquée de la recommandation, certains titres bénéficient d’un "push" éditorial pour l’ensemble des usagers.

Les contenus "originals", catégorie large et hétérogène représentent 34% du catalogue et 39–40% des titres sur la page d’accueil. Ils ne peuvent donc pas tous être mis en valeur de la même manière.

Au delà de certains "originals" la mise en avant éditorialisée de contenus sur la page d’accueil renvoie à des situations fort diverses. L’audience globale, le succès inattendu d’un contenu de niche ou encore la résonance avec des thèmes d’actualité pourraient fournir des éléments d’explication.

Conclusion

Pour aller plus loin dans la compréhension de la mise en avant des œuvres sur Netflix, les équipes de la Chaire PcEn développent actuellement un vaste protocole technique basé sur la mise en réseau de nano-ordinateurs permettant de réaliser des expériences sur-mesure et à plus grande échelle. Ces résultats feront l'objet de publications ultérieures sur le site web dans les mois à venir.

Notes

  1. Les chiffres présentés s’appuient sur une base de données qui regroupe l’ensemble du catalogue proposés par ce service. Afin de déterminer quels sont les contenus disponibles sur Netflix à un moment donné, la conception d’un script informatique de "scraping" a permis de collecter des informations sur tous les titres présents dans le catalogue. Les variables sont collectées depuis le code source html des pages web, avant d’être importées dans une base de données relationnelle SQL dédiée. Une fois les données de catalogue collectées, la base de données cinématographique collaborative américaine IMDb a permis de compléter les titres des productions par un ensemble de métadonnées. Pour y parvenir sur le plan technique, nous avons développé un outil de recherche automatique permettant de trouver la page IMDb correspondante à chaque titre récolté. IMDb donne en effet accès à des ressources particulièrement intéressantes sur les films, séries et téléfilms, les réalisateurs, scénaristes, acteurs et, de manière plus générale, sur toutes les personnes et entreprises qui participent à l’élaboration d’une œuvre cinématographique et audiovisuelle.

  2. Pour les films : lien accessible.

    Pour les séries : lien accessible.

  3. Une série avec toutes ses saisons et ses épisodes est comptabilisée comme un titre