F-SUS : la traduction française du System Usability Scale

Résumé : Cet article présente la version française du questionnaire de mesure de l'utilisabilité "System Usability Scale" (communément appelé SUS). Ce questionnaire est à ce jour le plus utilisé, dans la communauté scientifique, pour mesurer la satisfaction des utilisateurs vis-à-vis d'un produit, d'un système interactif ou d'un service. La version française proposée dans cet article a été validée scientifiquement. Vous pouvez librement utiliser cette traduction pour vos études et projets, en citant simplement la référence : Gronier, G. & Baudet, A. (2021). Psychometric evaluation of the F-SUS: Creation and validation of the French version of the System Usability Scale. International Journal of Human-Computer Interaction. https://doi.org/10.1080/10447318.2021.1898828.



1. Qu'est-ce que le System Usability Scale (SUS) ?

Le System Usability Scale (SUS) est un questionnaire de mesure de l'utilisabilité des systems interactifs, qui comprend dix items, formulés sous la forme de phrases affirmatives. Pour chaque phrase, l’utilisateur est invité à se positionner, en exprimant son accord ou son désaccord, à l’aide d’une échelle de Lickert à 5 points (1 = Pas du tout d’accord ; 5 = Tout à fait d’accord). Si l’utilisateur ne sait pas comment se positionner par rapport à un item, il est invité à y répondre malgré tout en cochant le centre de l’échelle (score 3) (tableau 1).

Items originaux du SUS1. Strongly disagree2345. Strongly agree
1. I think that I would like to use this system frequently
2. I found the system unnecessarily complex
3. I thought the system was easy to use
4. I think that I would need the support of a technical person to be able to use this system
5. I found the various functions in this system were well integrated
6. I thought there was too much inconsistency in this system
7. I would imagine that most people would learn to use this system very quickly
8. I found the system very cumbersome to use
9. I felt very confident using the system
10. I needed to learn a lot of things before I could get going with this system

Tableau 1 : Version originale anglophone du SUS.

A noter qu'un item sur deux est inversé. En effet, tous les items pairs (2, 4, 6, 8 et 10) permettent d'exprimer un avis très négatif lorsque l'utilisateur coche un score proche de 5. A l'inverse, les items impairs qui ne sont pas inversés, permettent d'exprimer un avis très positif lorsque l'utilisateur coche un score proche de 5. Les scores des items inversés sont remis dans le bon sens grâce au mode de calcul du score global du SUS (voir la partie 3. Mode de calcul du score du SUS ci-dessous).

2. Comment a été créé le SUS ?

En 1986, John Brooke et son équipe créaient un questionnaire de mesure de l'utilisabilité des systèmes interactifs. Ce questionnaire devait 1) être rapide à faire passer, 2) facile à comprendre par les utilisateurs, 3) offrir un score facilement communicable auprès des commanditaires, et 4) différencier nettement les bons des mauvais systèmes.

Brooke rédigea tout d'abord 50 phrases capables de mesurer l'utilisabilité d'un système, reposant sur les concepts d'efficacité, d'efficience, de satisfaction (issus de la norme ISO 9241-11), d'apprenabilité et d'utilité. Puis il soumit ces phrases à 20 utilisateurs pour l'évaluation de deux systèmes : un système réputé pour avoir une très mauvaise utilisabilité (un système de développement informatique) ; et un système réputé pour avoir une très bonne utilisabilité (un système d'apprentissage des langues). Pour finir, il garda les 5 phrases qui obtenaient les plus mauvais scores pour l'évaluation du système disposant d'une mauvaise utilisabilité (le système de développement informatique), et les 5 phrases qui obtenaient les meilleurs scores pour l'évaluation du système disposant d'une très bonne utilisabilité (le système d'apprentissage des langues). Voilà, le System Usability Scale (SUS) était né !

3. Mode de calcul du score du SUS

Le score global du SUS est calculé de manière à tenir compte des items inversés (items pairs : 2, 4, 6, 8 et 10) et à obtenir un score total compris entre 0 et 100. Pour cela, le calcul se fait en 3 étapes :
1. Il faut tout d’abord soustraire un point au score coché par l’utilisateur pour les items 1, 3, 5, 7 et 9 (items impairs, non inversés).
2. Ensuite, pour les items 2, 4, 6, 8 et 10 (items pairs, inversés), il faut calculer 5 moins le score coché par l’utilisateur.
3. Les 10 nouveaux scores ainsi recalculés sont additionnés et multipliés par 2,5.

Brooke explique que ce mode de calcul a été défini afin de répondre à des exigences marketings, plutôt que scientifiques. Au moment de la création du SUS, Brooke et son équipe ont considéré que les chefs de projet, les chefs de produit et les ingénieurs étaient plus susceptibles de comprendre une échelle qui allait de 0 à 100, plutôt qu’une échelle allant de 10 à 50 (ce qui correspond normalement à la dispersion des scores, s'ils n'étaient pas traités de façon particulière). Brooke indique également que l’obtention d’une note sur 100 facilite la compréhension du score et la comparaison entre différents systèmes, puisque les différences entre plusieurs scores sont perçues comme plus importantes que si les scores s'étalaient sur 40 points (entre 10 et 50).

4. Signification du score du SUS

Un groupe de chercheurs (Bangor, Kortum et Miller, 2009) ont cherché à donner du sens aux scores du SUS calculés sur 100. Ces chercheurs expliquent que la signification du score était toujours un problème lorsqu’il fallait reporter le résultat d’une étude à un chef de projet ou une équipe de conception. Aussi, un programme pilote a-t-il été lancé pour déterminer si des adjectifs pouvaient être associés à des scores du SUS.
7 qualificatifs ont été retenus pour qualifier l'utilisabilité d'un système :
- La pire qu’on puisse imaginer ;
- Horrible (NB : après analyse, les adjectifs La pire qu'on puisse imaginer et Horrible ont été fusionnés par les auteurs ;
- Mauvaise ;
- Acceptable ;
- Bonne ;
- Excellente ;
- La meilleure qu’on puisse imaginer.

Grâce à l'étude de Bangor et al. (2009), il est ainsi possible de déterminer, à partir du score au SUS, si un système est bon, excellent, acceptable ou mauvais (figure 1).

Signification_SUS

Figure 1 : Signification du score au SUS (adaptée de Bangor, Kortum et Miller, 2009).


5. Processus de traduction de la version française du SUS : le F-SUS

Pour la traduction du SUS, une démarche généralement admise dans la communauté scientifique a été appliquée. Cette démarche repose sur 4 grandes étapes :

1- Un comité de spécialistes bilingues, dont la langue native est celle vers laquelle le questionnaire doit être traduit (ici la langue française), se réunit lors d'un atelier et s'accorde sur une première version de traduction de chaque item du questionnaire. Pour le F-SUS (French System Usability Scale), 3 chercheurs francophones ont été sollicités pour un atelier de 2 heures. Nous leur avons tout d'abord demandé de traduire individuellement le SUS, puis de confronter leur traduction pour établir une version commune.
Chose assez rare mais intéressante, les traducteurs n'ont pas trouvé de consensus, mais ont retenu deux traductions du SUS : 1. une traduction "mot-à-mot", qui reprenait exactement la tournure langagière des items du SUS (par exemple, l'item "I think that I would like to use this system frequently" a été traduit par "Je pense que je voudrais utiliser ce système fréquemment") ; 2. une traduction plus littéraire, dont la tournure langagière était plus usuelle en français et jugée moins lourde (par exemple, l'item "I think that I would like to use this system frequently" a été traduit par "Je voudrais utiliser ce système fréquemment").

2. Dans une deuxième étape, on réalise une contre-traduction (back translation). On demande alors à d'autres spécialistes, également bilingues, de traduire les items traduits en français vers l'anglais, pour s'assurer qu'on retrouve bien les items originaux du questionnaire anglophone. Si l'écart est trop important entre les items originaux et les contre-traductions, c'est que la première étape de traduction doit être revue. Dans le cas du F-SUS, les contre-traductions étaient satisfaisantes, même si bien sûr nous n'avons pas retrouvé exactement les items originaux du SUS à partir des traductions littéraires.

3. Les traductions sont ensuite soumises à des experts du domaine pour vérifier leur compréhension. Dans notre cas, nous avons sollicité 32 UX designers (merci à Alexandre Dehon, Alexis Olry, Andrea Vauthier, Angy Delporte, Bertrand Cochet, Chrystelle Blot, Corinne Leulier, Damien Legendre, Dominique Bouteiller, Franck Ferront, François Dacquin, Gwennola Pierre, Jeanne Clais, Jérôme Dinet, Joffrey Mougel, Julie Giraudon, Julien Champagne, Katia Cadet, Laura Doléant, Lionel Elsen, Liv Lefebvre, Manon Dapra, Manon Legras, Marie Glandus, Marine Biver, Mélanie Becker, Moustafa Zouinar, Nabil Thalmann, Nicolas Goyer, Olivier Sauvage, Samuel Mazars, Sandrine Prom Tep, Valériane Dusaucy et Yun Zo) pour qu'ils s'expriment sur la compréhension de chacun des items de la version française du SUS, à l'aide d'une échelle de Lickert à 5 points (1. Pas du tout compréhensible - 5. Tout à fait compréhensible). Cette étape permet ainsi de corriger la traduction des items qui obtiennent de mauvais scores (par exemple, une moyenne inférieure à 2,5 / 5). Dans notre cas, la moyenne la plus basse était de 3,24 pour l'item 5 ("Les différentes fonctionnalités de ce système sont bien intégrées"). Malgré tout, nous avons choisi de garder cet item tel quel, et de nous assurer de sa compréhension grâce à l'étape 4 du processus de traduction.

4. Pour finir, les questionnaires traduits sont soumis à une batterie de tests, auprès d'un large échantillon d'utilisateurs, afin de mesurer plusieurs de leurs qualités psychométriques :
- la validité, qui permet de savoir si le questionnaire d'utilisabilité mesure bien la facilité d’utilisation perçue (entre autre) d’un produit. Bien souvent, la validité est évaluée en comparant les résultats du questionnaire que l'on a traduit avec les résultats d'un autre questionnaire censé mesurer un concept proche. Dans notre cas, nous avons comparé les résultats au F-SUS avec les résultats de la dimension pragmatique de l'AttrakDiff en version française (Lallemand, Koenig, Gronier et Martin, 2015). Ces données sont en cours d'analyse et les conclusions sont à venir ;
- la fiabilité, qui permet de valider la répétabilité des mesures effectuées à l’aide d’un questionnaire. De manière générale, un bon questionnaire devrait permettre d’obtenir les mêmes scores lorsqu'il est appliqué dans des conditions similaires. La plupart du temps, la fiabilité est vérifiée par une méthode de type test-restest, qui consiste à faire passer le questionnaire auprès de la même population, sur le même objet d'étude, mais à deux moments différents (par exemple à un mois d'intervalle) ;
- la fidélité, qui mesure les qualités psychométriques du questionnaire à l'aide de différents tests statistiques. Il est notamment calculé si les items du questionnaire convergent vers la même mesure, ou si certains items vont dans un sens différent de la majorité des autres items. Généralement, on calcule la fidélité avec un alpha de Cronbach, qui donne un score inférieur ou égal à 1. Plus l'alpha est proche de 1, meilleure est la fidélité du questionnaire, sachant qu'il est admis qu'un score supérieur à 0,7 présente une fidélité satisfaisante. Le SUS, et le F-SUS, possède une fidélité très élevée (alpha supérieur ou égal à 0,9).
Dans la littérature, il y a eu quelques débats sur deux sous-dimensions de l'utilisabilité mesurées par le SUS, que nous avons retrouvées dans notre traduction : les items 4 et 10 convergent parfois vers une sous-dimension, que l'on peut appelée Apprenabilité ; alors que tous les autres items (1, 2, 3, 5, 6, 7, 8 et 9) convergeant vers une autre sous-dimension relative à l'Utilisabilité. Mais cette particularité est rarement observée, et la plupart des études sur le SUS s'accordent à dire qu'il n'y a qu'une seule dimension évaluée, celle de l'Utilisabilité.

6. Le SUS en version française : le F-SUS (French System Usability Scale)

Vous trouverez ci-dessous la version française, et validée, du SUS. Vous pouvez copier-coller librement les items pour vos études et vos projets. Nous vous demandons simplement de citer la référence suivante, afin de renvoyer vos lecteurs vers la source officielle du F-SUS : Gronier, G. & Baudet, A. (2021). Psychometric evaluation of the F-SUS: Creation and validation of the French version of the System Usability Scale. International Journal of Human-Computer Interaction. https://doi.org/10.1080/10447318.2021.1898828.

Items du F-SUS1. Pas du tout d'accord2345. Tout à fait d'accord
1. Je voudrais utiliser ce système fréquemment
2. Ce système est inutilement complexe
3. Ce système est facile à utiliser
4. J’aurais besoin du soutien d’un technicien pour être capable d'utiliser ce système
5. Les différentes fonctionnalités de ce système sont bien intégrées
6. Il y a trop d’incohérences dans ce système
7. La plupart des gens apprendront à utiliser ce système très rapidement
8. Ce système est très lourd à utiliser
9. Je me suis senti·e très en confiance en utilisant ce système
10. J’ai eu besoin d’apprendre beaucoup de choses avant de pouvoir utiliser ce système

Tableau 1 : Version française du SUS, le F-SUS (French System Usability Scale).

Quelques bonnes pratiques :
- ne supprimez pas d'item du questionnaire… cela vous empêcherait de calculer un score sur 100, et pourrait affaiblir les qualités psychométriques du F-SUS ;
- dans les phrases, vous pouvez remplacer l'appellation système par produit, service, app, site web… ou bien encore par l'appellation du système que vous évaluez (par exemple : 1. Je voudrais utiliserAmazon fréquemment.) ;
- gardez bien l'échelle de réponse de 1 (Pas du tout d'accord) à 5 (Tout à fait d'accord) ;
- le F-SUS s'applique généralement après la passation de quelques scénarios dans le cadre d'un test utilisateur. C'est là que vous exploiterez au mieux ses résultats.

7. Pourquoi devriez-vous utiliser le F-SUS ?

Maintenant que vous connaissez le SUS et sa version francophone, le F-SUS, pourquoi devriez-vous l'utiliser ?

1. Premièrement, le SUS peut être appliqué à une multitude de produits, de systèmes et de services. Sans pouvoir être totalement exhaustifs, nous avons relevé 46 études scientifiques, depuis 2011, qui ont utilisé le SUS pour des produits très différents : applications mobiles, applications dans le domaine de la Santé, systèmes de gamification et Serious Games, plateformes d’e-learning, systèmes experts, panneaux de sécurité, appareils de fitness portables, etc. Le SUS est de loin le questionnaire sur l'utilisabilité ou l'UX qui est le plus employé. Il conviendra alors probablement au système que vous souhaitez évaluer.

2. Le SUS est un questionnaire d'une grande validité et très fidèle : vous êtes sûrs de mesurer l'utilisabilité d'un système à l'aide de ce questionnaire, et rien que l'utilisabilité. Vous n'aurez pas de mesures parasites.

3. Le SUS présente une grande sensibilité : il différencie très bien les systèmes entre eux, qui possèdent une qualité d'utilisabilité différente. Ainsi, pas question d'obtenir le même score pour un bon système et un très bon système. Les écarts seront suffisamment importants pour être parlants.

4. Grâce à l'étude de Bangor, Kortum et Miller (2009) sur la signification du score du SUS, vous pouvez attribuer un adjectif au système que vous évaluez (voir la partie 4. Signification du score du SUS de cet article). C'est un élément de communication qui sera certainement très apprécié par votre client ou votre commanditaire.

5. Enfin, pour vos utilisateurs, le SUS est un questionnaire facile à comprendre, et rapide à remplir (comptez en moyenne 3 à 4 minutes par utilisateur). Vos utilisateurs vous en seront reconnaissants !

8. Références

Bangor, A., Kortum, P., & Miller, J. (2009). Determining what individual SUS scores mean: Adding an adjective rating scale. Journal of Usability Studies, 4(3), 114–123. Retrieved from https://uxpajournal.org/determining-what-individual-sus-scores-mean-adding-an-adjective-rating-scale/

Brooke. (1996). SUS: A ‘quick and dirty’ usability scale. In P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. . McClelland (Eds.), Usability evaluation in industry (pp. 189–194). London: Taylor & Francis. Retrieved from http://hell.meiert.org/core/pdf/sus.pdf

Gronier, G., & Baudet, A. (2021). Psychometric evaluation of the F-SUS: Creation and validation of the French version of the System Usability Scale. International Journal of Human-Computer Interaction, 1–12. https://doi.org/10.1080/10447318.2021.1898828

Lallemand, C., Koenig, V., Gronier, G., & Martin, R. (2015). Création et validation d’une version française du questionnaire AttrakDiff pour l’évaluation de l’expérience utilisateur des systèmes interactifs. Revue Européenne de Psychologie Appliquée/European Review of Applied Psychology, 65(5), 239–252. https://doi.org/10.1016/j.erap.2015.08.002