C'est un sujet auquel je réfléchis depuis un certain temps. Évidemment à cause de la nature de Yakki et de ce que nous essayons de faire. En parlant de Yakki l'autre jour, on m'a posé la question : « Pourquoi demandons-nous à l'utilisateur de changer ostensiblement son comportement ? » Une très bonne question. Qu'est-ce qu'ils y gagnent ? Pourquoi est-ce important et comment cela peut-il nous faire avancer vers l'avenir ?

Toute Interface n'a pas Besoin d'une Voix

La commodité de dicter au lieu de taper est claire, bien que non universellement applicable. Dans certaines situations, écrire peut être plus efficace ou adapté à la tâche.

Je pense à l'exemple de l'ascenseur. Dans l'ascenseur, vous pourriez dire à quel étage vous voulez aller, les systèmes de l'ascenseur « écouteraient » et vous emmèneraient à l'étage. Ou vous pourriez appuyer sur le bouton de l'étage où vous voulez aller, et ce sera beaucoup plus rapide et efficace.

Quand la Dictée Brille

Dans d'autres scénarios, il est beaucoup plus efficace de dicter. Par exemple, au lieu d'avoir à écrire un e-mail, dicter est probablement beaucoup plus efficace. C'est plus rapide mais cela vient aussi avec son propre ensemble de défis.

Votre cerveau traite l'information différemment lorsque vous devez réfléchir à ce que vous écrivez par rapport à quand vous devez le dicter. Y a-t-il une équivalence un pour un de l'écriture à la dictée où dicter est 3,75 fois plus rapide, sans révisions ? Je ne pense pas, du moins pas initialement.

Taper est une compétence que nous avons développée au fil des années de pratique et d'étude, tandis que dicter ne nous est pas aussi familier. Nous utilisons notre voix pour des cas très spécifiques, et il y a peu de chevauchement dans la façon dont le cerveau fonctionne dans les deux cas. Mais si nous voulons être justes, écrire n'a jamais été un processus complètement linéaire (pour la plupart d'entre nous, mortels).

Changer sa Façon de Penser

Dans mon cas, je suis très habitué à écrire, et mon processus de pensée lors de l'écriture est beaucoup plus approfondi que lorsque je dicte. Pour rendre la dictée aussi efficace que mon écriture, je devrais essentiellement changer ma façon de penser.

Il existe des publications scientifiques qui soutiennent cela (ce qui signifie que ma perception n'est pas totalement erronée). L'article "Speech Recognition Technology and Students With Writing Difficulties: Improving Fluency" suggère que la dictée n'accélère pas seulement la saisie ; elle change comment le cerveau compose le texte.

En supprimant la tâche manuelle de taper, la « mémoire de travail » est libérée pour l'idéation de haut niveau, conduisant à des brouillons plus longs et linguistiquement plus riches. En comparant les deux, l'article est arrivé à la conclusion que les textes dictés étaient substantiellement plus longs et « plus riches », contenant des arguments plus complexes et un discours explicatif.

Le Goulot d'Étranglement de Transcription

La théorie est que taper crée un « goulot d'étranglement de transcription ». Lorsque vous supprimez ce goulot d'étranglement via la voix, vous obtenez un « déversement cérébral » (brain dump) d'idées de meilleure qualité. Ces idées peuvent nécessiter du nettoyage et des ajustements, mais leur profondeur globale est plus riche.

Pourtant, il y a un avantage significatif à dicter dans la plupart des scénarios, et il y a beaucoup d'avantages potentiels en termes de vitesse et de fluidité par rapport à votre processus d'écriture habituel.

Le Flux de Travail Hybride

Ma façon de travailler correspond essentiellement aux conclusions de ces autres articles, "Revisions in written composition: Introducing speech-to-text to children with reading and writing difficulties", étudiant les modèles de révision pour les utilisateurs de reconnaissance vocale (STT).

L'une des conclusions clés est que les utilisateurs adoptent généralement un flux de travail « hybride » — dictant des rafales d'idées puis passant au clavier pour le travail de précision de l'édition.

Les Vrais Chiffres

En fin de compte, l'équivalence n'est pas de 3,75 fois parce qu'il y a aussi beaucoup de corrections ou de moments où je dois revenir en arrière et repenser ce que j'essayais de dire pour le reformuler d'une meilleure façon.

Les données quantitatives les plus agressives proviennent du domaine médical, où la documentation efficace est un problème critique. Ces études sont actuellement les plus citées dans les cercles professionnels en raison de leur impact économique.

Cet article, "A multi-country study comparing typed to automatic speech recognition-based medical documentation speeds", après avoir étudié le travail de milliers de médecins, définit un chiffre pour la « vitesse ajustée aux erreurs ». En ajustant pour le temps nécessaire pour corriger les erreurs dans la transcription, la dictée était encore 2,5 fois plus rapide que taper.