Misheard Lyrics

En apprenant que nous sommes informaticiens et que nous participons à des enquêtes criminelles, on nous demande régulièrement si/comment nous utilisons les IA pour nous aider à résoudre ces affaires. De même, nous sommes parfois destinataires de communications d’entreprises qui nous annoncent pouvoir nous rendre plus efficaces et plus rapides grâce à elles.

Effectivement nous utilisons des algorithmes corrects qui nous facilitent certaines tâches. Des logiciels prêts à utiliser pour cloner un disque dur puis simuler le système ainsi copié. Mais également quelques autres faits main comme extraire une planche-contact et quelques scripts personnalisés bien pratiques pour nous.

Cette réponse à tendance à décevoir car aucun de ces algorithme n’est habituellement qualifié d’IA. Pour véritablement répondre à la question, nous allons donc illustrer la problématique sur une des tâches qui nous est confiée : la retranscription d’enregistrements audios.

Retranscription d’audio

On peut penser à des enregistrements effectués lors de l’enquête, ou par des dispositifs de [vidéo]surveillance installés dans l’espace public. Mais depuis la démocratisation des smartphones, on en rencontre aussi beaucoup effectués par M et Mme Toutlemonde1. Mais surtout tous les vocaux qui remplacent les messages textuels. Et ces enregistrements sonores posent quelques petits problèmes.

  1. Un(e) juge d’instruction ne peut pas ouvrir un scellé sans la présence du mis en examen2,
  2. L’écoute est plus lente que la lecture, Wikipedia donne une moyenne de 200 mots par minutes pour une conversation et entre 250 et 300 pour la lecture.
  3. Un enregistrement audio peut contenir de longues périodes inutiles pour l’enquête (e.g. bruits de fond).
  4. Naviguer dans un audio se fait en aveugle, on ne sait pas à l’avance où on va tomber en déplaçant le curseur.
  5. La qualité du son est parfois mauvaise et rend difficile la compréhension.

Des juges nous demandent donc régulièrement d’analyser des enregistrements audios3, souvent mis sous scellés, pour en effectuer des améliorations, des copies de travail (y compris à destination des parties) et, pour ce qui nous intéresse aujourd’hui, des retranscriptions.

L’enjeu de ces retranscriptions est très important car ce texte sera le prisme par lequel les personnes autour de l’enquête (juges et avocat(e)s principalement) considéreront le contenu de l’enregistrement. La plupart de l’audio n’est généralement pas compliqué ni intéressant mais certains passages peuvent parfois tout changer et nécessiter une transcription mot à mot.

Comme vous pouvez l’imaginer, cette mission est chronophage parce qu’en plus du temps de dactylographie, il faut souvent réécouter certains passages plusieurs fois pour être sûr de ce qu’on [re]transcrit.

Si c’est pas un cas d’usage typique des IA… Leur rapidité réduirait les délais des procédures et leur coût compétitif répondrait au manque de moyens de la justice !? Testons ça…

Quatre exemples

Nous avons donc essayé une IA de reconnaissance vocale sur quelques audios que nous avions du retranscrire et on vous proposes ce petit exercice :

  1. Le premier texte est celui fourni par l’IA, lisez-le et formez-vous une image de l’ambiance criminelle qu’il dégage.
  2. Ensuite cliquez dessus pour découvrir notre retranscription et vérifiez si votre idée initiale est toujours valide.

Notez que pour des raisons évidentes, les éléments permettant de reconnaître les auteurs ont été modifiés ou caviardé (i.e. un numéro de téléphone). Mais en dehors de ces détails, le reste est authentique.

Exercice 1

Gêné que mansour voilà j’ai vu égaré mon téléphone vomis je roule retrouver on vous voit du conjoint violent dur schwob demain comme sans jugement d’une somme sur moi à plus

Oui, Yannnick, Bonsoir,
Voilà, j’avais égaré mon téléphone et je l’ai retrouvé
Bon, voilà, si tu peux me joindre maintenant, ou bien demain
Enfin, j’ai mon téléphone sur moi
Allez à plus

Exercice 2

voyez-vous john le transport des pédés j’ai un colis à vous remettre je voulais savoir si quelqu’un a palaiseau rouge sur la vaisselle pas de réponse je peux remettre le couvert vos bras hum ça

Ouais, bonjour,
c’est le transport DPD, j’ai un colis à vous remettre,
Je voulais savoir s’il y avait quelqu’un à [??] ou si jamais j’ai pas de réponse, je peux remettre le colis à [??]

Exercice 3

ouais il a dit que l’on roule extérieure appelé segura je n’arrivais pas à voir sabrina mais après j’ai eu sabrina villageois je vais devoir voir tomber comme un jeu romantique du matin du poulailler l’ange brûle les papiers ok allez bonne soirée

Ouais, Yannick, ben oui, j’’avais appelé, mais c’était pour, parce que j’arrivais pas à avoir sabrina, et après j’ai eu sabrina, et là je viens de voir que tu m’as appelé, maintenant que je remontait du poulailler, là je pose les papiers, ok, allez bonne soirée.

Exercice 4

oui bonjour colis privé de wally pour vous vous pourriez me rappeler aux érotique soixante-quatorze [xx yy zz] plus merci

Oui bonjour, Colis privé, j’ai un colis pour vous. Vous pourriez me rappeler au zéro six soixante quatorze [xx yy zz] un merci.

Et après ?

Sachant que ces retranscriptions sont fournies à un(e) Juge d’Instruction, imaginez les conséquences si nous lui avions envoyé les résultat de l’IA. Les poursuites de l’enquête, les chefs d’inculpation et éventuellement l’issue du procès.

Notez que nous vous avons montré des exemples de faux positifs mais il existe aussi des faux négatifs. Plutôt que fabuler un contenu limite criminel là où il n’y a rien, l’IA peut tout autant fabuler un contenu inoffensif et ainsi masquer une preuve. On en rencontre beaucoup avec la classification des photos (une autre de nos missions).

Alors bien sûr, les parties pourrons toujours contester les résultats d’une expertise et demander une contre-expertise mais ça pose quelques problèmes. D’abord les faux positifs sont plus facile à contredire que les faux négatifs. Si l’expert fourni une mauvaise retranscription, les parties peuvent corriger. Mais si l’expert n’a rien trouvé, les parties ne savent pas si c’est parce qu’il a bâclé son travail ou parce qu’il n’y avait rien4.

Mais ça pose surtout un problème de déontologie. Fournir un résultat aléatoire alors qu’on est rémunéré en tant que professionnel pour une mission d’expertise judiciaire. Déléguer la vérification aux parties alors qu’on a prêté serment d’accomplir la mission avec honneur et conscience.

Quid si la contre-expertise utilise la même IA ? Où si elle fourni une autre retranscription, comment trancher ? C’est arrivé : après qu’un expert un peu trop enthousiaste (et très onéreux) ait fourni une retranscription contredite par le mis en examen et une autre d’un gendarme. La juge a demandé notre avis pour trancher5.

Puisqu’on ne peut pas lui faire confiance, il faudrait donc, si on utilise l’IA, vérifier chacune de ses retranscriptions… Déjà ça n’économisera pas beaucoup de temps à cause de toutes ces pauses où il faudra remettre en page et corriger les erreurs. Et surtout, c’est ignorer les effets de paréidolie qui font que nos cerveaux privilégient le texte qu’on lit au détriment des mots prononcés (e.g. Assassin de la police). Pour bien faire, il faudrait donc retranscrire notre version sans aide extérieure puis faire un diff avec celle de l’IA pour vérifier que ce qu’elle a trouvé est bon. Cherchez l’économie.

Ici, nous avions utilisé VOSK en version locale6 après l’avoir entraîné sur leur plus gros ensemble d’apprentissage du français mais le problème n’est pas du à VOSK : toutes les IA actuelles ont ces limitations :

Je ne dis pas qu’il n’y a pas des cas d’usages à cette technologie. Si vous utilisez ce système pour retranscrire, en direct ce que vous êtes en train de dire au calme, ça peut passer ; vous savez ce que vous voulez dire et pouvez détecter et corriger directement les erreurs à l’écran.

Mais pour des expertises judiciaires, non. Car pour rendre le système plus fiable, il faudrait lui faire apprendre la voix des auteurs. Donc les identifier, les trouver et qu’ils acceptent de passer des centaines d’heures à lire des textes. Et reconstituer les conditions acoustiques des enregistrements. Puis espérer que tous les mots de l’enregistrement sont dans le corpus d’apprentissage et que les mis en examens n’ont pas triché sur leur prononciation pendant l’apprentissage7. Sans compter le budget logistique correspondant.

Et même si cette phase était possible, comme l’IA ne serait que plus performante (et pas correcte), des erreurs persisteront qui nécessiterons que nous vérifions ces résultats. Donc que nous retranscrivions tout à la main avant de passer l’IA dessus.

Nous préférons donc nous passer des services de ces IA actuelles. À la place, une fois qu’un passage important pour l’enquête est [re]transcrit par l’un, l’autre vérifie qu’il ne peut pas entendre autre chose (et dans ce cas nous notons que le passage est ambigu). Ça économise des frais et raccourcis les délais.