Speech and Language Technologies for Security Applications SALSA Bernard PROUTS
[email protected]
´ Fevrier, 2015
´ 9, ANR) 1 / 14 – SALSA (Defi
SALSA
Objectif ´ audio Faciliter l’exploitation des donnees dans un cadre judiciaire ou de lutte contre le terrorisme et la criminalite´
´ 9, ANR) 2 / 14 – SALSA (Defi
SALSA
Objectif ´ audio Faciliter l’exploitation des donnees dans un cadre judiciaire ou de lutte contre le terrorisme et la criminalite´
ANR ´ “Liberte´ et securit ´ Defi: e´ de l’Europe, de ses citoyens et de ses ´ residents”
´ 9, ANR) 2 / 14 – SALSA (Defi
SALSA
´ audio volumes de donnees en augmentation continue
Comment faire face ´ ? a` toutes ces donnees ´ 9, ANR) 3 / 14 – SALSA (Defi
´ ´ ameliorer l’efficacite´ et reduire la charge de travail des analystes
Enjeux ´ significatives pour l’enquete ˆ ? Donnees
. Situation actuelle
& Objectif
´ en fonction de certains criteres ` Filtrer les donnees : langues, locuteurs, ´ mots-cles... ´ 9, ANR) 4 / 14 – SALSA (Defi
Technologies de traitement de la parole Identification du locuteur
Identification de la langue Détection de mots−clès
Transcription enrichie (XML)
Segmentation
Transcription
Audio
de la parole Traduction de la parole
Signal
´ ´ segmentation audio : detecter la presence de parole dans un signal audio ´ → filtrer les silences, les bruits... n’ecouter que la parole (par exemple: HF) ... ...
´ 9, ANR) 5 / 14 – SALSA (Defi
Technologies de traitement de la parole Identification du locuteur
Identification de la langue Détection de mots−clès
Transcription enrichie (XML)
Segmentation
Transcription
Audio
de la parole Traduction de la parole
Signal
identification de la langue : quelle langue parle-t-on ? ´ detecter les changements de langue → aiguiller l’appel vers le bon transcripteur (humain/machine) ´ → aide a` la caracterisation du locuteur ... ´ 9, ANR) 6 / 14 – SALSA (Defi
Technologies de traitement de la parole Identification du locuteur
Identification de la langue Détection de mots−clès
Transcription enrichie (XML)
Segmentation
Transcription
Audio
de la parole Traduction de la parole
Signal
segmentation et regroupement en locuteurs : qui parle quand ? identification du locuteur : consiste a` identifier un locuteur parmi un ensemble fini ´ ´ d’appel utilise´ → identifier la voix d’un locuteur independamment du numero ...
Technologies de traitement de la parole Identification du locuteur
Identification de la langue Détection de mots−clès
Transcription enrichie (XML)
Segmentation
Transcription
Audio
de la parole Traduction de la parole
Signal
´ ´ detection de mots-cles → quels sont les documents contenant au moins un mot d’une liste definie (cannabis, came, drogue...) ? ... cannabis drogue ... ´ 9, ANR) 8 / 14 – SALSA (Defi
Technologies de traitement de la parole Identification du locuteur
Identification de la langue Détection de mots−clès
Transcription enrichie (XML)
Segmentation
Transcription
Audio
de la parole Traduction de la parole
Signal
transcription de la parole → transcription automatique de la parole contenue dans l’audio ... all^ o -- oui oui Marina comment tu vas ... ´ 9, ANR) 9 / 14 – SALSA (Defi
´ ´ Specificit es
´ • complementarit e´ des partenaires : ◦ technologies de la parole ◦ linguistique ◦ investigations judiciaires
´ • lien etroit entre la recherche et les utilisateurs ´ Les resultats de SALSA faciliteront ´ de donnees ´ • indexation d’importantes quantites ´ • detection des changements de langue ⇒ transcriptions • extraction de toutes les conversations traitant d’un sujet donne´
´ 9, ANR) 10 / 14 – SALSA (Defi
Innovations techniques
´ ` ´ • reduction du cout ˆ de developpement des systemes ` ´ • adaptation des modeles pour cibler les besoins specifiques ´ ´ • developpement de technologies gerant les changements de langue ´ ´ audio • creation d’une interface pour l’analyse de donnees
´ 9, ANR) 11 / 14 – SALSA (Defi
Innovations techniques Align
Robert
Jacqueline
Robert
Jacqueline
Robert
Jacqueline
Robert
´ 9, ANR) 12 / 14 – SALSA (Defi
Translate
spec_scribe
fre
Conclusions
La mise en oeuvre des technologies de la parole dans les applications ´ ´ audio securit e´ permet de valoriser de nombreuses donnees ´ en leur donnant acces ` aux logiciels de actuellement sous-exploitees ´ a` disponibles pour le texte: traitement dej • indexation ´ ´ nommees ´ • detection d’entites ´ ` • detection de themes • traduction
´ 9, ANR) 13 / 14 – SALSA (Defi
´ Technologies de la parole pour des applications de securit e´
Questions ?
´ 9, ANR) 14 / 14 – SALSA (Defi