Speech and Language Technologies for Security

12 / 14 – SALSA (Défi 9, ANR). Innovations techniques spec_scribe fre. Align. Translate. Robert. Jacqueline. Robert. Jacqueline. Robert. Jacqueline. Robert ...
1019KB taille 1 téléchargements 276 vues
Speech and Language Technologies for Security Applications SALSA Bernard PROUTS [email protected]

´ Fevrier, 2015

´ 9, ANR) 1 / 14 – SALSA (Defi

SALSA

Objectif ´ audio Faciliter l’exploitation des donnees dans un cadre judiciaire ou de lutte contre le terrorisme et la criminalite´

´ 9, ANR) 2 / 14 – SALSA (Defi

SALSA

Objectif ´ audio Faciliter l’exploitation des donnees dans un cadre judiciaire ou de lutte contre le terrorisme et la criminalite´

ANR ´ “Liberte´ et securit ´ Defi: e´ de l’Europe, de ses citoyens et de ses ´ residents”

´ 9, ANR) 2 / 14 – SALSA (Defi

SALSA

´ audio volumes de donnees en augmentation continue

Comment faire face ´ ? a` toutes ces donnees ´ 9, ANR) 3 / 14 – SALSA (Defi

´ ´ ameliorer l’efficacite´ et reduire la charge de travail des analystes

Enjeux ´ significatives pour l’enquete ˆ ? Donnees

. Situation actuelle

& Objectif

´ en fonction de certains criteres ` Filtrer les donnees : langues, locuteurs, ´ mots-cles... ´ 9, ANR) 4 / 14 – SALSA (Defi

Technologies de traitement de la parole Identification du locuteur

Identification de la langue Détection de mots−clès

Transcription enrichie (XML)

Segmentation

Transcription

Audio

de la parole Traduction de la parole

Signal

´ ´ segmentation audio : detecter la presence de parole dans un signal audio ´ → filtrer les silences, les bruits... n’ecouter que la parole (par exemple: HF) ... ...

´ 9, ANR) 5 / 14 – SALSA (Defi

Technologies de traitement de la parole Identification du locuteur

Identification de la langue Détection de mots−clès

Transcription enrichie (XML)

Segmentation

Transcription

Audio

de la parole Traduction de la parole

Signal

identification de la langue : quelle langue parle-t-on ? ´ detecter les changements de langue → aiguiller l’appel vers le bon transcripteur (humain/machine) ´ → aide a` la caracterisation du locuteur ... ´ 9, ANR) 6 / 14 – SALSA (Defi

Technologies de traitement de la parole Identification du locuteur

Identification de la langue Détection de mots−clès

Transcription enrichie (XML)

Segmentation

Transcription

Audio

de la parole Traduction de la parole

Signal

segmentation et regroupement en locuteurs : qui parle quand ? identification du locuteur : consiste a` identifier un locuteur parmi un ensemble fini ´ ´ d’appel utilise´ → identifier la voix d’un locuteur independamment du numero ...

Technologies de traitement de la parole Identification du locuteur

Identification de la langue Détection de mots−clès

Transcription enrichie (XML)

Segmentation

Transcription

Audio

de la parole Traduction de la parole

Signal

´ ´ detection de mots-cles → quels sont les documents contenant au moins un mot d’une liste definie (cannabis, came, drogue...) ? ... cannabis drogue ... ´ 9, ANR) 8 / 14 – SALSA (Defi

Technologies de traitement de la parole Identification du locuteur

Identification de la langue Détection de mots−clès

Transcription enrichie (XML)

Segmentation

Transcription

Audio

de la parole Traduction de la parole

Signal

transcription de la parole → transcription automatique de la parole contenue dans l’audio ... all^ o -- oui oui Marina comment tu vas ... ´ 9, ANR) 9 / 14 – SALSA (Defi

´ ´ Specificit es

´ • complementarit e´ des partenaires : ◦ technologies de la parole ◦ linguistique ◦ investigations judiciaires

´ • lien etroit entre la recherche et les utilisateurs ´ Les resultats de SALSA faciliteront ´ de donnees ´ • indexation d’importantes quantites ´ • detection des changements de langue ⇒ transcriptions • extraction de toutes les conversations traitant d’un sujet donne´

´ 9, ANR) 10 / 14 – SALSA (Defi

Innovations techniques

´ ` ´ • reduction du cout ˆ de developpement des systemes ` ´ • adaptation des modeles pour cibler les besoins specifiques ´ ´ • developpement de technologies gerant les changements de langue ´ ´ audio • creation d’une interface pour l’analyse de donnees

´ 9, ANR) 11 / 14 – SALSA (Defi

Innovations techniques Align

Robert

Jacqueline

Robert

Jacqueline

Robert

Jacqueline

Robert

´ 9, ANR) 12 / 14 – SALSA (Defi

Translate

spec_scribe

fre

Conclusions

La mise en oeuvre des technologies de la parole dans les applications ´ ´ audio securit e´ permet de valoriser de nombreuses donnees ´ en leur donnant acces ` aux logiciels de actuellement sous-exploitees ´ a` disponibles pour le texte: traitement dej • indexation ´ ´ nommees ´ • detection d’entites ´ ` • detection de themes • traduction

´ 9, ANR) 13 / 14 – SALSA (Defi

´ Technologies de la parole pour des applications de securit e´

Questions ?

´ 9, ANR) 14 / 14 – SALSA (Defi