Combining Domain and Topic Adaptation for SMT

25 oct. 2014 - Single-prototype. Average document vectors of same training domain (â domain vectors), max cosine similarity of test doc with domain vectors.

Télécharger le PDF

492KB taille 3 téléchargements 542 vues

commentaire

Report

Combining Domain and Topic Adaptation for SMT Eva Hasler, Barry Haddow, Philipp Koehn ILCC, School of Informatics University of Edinburgh

October 25, 2014

Domain vs. Topic Adaptation Cross-domain adaptation I

Small sample of parallel in-domain text is available

I

Build translation models from different corpora

I

Optimize mixture weights for texts from same domain [Foster and Kuhn, 2007, Sennrich, 2012] or learn corpus/instance weights [Matsoukas et al., 2009, Foster et al., 2010]

2/24

Domain vs. Topic Adaptation Cross-domain adaptation I

Small sample of parallel in-domain text is available

I

Build translation models from different corpora

I

Optimize mixture weights for texts from same domain [Foster and Kuhn, 2007, Sennrich, 2012] or learn corpus/instance weights [Matsoukas et al., 2009, Foster et al., 2010]

Dynamic domain adaptation I

No domain information available ahead of time

I

Adaptation based on current source text [Foster and Kuhn, 2007, Finch, 2008]

2/24

Domain vs. Topic Adaptation Topic adaptation I

Learn topical structure of training data automatically

I

Apply structural information to test data to infer topic mixture [Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012, Hasler et al., 2014a]

I

Few examples of non-dynamic adaptation [Su et al., 2012]

3/24

Domain vs. Topic Adaptation Topic adaptation I

Learn topical structure of training data automatically

I

Apply structural information to test data to infer topic mixture [Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012, Hasler et al., 2014a]

I

Few examples of non-dynamic adaptation [Su et al., 2012]

Advantages of dynamic topic adaptation I

No need for labelled domain boundaries

I

No need for specific development set

3/24

Overview of the adaptation problem Examples of wrong lexical choice Input

le d´ ebit est en augmentation très rapide.

le d´ ebit a augmenté.

Reference

these flows are increasing very rapidly.

the flows have increased.

MT output

the speed is growing very rapidly.

the bitrate has increased.

Context in the andes, this glacier is the source of drinking water for this city. the flows have increased. but when they go away, so does much of the drinking water.

4/24

Combining Domain and Topic Adaptation

Motivation I

Topic modelling useful for finding semantic structure in training data

I

Domain labels of training documents/sentences available but not used

Questions I

Does it help to use both domain and topic information?

I

Do they model different kinds of information, such as style vs. topic?

5/24

Combining Domain and Topic Adaptation

Approach: Building on previous work [Hasler et al., 2014b] I

Topic Adaptation with Distributional Profiles

I

Extend with more features

I

Adapt to each test document

Task: Prediction + Adaptation I

Old: Need to infer topic mixture of each test document

I

New: Need to predict domain of test document

6/24

Phrase Pair Topic Model

How to learn semantic representations? I

I

Represent each phrase pair as distributional profile: pseudo document containing all context words Collect all source context words in local training contexts of a phrase pair

Train document 2 Le noyau d’un système d’exploitation est lui-même un logiciel, mais ne peut cependant utiliser tous les Le noyau d’un système mécanismes d’abstraction est lui-même qu’il fournit auxd’exploitation autres un logiciel, logiciels. Son rôle central mais ne peut cependant impose par ailleurs des utiliser tous les mécanismes performances élevées. Cela d’abstraction fournit aux autres fait du noyau laqu’il partie la plus logiciels. Son rôle central critique d’un système impose par ailleurs des d’exploitation et rend sa performances élevées. Cela Le noyau d’un systèmeet sa conception ... fait du noyau la partie la plus d’exploitation est lui-même un logiciel, mais ne peut critique d’un système cependant utiliser tous lesd’exploitation et rend sa mécanismes d’abstractionconception et sa ...

Train document 3

Train document 1

qu’il fournit aux autres logiciels. Le rôle du noyau central impose par ailleurs des performances élevées. Cela fait du noyau la partie la plus critique d’un système d’exploitation et rend sa conception et sa ...

noyau → kernel

Le noyau atomique désigne la région située au centre

Le noyau atomique désigne nucléons). La taille du noyau la région située au centre (10-15 mètre) est environ d'un atome constituée100 de 000 fois plus petite que protons et de neutrons (lesde l'atome et concentre celle nucléons). La taille duquasiment noyau toute sa masse. (10-15 mètre) est environ Les forces nucléaires qui 100 000 fois plus petite que s'exercent entre les nucléons celle de l'atome et concentre sont à peu près un million quasiment toute sa masse. de fois plus grandes. Les forces nucléaires qui s'exercent entre les nucléons sont à peu près un million de fois plus grandes.

noyau → nucleus cellule

version défaut

Train document 5 d'un atome constituée de Train document 4 protons et de neutrons (les

linux

recompiler fonctionnel

actuel

appliquer

atomique

microscopique matière élémentaires électron

correctif

7/24

Phrase Pair Topic Model

How to learn semantic representations?

noyau → kernel défaut

I

I

I

Represent each phrase pair as distributional profile: pseudo document containing all context words Collect all source context words in local training contexts of a phrase pair

noyau → nucleus cellule

version linux

atomique

microscopique

recompiler fonctionnel

actuel

matière élémentaires électron

correctif

noyau → kernel

noyau → nucleus

θ

θ

p i

p

j

Learn latent representation θp for each phrase pair

7/24

For each of P phrase pairs ppi in the collection Model for training

α0

α

θp z w Cs-all β0

φ

P β

k

K

1. Draw a topic distribution from an asymmetric Dirichlet prior, θp ∼ Dirichlet(α0 , α . . . α). 2. For each position c in the distributional profile of ppi , draw a topic from that distribution, zp,c ∼ Multinomial(θp ). 3. Conditioned on topic zp,c , choose a context word wp,c ∼ Multinomial(ψzp,c ).

8/24

Learned topic representations

c

iti

0.9

0

I

IT

c

iti

m

l l no noyau →pokernel po co e

noyau → nucleus

0.7

IT

noyau → core 0.5

0

s

ce

ic

lit po

s

en ci

0 po

s IT

ic

lit

s y ic m lit no po co e

Some ambiguity remains: both kernel and core occur in IT contexts as translations of noyau

9/24

Phrase Pair Topic Model with additional features Conditional translation probability p(t|s, context) =

X

p(t, k|s, context)

k

p(t, k|s, context) ∝ p(t, s, k|context) = p(t|s, k) · p(s|k) · p(k|context)

Joint-conditional probability p(t, context|s) = p(context|t, s) · p(t|s) ≈ p(θcontext |θpp ) · p(t|s) ≈ cos(θcontext |θpp ) · p(t|s) k: topic θ: topic vector

10/24

Phrase Pair Topic Model with additional features

Target-unigrams trgUnigramst =

|t| Y

f(

i=1

Pdoc (wi ) Pdoc (wi ) )·f( ) Pbaseline (wi ) Ptopic0 (wi )

Sim-phrasePair similarity = cos(θpp , θcontext )

Sim-targetPhrase similarity = cos(θtp , θcontext )

Sim-targetWord similarity = cos(θtw , θcontext )

11/24

Dealing with multiple output domains

Multi-domain adaptation I

Adapt model to each of several (known) target domains

Domain classification for multi-domain adaptation I

Use perplexity of in-domain LMs [Xu et al., 2007]

I

Use stemmed word bigrams + SVM [Banerjee et al., 2010]

I

Use phrase pair provenance + perceptron [Wang et al., 2012]

12/24

Our approach to document classification I

Build domain classifiers using topic representations Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut

d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation

0.3

sp ee ch he sp alt ee h ch

0

sc ien ce

TED

conception et sa ...

Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne

ch

tels

ee sp

ho

0

IT ar ts glish

0.3

CC

En

la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...

Train document 8 Train Train document 3 document 9

m wary

s

litic s

onno

ec

litic

po

po

0

po litic clim s ate

0.3

NC

13/24

Our approach to document classification I

For each test document: Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut

d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’il fournit aux autres impose par ailleurs des mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation

Test document

0.3

sp ee ch he sp alt ee h ch

0

En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux.

sc ien ce

TED

conception et sa ...

Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne

ch ee

0

ho tels

0.3

sp

CC

IT ar En ts glish

la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). Laettaille du noyau protons de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisie sur la courbe par de contrat sera délimitée solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui la passent par le stock. Selon les courbes d'indifférence qui passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...

Train document 8 Train Train document 3 document 9

s

litic s ec onno m wary

litic

po

po

0

po litic clim s ate

0.3

NC

13/24

Our approach to document classification Infer topic mixture → adapt features to topical context Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut

Test document En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux.

conception et sa ...

Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne

0

features

ch

tels

ee sp

ho

0

IT ar ts glish

0.3

CC

En

la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...

0.3

ien ce

sp ee ch he sp alt ee h ch

0

ee ch he sp alt ee h ch

0.3

sp

d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation

sc ien ce

TED

sc

I

Train document 8 Train Train document 3 document 9

m wary

s

litic s

onno

ec

litic

po

po

0

po litic clim s ate

0.3

NC

13/24

Our approach to document classification Predict domain → load domain-adapted translation features Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut

Test document En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux.

conception et sa ...

Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne

0

TED

features features

ch

tels

ee sp

ho

0

IT ar ts glish

0.3

CC

En

la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...

0.3

ien ce

sp ee ch he sp alt ee h ch

0

ee ch he sp alt ee h ch

0.3

sp

d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation

sc ien ce

TED

sc

I

Train document 8 Train Train document 3 document 9

m wary

s

litic s

onno

ec

litic

po

po

0

po litic clim s ate

0.3

NC

13/24

Our approach to document classification

I

Apply trained Phrase Pair Topic model to all training documents → one topic vector per document

Single-prototype Average document vectors of same training domain (→ domain vectors), max cosine similarity of test doc with domain vectors.

Single-prototype-threshold Like single-prototype but with prediction threshold of 0.35. For similarities below threshold, predict unknown and fall back to baseline model.

14/24

Experimental setup (French-English) Data Train (condition 1) Train (condition 2) Dev Test

Mixed 354K (6450) 2.3M 2453 (39) 5664 (112)

CC 110K 110K 818 1892

NC 103K 103K 817 1878

TED 140K 140K 818 1894

Europarl 1.9M -

Baseline systems I

Unadapted system

I

DA-TM: linear PT interpolation [Sennrich, 2012]

I

DA-LM: linear LM interpolation

I

DA-TM+LM: both TM and LM adaptation

Automatic domain prediction I

Applied whenever we combine domain + topic adaptation

15/24

Training condition 2 I

2.3M training sentences → many more training contexts per phrase pair

I

Sample up to 50 contexts per phrase pair

I

Exclude singletons and frequent phrase pairs (> 20K occurrences)

16/24

Results: Single-prototype-threshold classifier

Model # dev+test docs k=10 k=20 k=50 k=100 I

correct 0.68 0.76 0.60 0.55

CC 88 other 0.30 0.15 0.19 0.12

unkown 0.02 0.09 0.21 0.33

NC 39 correct 1.0 1.0 1.0 1.0

TED 24 correct 1.0 1.0 1.0 1.0

Accuracy of domain prediction

17/24

Results: training condition 1 (three domains)

I

Model Baseline

Mixed **26.86

CC 19.61

NC 29.42

TED 31.88

DA-TM

**27.24

19.61

29.87

32.73

DA-LM

**27.16

19.71

29.77

32.46

DA-TM+LM

**27.34

19.59

29.92

33.02

Best system: DA-TM + topics (+ domain prediction)

18/24

Results: training condition 1 (three domains)

I

Model Baseline + topics

Mixed **26.86 **27.57

CC 19.61 20.35

NC 29.42 29.68

TED 31.88 33.22

DA-TM + topics

**27.24 **27.73

19.61 20.33

29.87 29.88

32.73 33.55

DA-LM + topics

**27.16 **27.60

19.71 20.37

29.77 29.80

32.46 33.20

DA-TM+LM + topics

**27.34 **27.63

19.59 20.22

29.92 29.90

33.02 33.33

Best system: DA-TM + topics (+ domain prediction)

18/24

Results: training condition 1 (three domains)

I

Model Baseline + topics

Mixed **26.86 **27.57

CC 19.61 20.35 +0.74

NC 29.42 29.68 +0.26

TED 31.88 33.22 +1.34

DA-TM + topics

**27.24 **27.73

19.61 20.33 +0.69

29.87 29.88 +0.01

32.73 33.55 +0.82

DA-LM + topics

**27.16 **27.60

19.71 20.37 +0.63

29.77 29.80 +0.03

32.46 33.20 +0.74

DA-TM+LM + topics

**27.34 **27.63

19.59 20.22 +0.60

29.92 29.90 -0.02

33.02 33.33 +0.31

Best system: DA-TM + topics (+ domain prediction)

18/24

Results: training condition 1 (three domains) Model Baseline + topics

Mixed **26.86 **27.57

CC 19.61 20.35 +0.74

NC 29.42 29.68 +0.26

TED 31.88 33.22 +1.34

DA-TM + topics

**27.24 **27.73

19.61 20.33 +0.69

29.87 29.88 +0.01

32.73 33.55 +0.82

DA-LM + topics

**27.16 **27.60

19.71 20.37 +0.63

29.77 29.80 +0.03

32.46 33.20 +0.74

DA-TM+LM + topics

**27.34 **27.63

19.59 20.22 +0.60

29.92 29.90 -0.02

33.02 33.33 +0.31

+0.87

+0.72

+0.46

+1.67

Total gain over baseline I

Best system: DA-TM + topics (+ domain prediction)

18/24

Results: training condition 1 (three domains)

What do we gain from domain adaptation?

I

Model DA-TM

Mixed **27.24

CC 19.61

NC 29.87

TED 32.73

Baseline+Sim-combine

**27.29

20.10

29.49

32.60

Topic similarity features + domain-adapted features yield similar performance to using all features

19/24

Results: training condition 1 (three domains)

What do we gain from domain adaptation?

I

Model DA-TM

Mixed **27.24

CC 19.61

NC 29.87

TED 32.73

Baseline+Sim-combine + DA-TM

**27.29 **27.69

20.10 20.13

29.49 29.90

32.60 33.37

Topic similarity features + domain-adapted features yield similar performance to using all features

19/24

Results: training condition 1 (three domains)

What do we gain from domain adaptation?

I

Model DA-TM

Mixed **27.24

CC 19.61

NC 29.87

TED 32.73

Baseline+Sim-combine + DA-TM

**27.29 **27.69 +0.40

20.10 20.13 +0.03

29.49 29.90 +0.41

32.60 33.37 +0.77

Topic similarity features + domain-adapted features yield similar performance to using all features

19/24

Results: training condition 2 (three domains + Europarl)

I

Model Baseline

Mixed **25.74

CC 20.01

NC 29.01

TED 27.82

DA-TM

**26.74

20.13

29.53

30.86

DA-LM

**27.01

20.26

30.48

30.43

DA-TM+LM

**27.70

20.10

30.68

32.70

Best model: DA-TM + DA-LM + topics (+ domain prediction)

20/24

Results: training condition 2 (three domains + Europarl)

I

Model Baseline + topics

Mixed **25.74 **26.54

CC 20.01 20.30

NC 29.01 29.55

TED 27.82 29.97

DA-TM + topics

**26.74 **27.21

20.13 20.35

29.53 29.74

30.86 31.96

DA-LM + topics

**27.01 **27.36

20.26 20.34

30.48 30.62

30.43 31.34

DA-TM+LM + topics

**27.70 **27.91

20.10 20.38

30.68 30.80

32.70 32.98

Best model: DA-TM + DA-LM + topics (+ domain prediction)

20/24

Results: training condition 2 (three domains + Europarl)

I

Model Baseline + topics

Mixed **25.74 **26.54

CC 20.01 20.30

NC 29.01 29.55

TED 27.82 29.97

DA-TM + topics

**26.74 **27.21

+0.29 20.13 20.35

+0.54 29.53 29.74

+2.15 30.86 31.96

DA-LM + topics

**27.01 **27.36

+0.22 20.26 20.34

+0.21 30.48 30.62

+1.10 30.43 31.34

DA-TM+LM + topics

**27.70 **27.91

+0.08 20.10 20.38

+0.14 30.68 30.80

+0.91 32.70 32.98

+0.28

+0.12

+0.28

Best model: DA-TM + DA-LM + topics (+ domain prediction)

20/24

Results: training condition 2 (three domains + Europarl) Model Baseline + topics

Mixed **25.74 **26.54

CC 20.01 20.30

NC 29.01 29.55

TED 27.82 29.97

DA-TM + topics

**26.74 **27.21

+0.29 20.13 20.35

+0.54 29.53 29.74

+2.15 30.86 31.96

DA-LM + topics

**27.01 **27.36

+0.22 20.26 20.34

+0.21 30.48 30.62

+1.10 30.43 31.34

DA-TM+LM + topics

**27.70 **27.91

+0.08 20.10 20.38

+0.14 30.68 30.80

+0.91 32.70 32.98

+2.17

+0.28 +0.37

+0.12 +1.79

+0.28 +5.16

Total gain over baseline I

Best model: DA-TM + DA-LM + topics (+ domain prediction)

20/24

Comparison of training conditions Best Model Train condition 1 Train condition 2

I

Mixed 27.73 27.91

CC 20.33 20.38

NC 29.88 30.80

TED 33.55 32.98

Both domain and topic adaptation could be improved to deal better with unbalanced data

21/24

Input Reference Baseline

le d´ ebit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly.

le d´ ebit a augmenté. the flows have increased. the bitrate has increased.

22/24

Input Reference Baseline +DA-TM

le d´ ebit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast.

le d´ ebit a augmenté. the flows have increased. the bitrate has increased. the throughput has increased.

22/24

Input Reference Baseline +DA-TM +topics

le d´ ebit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. the flow is growing very rapidly.

le d´ ebit a augmenté. the flows have increased. the bitrate has increased. the throughput has increased. the flow has increased.

22/24

Input Reference Baseline +DA-TM +topics

le d´ ebit est en augmentation très rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. the flow is growing very rapidly.

débit → speed bitrate throughput flow

Baseline P(t|s) 0.830 0.770 0.700 0.700

DA-TM P(t|s) 0.652 0.606 0.892 0.803

le d´ ebit a augmenté. the flows have increased. the bitrate has increased. the throughput has increased. the flow has increased.

Topic-adapted Sim-trgWord TrgUnigrams 0.960 1.031 0.918 1 0.919 1.026 0.979 1.058

22/24

Conclusions I

Measured relative benefit of domain adaptation and topic adaptation

I

Methods are complementary, depending on text type/domain

I

Provide adaptation at different levels of granularity

I

Domains can be accurately predicted with domain vectors

Future work I

Direct integration of domain information into topic modelling

23/24

Thank you!

24/24

Banerjee, P., Du, J., Li, B., Naskar, S. K., Way, A., and Genabith, J. V. (2010). Combining Multi-Domain Statistical Machine Translation Models using Automatic Classifiers. In Proceedings of AMTA. Eidelman, V., Boyd-Graber, J., and Resnik, P. (2012). Topic Models for Dynamic Translation Model Adaptation. In Proceedings of ACL. Finch, A. (2008). Dynamic Model Interpolation for Statistical Machine Translation. In Proceedings of the Third Workshop on Statistical Machine Translation, pages 208–215. Foster, G., Goutte, C., and Kuhn, R. (2010). Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation. In Proceedings of EMNLP.

24/24

Foster, G. and Kuhn, R. (2007). Mixture-Model Adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation. Gong, Z., Zhang, Y., and Zhou, G. (2010). Statistical Machine Translation based on LDA. In 4th International Universal Communication Symposium (IUCS). Hasler, E., Blunsom, P., Koehn, P., and Haddow, B. (2014a). Dynamic Topic Adaptation for Phrase-based MT. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Hasler, E., Haddow, B., and Koehn, P. (2014b). Dynamic Topic Adaptation for SMT using Distributional Profiles. In Proceedings of the 9th Workshop on Statistical Machine Translation.

24/24

Matsoukas, S., Rosti, A.-V. I., and Zhang, B. (2009). Discriminative corpus weight estimation for machine translation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Sennrich, R. (2012). Perplexity Minimization for Translation Model Domain Adaptation in Statistical Machine Translation. In Proceedings of EACL. Su, J., Wu, H., Wang, H., Chen, Y., Shi, X., Dong, H., and Liu, Q. (2012). Translation Model Adaptation for Statistical Machine Translation with Monolingual Topic Information. In Proceedings of ACL. Wang, W., Macherey, K., Macherey, W., Och, F., and Xu, P. (2012).

24/24

Improved Domain Adaptation for Statistical Machine Translation. In Proceedings of AMTA. Xiao, X., Xiong, D., Zhang, M., Liu, Q., and Lin, S. (2012). A Topic Similarity Model for Hierarchical Phrase-based Translation. In Proceedings of ACL, pages 750–758. Xu, J., Deng, Y., Gao, Y., and Ney, H. (2007). Domain Dependent Statistical Machine Translation. In Proceedings of MT Summit XI, pages 2–7.

24/24

Combining Domain and Topic Adaptation for SMT

des documents recommandant