Combining Domain and Topic Adaptation for SMT Eva Hasler, Barry Haddow, Philipp Koehn ILCC, School of Informatics University of Edinburgh
October 25, 2014
Domain vs. Topic Adaptation Cross-domain adaptation I
Small sample of parallel in-domain text is available
I
Build translation models from different corpora
I
Optimize mixture weights for texts from same domain [Foster and Kuhn, 2007, Sennrich, 2012] or learn corpus/instance weights [Matsoukas et al., 2009, Foster et al., 2010]
2/24
Domain vs. Topic Adaptation Cross-domain adaptation I
Small sample of parallel in-domain text is available
I
Build translation models from different corpora
I
Optimize mixture weights for texts from same domain [Foster and Kuhn, 2007, Sennrich, 2012] or learn corpus/instance weights [Matsoukas et al., 2009, Foster et al., 2010]
Dynamic domain adaptation I
No domain information available ahead of time
I
Adaptation based on current source text [Foster and Kuhn, 2007, Finch, 2008]
2/24
Domain vs. Topic Adaptation Topic adaptation I
Learn topical structure of training data automatically
I
Apply structural information to test data to infer topic mixture [Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012, Hasler et al., 2014a]
I
Few examples of non-dynamic adaptation [Su et al., 2012]
3/24
Domain vs. Topic Adaptation Topic adaptation I
Learn topical structure of training data automatically
I
Apply structural information to test data to infer topic mixture [Gong et al., 2010, Eidelman et al., 2012, Xiao et al., 2012, Hasler et al., 2014a]
I
Few examples of non-dynamic adaptation [Su et al., 2012]
Advantages of dynamic topic adaptation I
No need for labelled domain boundaries
I
No need for specific development set
3/24
Overview of the adaptation problem Examples of wrong lexical choice Input
le d´ ebit est en augmentation tr`es rapide.
le d´ ebit a augment´e.
Reference
these flows are increasing very rapidly.
the flows have increased.
MT output
the speed is growing very rapidly.
the bitrate has increased.
Context in the andes, this glacier is the source of drinking water for this city. the flows have increased. but when they go away, so does much of the drinking water.
4/24
Combining Domain and Topic Adaptation
Motivation I
Topic modelling useful for finding semantic structure in training data
I
Domain labels of training documents/sentences available but not used
Questions I
Does it help to use both domain and topic information?
I
Do they model different kinds of information, such as style vs. topic?
5/24
Combining Domain and Topic Adaptation
Approach: Building on previous work [Hasler et al., 2014b] I
Topic Adaptation with Distributional Profiles
I
Extend with more features
I
Adapt to each test document
Task: Prediction + Adaptation I
Old: Need to infer topic mixture of each test document
I
New: Need to predict domain of test document
6/24
Phrase Pair Topic Model
How to learn semantic representations? I
I
Represent each phrase pair as distributional profile: pseudo document containing all context words Collect all source context words in local training contexts of a phrase pair
Train document 2 Le noyau d’un système d’exploitation est lui-même un logiciel, mais ne peut cependant utiliser tous les Le noyau d’un système mécanismes d’abstraction est lui-même qu’il fournit auxd’exploitation autres un logiciel, logiciels. Son rôle central mais ne peut cependant impose par ailleurs des utiliser tous les mécanismes performances élevées. Cela d’abstraction fournit aux autres fait du noyau laqu’il partie la plus logiciels. Son rôle central critique d’un système impose par ailleurs des d’exploitation et rend sa performances élevées. Cela Le noyau d’un systèmeet sa conception ... fait du noyau la partie la plus d’exploitation est lui-même un logiciel, mais ne peut critique d’un système cependant utiliser tous lesd’exploitation et rend sa mécanismes d’abstractionconception et sa ...
Train document 3
Train document 1
qu’il fournit aux autres logiciels. Le rôle du noyau central impose par ailleurs des performances élevées. Cela fait du noyau la partie la plus critique d’un système d’exploitation et rend sa conception et sa ...
noyau → kernel
Le noyau atomique désigne la région située au centre
Le noyau atomique désigne nucléons). La taille du noyau la région située au centre (10-15 mètre) est environ d'un atome constituée100 de 000 fois plus petite que protons et de neutrons (lesde l'atome et concentre celle nucléons). La taille duquasiment noyau toute sa masse. (10-15 mètre) est environ Les forces nucléaires qui 100 000 fois plus petite que s'exercent entre les nucléons celle de l'atome et concentre sont à peu près un million quasiment toute sa masse. de fois plus grandes. Les forces nucléaires qui s'exercent entre les nucléons sont à peu près un million de fois plus grandes.
noyau → nucleus cellule
version défaut
Train document 5 d'un atome constituée de Train document 4 protons et de neutrons (les
linux
recompiler fonctionnel
actuel
appliquer
atomique
microscopique matière élémentaires électron
correctif
7/24
Phrase Pair Topic Model
How to learn semantic representations?
noyau → kernel défaut
I
I
I
Represent each phrase pair as distributional profile: pseudo document containing all context words Collect all source context words in local training contexts of a phrase pair
noyau → nucleus cellule
version linux
atomique
microscopique
recompiler fonctionnel
actuel
matière élémentaires électron
correctif
noyau → kernel
noyau → nucleus
θ
θ
p i
p
j
Learn latent representation θp for each phrase pair
7/24
For each of P phrase pairs ppi in the collection Model for training
α0
α
θp z w Cs-all β0
φ
P β
k
K
1. Draw a topic distribution from an asymmetric Dirichlet prior, θp ∼ Dirichlet(α0 , α . . . α). 2. For each position c in the distributional profile of ppi , draw a topic from that distribution, zp,c ∼ Multinomial(θp ). 3. Conditioned on topic zp,c , choose a context word wp,c ∼ Multinomial(ψzp,c ).
8/24
Learned topic representations
c
iti
0.9
0
I
IT
c
iti
m
l l no noyau →pokernel po co e
noyau → nucleus
0.7
IT
noyau → core 0.5
0
s
ce
ic
lit po
s
en ci
0 po
s IT
ic
lit
s y ic m lit no po co e
Some ambiguity remains: both kernel and core occur in IT contexts as translations of noyau
9/24
Phrase Pair Topic Model with additional features Conditional translation probability p(t|s, context) =
X
p(t, k|s, context)
k
p(t, k|s, context) ∝ p(t, s, k|context) = p(t|s, k) · p(s|k) · p(k|context)
Joint-conditional probability p(t, context|s) = p(context|t, s) · p(t|s) ≈ p(θcontext |θpp ) · p(t|s) ≈ cos(θcontext |θpp ) · p(t|s) k: topic θ: topic vector
10/24
Phrase Pair Topic Model with additional features
Target-unigrams trgUnigramst =
|t| Y
f(
i=1
Pdoc (wi ) Pdoc (wi ) )·f( ) Pbaseline (wi ) Ptopic0 (wi )
Sim-phrasePair similarity = cos(θpp , θcontext )
Sim-targetPhrase similarity = cos(θtp , θcontext )
Sim-targetWord similarity = cos(θtw , θcontext )
11/24
Dealing with multiple output domains
Multi-domain adaptation I
Adapt model to each of several (known) target domains
Domain classification for multi-domain adaptation I
Use perplexity of in-domain LMs [Xu et al., 2007]
I
Use stemmed word bigrams + SVM [Banerjee et al., 2010]
I
Use phrase pair provenance + perceptron [Wang et al., 2012]
12/24
Our approach to document classification I
Build domain classifiers using topic representations Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut
d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation
0.3
sp ee ch he sp alt ee h ch
0
sc ien ce
TED
conception et sa ...
Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne
ch
tels
ee sp
ho
0
IT ar ts glish
0.3
CC
En
la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...
Train document 8 Train Train document 3 document 9
m wary
s
litic s
onno
ec
litic
po
po
0
po litic clim s ate
0.3
NC
13/24
Our approach to document classification I
For each test document: Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut
d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’il fournit aux autres impose par ailleurs des mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation
Test document
0.3
sp ee ch he sp alt ee h ch
0
En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux.
sc ien ce
TED
conception et sa ...
Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne
ch ee
0
ho tels
0.3
sp
CC
IT ar En ts glish
la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). Laettaille du noyau protons de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisie sur la courbe par de contrat sera délimitée solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui la passent par le stock. Selon les courbes d'indifférence qui passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...
Train document 8 Train Train document 3 document 9
s
litic s ec onno m wary
litic
po
po
0
po litic clim s ate
0.3
NC
13/24
Our approach to document classification Infer topic mixture → adapt features to topical context Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut
Test document En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux.
conception et sa ...
Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne
0
features
ch
tels
ee sp
ho
0
IT ar ts glish
0.3
CC
En
la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...
0.3
ien ce
sp ee ch he sp alt ee h ch
0
ee ch he sp alt ee h ch
0.3
sp
d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation
sc ien ce
TED
sc
I
Train document 8 Train Train document 3 document 9
m wary
s
litic s
onno
ec
litic
po
po
0
po litic clim s ate
0.3
NC
13/24
Our approach to document classification Predict domain → load domain-adapted translation features Train document 3 Le noyau d’un système Train document 1 d’exploitation est lui-même Train document Le noyau d’un système un logiciel, mais ne1peut
Test document En effet, l’écriture en espace noyau suppose l’absence de mécanismes tels que la protection de la mémoire. Il est donc plus complexe d’écrire un logiciel fonctionnant dans l’espace noyau que dans l’espace utilisateur, les bugs et failles de sécurité sont bien plus dangereux.
conception et sa ...
Train document 4 Train document 5 Train document 6 Le noyau atomique désigne Le noyau atomique désigne
0
TED
features features
ch
tels
ee sp
ho
0
IT ar ts glish
0.3
CC
En
la région située au centre Le noyau atomique désigne la région située au centre d'unlaatome constituée de région centre d'unsituée atomeau constituée de protons de neutrons (les de d'unet atome constituée protons et de neutrons (les nucléons). La taille du noyau protons et de neutrons nucléons). La taille(les du noyau (10-15 mètre) est environ nucléons). Lamètre) taille du (10-15 estnoyau environ 100 (10-15 000 fois plus petite que mètre) est environ 100 000 fois plus petite que celle100 de l'atome et concentre 000 fois petite celle deplus l'atome et que concentre quasiment toute sa masse. celle de l'atome et concentre quasiment toute sa masse. Les forces nucléaires quimasse. quasiment toutenucléaires sa Les forces qui s'exercent entre les nucléons Les forces nucléaires s'exercent entrequi les nucléons sonts'exercent à peu prèsentre un million les nucléons sont à peu près un million de fois plus grandes. sont àde peu million foisprès plusun grandes. Comme chaque individu de fois plus grandes. Comme chaque individu accepte un échange Comme chaque individu accepte un échange uniquement le acceptes'il unpréfère échange uniquement s'il préfère le nouveau stock à l'ancien, la le uniquement s'il préfère nouveau stock à l'ancien, la solution choisie sur la courbe nouveau stock à l'ancien, la solution choisiesera sur délimitée la courbe par de contrat solution choisie sur la courbe de contrat sera d'indifférence délimitée par qui les courbes de contrat sera délimitée par les courbes d'indifférence qui passent le stock. Selon la qui les par courbes d'indifférence passent par le stock. Selon la terminologie passent de parlalethéorie stock. Selon la terminologie de la théorieles des jeux coopératifs, terminologie de la théorie des points jeux coopératifs, les limites entre deux des jeuxces coopératifs, les points entre cesledeux limites constituent noyau le limites points entre cesou deux constituent noyau ou ... le cœurconstituent dele l'économie le noyau ou le cœur de l'économie ... cœur de l'économie ...
0.3
ien ce
sp ee ch he sp alt ee h ch
0
ee ch he sp alt ee h ch
0.3
sp
d’exploitation est lui-même cependant utiliser tous les Le noyau d’un système un logiciel, mais ne peut mécanismes d’abstraction d’exploitation est lui-même cependant utiliser les qu’ilmais fournit auxtous autres un logiciel, ne peut mécanismes d’abstraction logiciels. rôle cependant utiliserSon tous lescentral qu’ilimpose fournit auxailleurs autres des par mécanismes d’abstraction Sonautres rôle central performances élevées. Cela qu’illogiciels. fournit aux impose par ailleurs fait du noyau la des partie la plus logiciels. Son rôle central performances élevées. Cela critique d’un système impose par ailleurs des fait d’exploitation du noyau la partie la plus etCela rend sa performances élevées. critique d’un système conception et sa fait du noyau la partie la ... plus d’exploitation et rend sa critique d’un système conceptionetetrend sa ...sa d’exploitation
sc ien ce
TED
sc
I
Train document 8 Train Train document 3 document 9
m wary
s
litic s
onno
ec
litic
po
po
0
po litic clim s ate
0.3
NC
13/24
Our approach to document classification
I
Apply trained Phrase Pair Topic model to all training documents → one topic vector per document
Single-prototype Average document vectors of same training domain (→ domain vectors), max cosine similarity of test doc with domain vectors.
Single-prototype-threshold Like single-prototype but with prediction threshold of 0.35. For similarities below threshold, predict unknown and fall back to baseline model.
14/24
Experimental setup (French-English) Data Train (condition 1) Train (condition 2) Dev Test
Mixed 354K (6450) 2.3M 2453 (39) 5664 (112)
CC 110K 110K 818 1892
NC 103K 103K 817 1878
TED 140K 140K 818 1894
Europarl 1.9M -
Baseline systems I
Unadapted system
I
DA-TM: linear PT interpolation [Sennrich, 2012]
I
DA-LM: linear LM interpolation
I
DA-TM+LM: both TM and LM adaptation
Automatic domain prediction I
Applied whenever we combine domain + topic adaptation
15/24
Training condition 2 I
2.3M training sentences → many more training contexts per phrase pair
I
Sample up to 50 contexts per phrase pair
I
Exclude singletons and frequent phrase pairs (> 20K occurrences)
16/24
Results: Single-prototype-threshold classifier
Model # dev+test docs k=10 k=20 k=50 k=100 I
correct 0.68 0.76 0.60 0.55
CC 88 other 0.30 0.15 0.19 0.12
unkown 0.02 0.09 0.21 0.33
NC 39 correct 1.0 1.0 1.0 1.0
TED 24 correct 1.0 1.0 1.0 1.0
Accuracy of domain prediction
17/24
Results: training condition 1 (three domains)
I
Model Baseline
Mixed **26.86
CC 19.61
NC 29.42
TED 31.88
DA-TM
**27.24
19.61
29.87
32.73
DA-LM
**27.16
19.71
29.77
32.46
DA-TM+LM
**27.34
19.59
29.92
33.02
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
I
Model Baseline + topics
Mixed **26.86 **27.57
CC 19.61 20.35
NC 29.42 29.68
TED 31.88 33.22
DA-TM + topics
**27.24 **27.73
19.61 20.33
29.87 29.88
32.73 33.55
DA-LM + topics
**27.16 **27.60
19.71 20.37
29.77 29.80
32.46 33.20
DA-TM+LM + topics
**27.34 **27.63
19.59 20.22
29.92 29.90
33.02 33.33
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
I
Model Baseline + topics
Mixed **26.86 **27.57
CC 19.61 20.35 +0.74
NC 29.42 29.68 +0.26
TED 31.88 33.22 +1.34
DA-TM + topics
**27.24 **27.73
19.61 20.33 +0.69
29.87 29.88 +0.01
32.73 33.55 +0.82
DA-LM + topics
**27.16 **27.60
19.71 20.37 +0.63
29.77 29.80 +0.03
32.46 33.20 +0.74
DA-TM+LM + topics
**27.34 **27.63
19.59 20.22 +0.60
29.92 29.90 -0.02
33.02 33.33 +0.31
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains) Model Baseline + topics
Mixed **26.86 **27.57
CC 19.61 20.35 +0.74
NC 29.42 29.68 +0.26
TED 31.88 33.22 +1.34
DA-TM + topics
**27.24 **27.73
19.61 20.33 +0.69
29.87 29.88 +0.01
32.73 33.55 +0.82
DA-LM + topics
**27.16 **27.60
19.71 20.37 +0.63
29.77 29.80 +0.03
32.46 33.20 +0.74
DA-TM+LM + topics
**27.34 **27.63
19.59 20.22 +0.60
29.92 29.90 -0.02
33.02 33.33 +0.31
+0.87
+0.72
+0.46
+1.67
Total gain over baseline I
Best system: DA-TM + topics (+ domain prediction)
18/24
Results: training condition 1 (three domains)
What do we gain from domain adaptation?
I
Model DA-TM
Mixed **27.24
CC 19.61
NC 29.87
TED 32.73
Baseline+Sim-combine
**27.29
20.10
29.49
32.60
Topic similarity features + domain-adapted features yield similar performance to using all features
19/24
Results: training condition 1 (three domains)
What do we gain from domain adaptation?
I
Model DA-TM
Mixed **27.24
CC 19.61
NC 29.87
TED 32.73
Baseline+Sim-combine + DA-TM
**27.29 **27.69
20.10 20.13
29.49 29.90
32.60 33.37
Topic similarity features + domain-adapted features yield similar performance to using all features
19/24
Results: training condition 1 (three domains)
What do we gain from domain adaptation?
I
Model DA-TM
Mixed **27.24
CC 19.61
NC 29.87
TED 32.73
Baseline+Sim-combine + DA-TM
**27.29 **27.69 +0.40
20.10 20.13 +0.03
29.49 29.90 +0.41
32.60 33.37 +0.77
Topic similarity features + domain-adapted features yield similar performance to using all features
19/24
Results: training condition 2 (three domains + Europarl)
I
Model Baseline
Mixed **25.74
CC 20.01
NC 29.01
TED 27.82
DA-TM
**26.74
20.13
29.53
30.86
DA-LM
**27.01
20.26
30.48
30.43
DA-TM+LM
**27.70
20.10
30.68
32.70
Best model: DA-TM + DA-LM + topics (+ domain prediction)
20/24
Results: training condition 2 (three domains + Europarl)
I
Model Baseline + topics
Mixed **25.74 **26.54
CC 20.01 20.30
NC 29.01 29.55
TED 27.82 29.97
DA-TM + topics
**26.74 **27.21
20.13 20.35
29.53 29.74
30.86 31.96
DA-LM + topics
**27.01 **27.36
20.26 20.34
30.48 30.62
30.43 31.34
DA-TM+LM + topics
**27.70 **27.91
20.10 20.38
30.68 30.80
32.70 32.98
Best model: DA-TM + DA-LM + topics (+ domain prediction)
20/24
Results: training condition 2 (three domains + Europarl)
I
Model Baseline + topics
Mixed **25.74 **26.54
CC 20.01 20.30
NC 29.01 29.55
TED 27.82 29.97
DA-TM + topics
**26.74 **27.21
+0.29 20.13 20.35
+0.54 29.53 29.74
+2.15 30.86 31.96
DA-LM + topics
**27.01 **27.36
+0.22 20.26 20.34
+0.21 30.48 30.62
+1.10 30.43 31.34
DA-TM+LM + topics
**27.70 **27.91
+0.08 20.10 20.38
+0.14 30.68 30.80
+0.91 32.70 32.98
+0.28
+0.12
+0.28
Best model: DA-TM + DA-LM + topics (+ domain prediction)
20/24
Results: training condition 2 (three domains + Europarl) Model Baseline + topics
Mixed **25.74 **26.54
CC 20.01 20.30
NC 29.01 29.55
TED 27.82 29.97
DA-TM + topics
**26.74 **27.21
+0.29 20.13 20.35
+0.54 29.53 29.74
+2.15 30.86 31.96
DA-LM + topics
**27.01 **27.36
+0.22 20.26 20.34
+0.21 30.48 30.62
+1.10 30.43 31.34
DA-TM+LM + topics
**27.70 **27.91
+0.08 20.10 20.38
+0.14 30.68 30.80
+0.91 32.70 32.98
+2.17
+0.28 +0.37
+0.12 +1.79
+0.28 +5.16
Total gain over baseline I
Best model: DA-TM + DA-LM + topics (+ domain prediction)
20/24
Comparison of training conditions Best Model Train condition 1 Train condition 2
I
Mixed 27.73 27.91
CC 20.33 20.38
NC 29.88 30.80
TED 33.55 32.98
Both domain and topic adaptation could be improved to deal better with unbalanced data
21/24
Input Reference Baseline
le d´ ebit est en augmentation tr`es rapide. these flows are increasing very rapidly. the speed is growing very rapidly.
le d´ ebit a augment´e. the flows have increased. the bitrate has increased.
22/24
Input Reference Baseline +DA-TM
le d´ ebit est en augmentation tr`es rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast.
le d´ ebit a augment´e. the flows have increased. the bitrate has increased. the throughput has increased.
22/24
Input Reference Baseline +DA-TM +topics
le d´ ebit est en augmentation tr`es rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. the flow is growing very rapidly.
le d´ ebit a augment´e. the flows have increased. the bitrate has increased. the throughput has increased. the flow has increased.
22/24
Input Reference Baseline +DA-TM +topics
le d´ ebit est en augmentation tr`es rapide. these flows are increasing very rapidly. the speed is growing very rapidly. the throughput is rising very fast. the flow is growing very rapidly.
d´ebit → speed bitrate throughput flow
Baseline P(t|s) 0.830 0.770 0.700 0.700
DA-TM P(t|s) 0.652 0.606 0.892 0.803
le d´ ebit a augment´e. the flows have increased. the bitrate has increased. the throughput has increased. the flow has increased.
Topic-adapted Sim-trgWord TrgUnigrams 0.960 1.031 0.918 1 0.919 1.026 0.979 1.058
22/24
Conclusions I
Measured relative benefit of domain adaptation and topic adaptation
I
Methods are complementary, depending on text type/domain
I
Provide adaptation at different levels of granularity
I
Domains can be accurately predicted with domain vectors
Future work I
Direct integration of domain information into topic modelling
23/24
Thank you!
24/24
Banerjee, P., Du, J., Li, B., Naskar, S. K., Way, A., and Genabith, J. V. (2010). Combining Multi-Domain Statistical Machine Translation Models using Automatic Classifiers. In Proceedings of AMTA. Eidelman, V., Boyd-Graber, J., and Resnik, P. (2012). Topic Models for Dynamic Translation Model Adaptation. In Proceedings of ACL. Finch, A. (2008). Dynamic Model Interpolation for Statistical Machine Translation. In Proceedings of the Third Workshop on Statistical Machine Translation, pages 208–215. Foster, G., Goutte, C., and Kuhn, R. (2010). Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation. In Proceedings of EMNLP.
24/24
Foster, G. and Kuhn, R. (2007). Mixture-Model Adaptation for SMT. In Proceedings of the Second Workshop on Statistical Machine Translation. Gong, Z., Zhang, Y., and Zhou, G. (2010). Statistical Machine Translation based on LDA. In 4th International Universal Communication Symposium (IUCS). Hasler, E., Blunsom, P., Koehn, P., and Haddow, B. (2014a). Dynamic Topic Adaptation for Phrase-based MT. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Hasler, E., Haddow, B., and Koehn, P. (2014b). Dynamic Topic Adaptation for SMT using Distributional Profiles. In Proceedings of the 9th Workshop on Statistical Machine Translation.
24/24
Matsoukas, S., Rosti, A.-V. I., and Zhang, B. (2009). Discriminative corpus weight estimation for machine translation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Sennrich, R. (2012). Perplexity Minimization for Translation Model Domain Adaptation in Statistical Machine Translation. In Proceedings of EACL. Su, J., Wu, H., Wang, H., Chen, Y., Shi, X., Dong, H., and Liu, Q. (2012). Translation Model Adaptation for Statistical Machine Translation with Monolingual Topic Information. In Proceedings of ACL. Wang, W., Macherey, K., Macherey, W., Och, F., and Xu, P. (2012).
24/24
Improved Domain Adaptation for Statistical Machine Translation. In Proceedings of AMTA. Xiao, X., Xiong, D., Zhang, M., Liu, Q., and Lin, S. (2012). A Topic Similarity Model for Hierarchical Phrase-based Translation. In Proceedings of ACL, pages 750–758. Xu, J., Deng, Y., Gao, Y., and Ney, H. (2007). Domain Dependent Statistical Machine Translation. In Proceedings of MT Summit XI, pages 2–7.
24/24