Benutzer:Mrzetti/BLEU-Entwurf

BLEU (bilingual evaluation understudy) ist ein Maß zur Bewertung der Qualität von Texten, die aus einer natürlichen Sprache in eine andere maschinell übersetzt wurden. Qualität wird als die Übereinstimmung zwischen der Ausgabe einer Maschine und der eines Menschen betrachtet: „Je näher eine maschinelle Übersetzung an einer professionellen menschlichen Übersetzung ist, desto besser ist sie“ – das ist die zentrale Idee hinter BLEU.^[1] BLEU wurde 2001 bei IBM entwickelt,^[2] und war eine der ersten Metriken, die eine hohe Korrelation mit menschlichen Bewertungen von Qualität beanspruchen konnte.^[3]^[4]

Mathematische Definition

Grundlegendes

Der BLEU-Wert wird basiert auf zwei Grundbausteinen, ein Kandidat und eine oder mehr Referenzenübersetzungen. Die Idee dabei ist, dass BLEU beschreibt wie nah beieinander Kandidat und Referenzen liegen.

Dabei gilt, je näher der Wert bei 1 ist, desto besser ist die Übersetzung / der Kandidat.

Als Analogie ist der BLEU-Wert wie ein Lehrer, der versucht, die Qualität einer Übersetzung eines Schülers zu bewerten, indem er prüft, wie genau sie den Referenzübersetzungen des Lehrers folgt.

Gegeben ist eine Folge n-Gramme für eine natürliche Zahl $n$ . Dabei wäre ein 1-Gramm "der" oder "Lehrer" und ein 2-Gramm "der Lehrer". Dies gilt für ein beliebiges $n$ . Überlicherweise bis $n=4$ , da zu lange Folgen selten vorkommen und somit fast alle Übersetzungen schlecht wären. ^[5] ^[6]

Modifizierte n-Gramm-Präzision

Die modifizierte n-Gramm-Präzision stellt sicher, dass die maschinelle Übersetzung sowohl aus den richtigen n-Grammen, als auch der richtigen Häufigkeit derer besteht.

Definiert ist die modifizierte n-Gramm-Präzision als

$P_{n}={\frac {\text{Anzahl der vorkommenden n-Gramme (limitiert auf die maximale Anzahl in den Referenzen)}}{\text{Anzahl n-Gramme im Kandidat}}}$

$P_{n}={\frac {\sum _{C\in Candidaten}\sum _{n-Gramm\in C}\min({\text{Anzahl}}(n-Gramme{\text{ in }}C),{\text{max}}(n-Gramme{\text{ in }}R))}{\sum _{C\in Candidaten}\sum _{n-Gramm\in C}{\text{Anzahl}}(n-Gramm{\text{ in }}C)}}$

Eine modifizierte n-Gramm-Präzision von 0 würde bedeuten, dass keine der n-Gramme des Kandidaten in den Referenzen vorkommt. Ein Wert von 1 würde bedeuten, dass alle n-Gramme vorkommen, beziehungsweise der Kandidat ein Teilsatz einer oder mehr Referenzen ist.

Kürzungsstrafe

Die modifizierte n-Gramm-Präzision gibt fälschlicherweise einen hohen Wert für Kandidaten die alle Wörter einer Referenz enthalten aber so kurz wie möglich sind. Die Strafe ist deswegen nur für kurze Sätze, da die Berechnung der modifizierte N-Gramm-Präzision bereits zu lange Sätze bestraft.

Definiert wird die Kürzungsstrafe als:

$BP={\begin{cases}1&{\text{wenn }}c>r\\\exp \left(1-{\frac {r}{c}}\right)&{\text{wenn }}c\leq r\end{cases}}$

Wenn $r>c$ ist, ist die Kürzungsstrafe $BP=1$ , was bedeutet, dass lange Kandidaten nicht bestrafen werden.
Wenn $r\leq c$ ist, ist die Kürzungsstrafe $BP=e^{1-r/c}$

Dabei ist:

$c$ ist die Länge des Kandidaten
$r$ ist die effektive Referenzlänge, das heißt, die Länge der Referenz, die am nächsten an der Länge des Kandidaten ( $c$ ) liegt. ^[7]

Definition von BLEU

Der BLEU-Wert hängt von der Wahl der Gewichte $w:=(w_{1},w_{2},\cdots )$ ab. Gewichte wurden eingeführt um Übersetzungen zu bevorzugen, die mehrere gute n-Gramm-Präzisionen besitzen.

Die Formel zur Berechnung des BLEU-Scores lautet:

$BLEU=BP\times \exp \left(\sum _{n=1}^{N}w_{n}\log p_{n}\right)$

Dabei sind:

$N$ die Anzahl der N-Gramme,
$p_{n}$ die modifizierten n-Gram Präzisionswerte,
$w_{n}$ die Gewichte für die verschiedenen n-Gramme,
$BP$ die Kürzungsstrafe.

In Worten: Es ist ein gewichtetes geometrisches Mittel aller modifizierten n-Gramm-Präzisionen, multipliziert mit der Kürzungsstrafe. Das gewichtete geometrische Mittel wird verwendet um Kandidaten zu bevorzugen, die gut gemäß mehreren n-Gramm-Präzisionen sind.

Die Gewichte, die in der Veröffentlichung empfohlen werden, sind $w_{1}=\cdots =w_{4}={\frac {1}{4}}$ .^[8]

Algorithmus

BLEU am Beipiel

Folgendes Beispiel veranschaulicht die Schritte zur Berechnung des BLEU-Wertes.


Kandidat	Die die die Katze sitzt auf dem Baum.
Referenz 1	Die Katze sitzt seit heute Morgen auf dem toten Baum.
Referenz 2	Die Katze sitzt auf dem toten Baum.

1. Vorverarbeitung:

Kandidat und Referenzen werden normalisiert und tokenisiert.


Kandidat	die die die katze sitzt auf dem baum
Referenz 1	die katze sitzt seit heute morgen auf dem toten baum
Referenz 2	die katze sitzt auf dem toten baum

2. n-Gramme:

Nach der Normalisierung wird der Kandidat in 1-4 Gramme zerlegt.

1-Gramme	2-Gramme	3-Gramme	4-Gramme
die	die die	die die die	die die die katze
die	die die	die die katze	die die katze sitzt
die	die katze	die katze sitzt	die katze sitzt auf
katze	katze sitzt	katze sitzt auf	katze sitzt auf dem
sitzt	sitzt auf	sitzt auf dem	sitzt auf dem baum
auf	auf dem	auf dem baum
dem	dem baum
baum

3. Clipping:

Clipping bedeutet, dass die Anzahl die ein n-Gramm vorkommt, auf die Maximale Anzahl in der Referenz vorkommt.

Zum Beispiel kommt 'die' 3 mal im Kandidat vor, aber nur einmal in den Referenzsätzen. Daraus folgt, dass die maximale Anzahl, die 'die' vorkommen sollte auf 1 begrenzt ist.

4. Berechnung der modifizierten n-Gramm-Genauigkeit:

Da die Anzahl der n-Gramme im folgenden gezählt wird, sind in den folgenden Tabellen nur die einzigartigen n-Gramme aufgeführt.

Für 1-Gramme des Kandidaten:

1-Gramme	Anzahl im Kandidat	Maximale Anzahl in Referenzen	Geclippte Anzahl
die	3	1	1
katze	1	1	1
sitzt	1	1	1
auf	1	1	1
dem	1	1	1
baum	1	1	1

Für 2-Gramme des Kandidaten:

2-Gramme	Anzahl im Kandidat	Maximale Anzahl in Referenzen	Geclippte Anzahl
die die	2	0	0
die katze	1	1	1
katze sitzt	1	1	1
sitzt auf	1	1	1
auf dem	1	1	1
dem baum	1	1	1

Für 3-Gramme des Kandidaten:

3-Gramme	Anzahl im Kandidat	Maximale Anzahl in Referenzen	Geclippte Anzahl
die die die	1	0	0
die die katze	1	0	0
die katze sitzt	1	1	1
katze sitzt auf	1	1	1
sitzt auf dem	1	1	1
auf dem baum	1	0	0

Für 4-Gramme des Kandidaten:

4-Gramme	Anzahl im Kandidat	Maximale Anzahl in Referenzen	Geclippte Anzahl
die die die katze	1	0	0
die die katze sitzt	1	0	0
die katze sitzt auf	1	1	1
katze sitzt auf dem	1	1	1
sitzt auf dem baum	1	0	0

Für alle n-Gramme wird nun die modifizierten n-Gramm-Genauigkeit ( $P$ ) berechnet.

Dafür wird folgende Formel verwendet:

$P_{n}={\frac {\text{Summe der geclippten Anzahl}}{\text{Gesamtanzahl der einzigartigen n-Gramme im Kandidat}}}$

Für die 1-Gramme bzw Unigramme:

$P_{1}={\frac {1+1+1+1+1+1}{6}}={\frac {6}{6}}=1$

Für die 2-Gramme bzw Bigramme:

$P_{2}={\frac {0+1+1+1+1+1}{6}}={\frac {5}{6}}=0.83$

Für die 3-Gramme bzw Trigramme:

$P_{3}={\frac {0+0+1+1+1+0}{6}}={\frac {3}{6}}=0.5$

Für die 4-Gramme:

$P_{4}={\frac {0+0+1+1+0}{5}}={\frac {2}{5}}=0.4$

5. Berechnung der Kürzungsstrafe (brevity penalty):

Die Kürzungsstrafe wird nur verwendet um sehr kurze Übersetzungen zu bestrafen. Sätze die sehr lang sind, aber keinen Inhalt haben, werden jedoch nicht bestraft.

$c$ ist die Länge des Kandidaten, in diesem Beispiel also $8$ .

$r$ ist die Länge der kürzesten Referenz, in diesem Beispiel also $7$ .

Wenn $r\leq c$ , beträgt die Kürzungsstrafe $1$

Wenn $r>c$ , beträgt die Kürzungsstrafe $e^{1-r/c}$

In diesem Fall ist $7\leq 8$ also beträgt die Kürzungsstrafe $1$ .

6. Zusammenführen der Ergebnisse:

Zum Schluss wird das gewichtete geometrische Mittel ( $N$ ) über die n-Gramm Präzisionen berechnet und mit der Kürzungsstrafe ( $BP$ ) multipliziert.

Meistens werden alle vier Ergebnisse gleich gewichtet, mit ${\frac {1}{4}}$ .

$N=(P_{1})^{\frac {1}{4}}\cdot (P_{2})^{\frac {1}{4}}\cdot (P_{3})^{\frac {1}{4}}\cdot (P_{4})^{\frac {1}{4}}$

Hierbei wird $P_{1}$ bis $P_{4}$ aus Unterpunkt 4 verwendet.

$N=1^{\frac {1}{4}}\cdot 0.83^{\frac {1}{4}}\cdot 0.5^{\frac {1}{4}}\cdot 0.4^{\frac {1}{4}}$

$N=0.6383$

Am Schluss wird das Mittel ( $N$ ) mit der Kürzungsstrafe ( $BP$ ) multipliziert:

$BLEU=BP*N$

$BLEU=1*0.6383$

Damit beträgt der BLEU-Wert für das gegebene Beispiel:

$BLEU=0.6383$

Zusammenfassung^[9]

1. Vorverarbeitung:

Die Texte werden normalisiert, zum Beispiel durch Kleinschreibung. Dies stellt sicher, dass Unterschiede in der Groß- und Kleinschreibung die Bewertung nicht beeinflussen.

2. n-Gramm-Übereinstimmung:

Die n-Gramme (Wortfolgen der Länge n) in der maschinellen Übersetzung und den Referenzübersetzungen werden gezählt. Dies ermöglicht einen detaillierten Vergleich der Übersetzungsqualität auf Wortebene.

3. Clipping:

Die Zählungen der n-Gramme in der maschinellen Übersetzung werden auf das Maximum begrenzt, das in den Referenzen vorkommt. Dies verhindert, dass übermäßige Wiederholungen von Wörtern zu einer künstlich hohen Genauigkeit führen.

4. Berechnung der modifizierten n-Gramm-Genauigkeit:

Die Anzahl der geclippten n-Gramme wird durch die Gesamtanzahl der n-Gramme in der maschinellen Übersetzung geteilt. Dies gibt eine proportionale Genauigkeit der maschinellen Übersetzung im Vergleich zu den Referenzen an.

5. Berechnung der Kürzungsstrafe (brevity penalty):

Die Länge der maschinellen Übersetzung wird im Verhältnis zur nächsten Referenzlänge bestimmt. Dies stellt sicher, dass die Übersetzung nicht zu kurz und somit möglicherweise unvollständig ist.

6. Zusammenführen der Ergebnisse:

Der BLEU-Score wird durch die gewichtete geometrische Mittelung der logarithmierten modifizierten n-Gramm-Genauigkeiten und das Multiplizieren mit der Kürzungsstrafe berechnet. Dies liefert den endgültigen BLEU-Score, der die Gesamtqualität der maschinellen Übersetzung im Vergleich zu den Referenzen angibt.

Anwendungsbeispiele

BLEU wird häufig zur Bewertung der Qualität maschineller Übersetzungen verwendet. Hier sind einige konkrete Anwendungsfälle:

Maschinelle Übersetzung: Große Technologieunternehmen wie Google und Microsoft nutzen BLEU zur Evaluierung und Verbesserung ihrer Übersetzungsdienste.^[10]
Bildbeschreibungssysteme: Systeme wie das von Microsoft Research verwenden BLEU zur Bewertung der Qualität automatisch generierter Bildbeschreibungen.^[11]
Bewertung von Antworten großer Sprachmodelle: BLEU wird verwendet, um die Qualität der Antworten großer Sprachmodelle zu bewerten. Beispielsweise kann BLEU zur Bewertung der Zusammenfassungsfähigkeiten eines Modells verwendet werden, indem generierte Texte mit Referenztexten verglichen werden. ^[12]

Interpretation ^[13]

Folgende Tabelle ist übernommen von Google Cloud und dient zur Einordnung des BLEU-Wert:


BLEU-Wert	Interpretation
0 - 0.1	Fast unbrauchbar
0.1 - 0.2	Schwierig, das Wesentliche zu verstehen
0.2 - 0.3	Das Wesentliche ist verständlich, aber es gibt erhebliche Grammatikfehler
0.3 - 0.4	Verständliche bis gute Übersetzungen
0.4 - 0.5	Hochwertige Übersetzungen
0.5 - 0.6	Sehr hochwertige, adäquate und flüssige Übersetzungen
0.6 - 1.0	Qualität oft besser als menschliche Übersetzungen

Es ist wichtig zu beachten, dass ein hoher BLEU-Score nicht immer eine perfekte Übersetzung garantiert, da BLEU nur die Übereinstimmung der n-Gramme bewertet und keine semantischen oder kontextuellen Aspekte berücksichtigt. Deshalb sollte BLEU in Kombination mit anderen Metriken und menschlichen Bewertungen verwendet werden. BLEU unterscheidet nicht zwischen Inhalts- und Funktionswörtern.

Kritik

BLEU wird häufig als gut mit menschlichen Urteilen korrelierend bewertet,^[14]^[15]^[16] und bleibt weiterhin ein wichtiger Benchmark für die Bewertung von neuen Übersetzungstechniken. ^[17]

Es gibt jedoch eine Reihe von Kritikpunkten:

Schlechte Bewertung bei komplexeren Sprachen wie Chinesisch ^[18]
Stark abhängig von der gewählten Tokenisierung ^[19]
Kontext spielt bei BLEU keine Rolle
Stark abhängig von der Qualität der Referenzen
Synonyme werden nicht erkannt

Um die Reproduzierbarkeit und Vergleichbarkeit zu verbessern, wurde die SacreBLEU-Variante entwickelt. SacreBLEU unterscheidet sich dadurch, dass ein eigener Tokenisierer mitgelierfert wird um Unterschiede auszuschließen. ^[2]

Es wurde argumentiert, dass, obwohl BLEU signifikante Vorteile hat, es keine Garantie gibt, dass eine Erhöhung der BLEU-Punktzahl ein Indikator für eine verbesserte Übersetzungsqualität ist.^[20]

Siehe auch

Literatur

Papineni, K., Roukos, S., Ward, T., Zhu, W. J.: BLEU: a method for automatic evaluation of machine translation. ACL-2002: 40th Annual meeting of the Association for Computational Linguistics, 2002, S. 311–318 (aclweb.org [PDF]).
Papineni, K., Roukos, S., Ward, T., Henderson, J., Reeder, F.: Corpus-based Comprehensive and Diagnostic MT Evaluation: Initial Arabic, Chinese, French, and Spanish Results. Proceedings of Human Language Technology 2002, San Diego 2002, S. 132–137 (mt-archive.info [PDF]).
Callison-Burch, C., Osborne, M., Koehn, P.: Re-evaluating the Role of BLEU in Machine Translation Research. 11th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2006, 2006, S. 249–256 (jhu.edu [PDF]).
Doddington, G.: Automatic evaluation of machine translation quality using n-gram cooccurrence statistics. Proceedings of the Human Language Technology Conference (HLT), San Diego, CA 2002, S. 128–132 (nist.gov [PDF]).
Coughlin, D.: Correlating Automated and Human Assessments of Machine Translation Quality. MT Summit IX, New Orleans, USA 2003, S. 23–27 (mt-archive.info [PDF]).
Denoual, E., Lepage, Y.: BLEU in characters: towards automatic MT evaluation in languages without word delimiters. Companion Volume to the Proceedings of the Second International Joint Conference on Natural Language Processing, 2005, S. 81–86 (mt-archive.info [PDF]).
Lee, A., Przybocki, M.: NIST 2005 machine translation evaluation official results. 2005.
Lin, C., Och, F.: Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. Proceedings of the 42nd Annual Meeting of the Association of Computational Linguistics, 2004 (mt-archive.info [PDF]).
Madnani, N.: iBLEU: Interactively Scoring and Debugging Statistical Machine Translation Systems. Proceedings of the Fifth IEEE International Conference on Semantic Computing (Demos), Palo Alto, CA 2011, S. 213–214 (ieee.org).
Chen, X., Fang, H., Lin, T. Y., Vedantam, R., Gupta, S., Dollár, P., Zitnick, C. L.: Microsoft COCO captions: Data collection and evaluation server. 2015, arxiv:1504.00325.

Einzelnachweise

↑ Papineni, K., et al. (2002)
↑ ^a ^b BLEU: A Misunderstood Metric from Another Age. 19. Juni 2024; abgerufen im 1. Januar 1 (englisch).
↑ Papineni, K., et al. (2002)
↑ Coughlin, D. (2003)
↑ Papineni, K., et al. (2002)
↑ Zur Bewertung maschineller Übersetzungen: Der ultimative Leitfaden. 25. Juni 2024; abgerufen im 1. Januar 1 (deutsch).
↑ Papineni, K., et al. (2002)
↑ Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu: BLEU. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02. Association for Computational Linguistics, Morristown, NJ, USA 2001, S. 311, doi:10.3115/1073083.1073135 (englisch).
↑ Papineni, K., et al. (2002)
↑ Papineni, K., et al. (2002)
↑ Chen, X., et al. (2015)
↑ Evaluating Large Language Models. 19. Juni 2024; abgerufen im 1. Januar 1 (englisch).
↑ Interpretation mittels BLEU. 19. Juni 2024; abgerufen im 1. Januar 1 (deutsch).
↑ Papineni, K., et al. (2002)
↑ Coughlin, D. (2003)
↑ Doddington, G. (2002)
↑ Zur Bewertung maschineller Übersetzungen: Der ultimative Leitfaden. 25. Juni 2024; abgerufen im 1. Januar 1 (deutsch).
↑ Denoual, E. and Lepage, Y. (2005)
↑ BLEU: A Misunderstood Metric from Another Age. 25. Juni 2024; abgerufen im 1. Januar 1 (englisch).
↑ Callison-Burch, C., Osborne, M. and Koehn, P. (2006)

[1] Papineni, K., et al. (2002)

[Marie-2] BLEU: A Misunderstood Metric from Another Age. 19. Juni 2024; abgerufen im 1. Januar 1 (englisch).

[3] Papineni, K., et al. (2002)

[4] Coughlin, D. (2003)

[5] Papineni, K., et al. (2002)

[6] Zur Bewertung maschineller Übersetzungen: Der ultimative Leitfaden. 25. Juni 2024; abgerufen im 1. Januar 1 (deutsch).

[7] Papineni, K., et al. (2002)

[8] Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu: BLEU. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics - ACL '02. Association for Computational Linguistics, Morristown, NJ, USA 2001, S. 311, doi:10.3115/1073083.1073135 (englisch).

[9] Papineni, K., et al. (2002)

[10] Papineni, K., et al. (2002)

[11] Chen, X., et al. (2015)

[12] Evaluating Large Language Models. 19. Juni 2024; abgerufen im 1. Januar 1 (englisch).

[13] Interpretation mittels BLEU. 19. Juni 2024; abgerufen im 1. Januar 1 (deutsch).

[14] Papineni, K., et al. (2002)

[15] Coughlin, D. (2003)

[16] Doddington, G. (2002)

[17] Zur Bewertung maschineller Übersetzungen: Der ultimative Leitfaden. 25. Juni 2024; abgerufen im 1. Januar 1 (deutsch).

[18] Denoual, E. and Lepage, Y. (2005)

[19] BLEU: A Misunderstood Metric from Another Age. 25. Juni 2024; abgerufen im 1. Januar 1 (englisch).

[20] Callison-Burch, C., Osborne, M. and Koehn, P. (2006)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Benutzer:Mrzetti/BLEU-Entwurf

Inhaltsverzeichnis

Mathematische Definition

Grundlegendes

Modifizierte n-Gramm-Präzision

Kürzungsstrafe

Definition von BLEU

Algorithmus

BLEU am Beipiel

Zusammenfassung^[9]

Anwendungsbeispiele

Interpretation ^[13]

Kritik

Siehe auch

Literatur

Einzelnachweise

Navigationsmenü

Benutzer:Mrzetti/BLEU-Entwurf

Mathematische Definition

Grundlegendes

Modifizierte n-Gramm-Präzision

Kürzungsstrafe

Definition von BLEU

Algorithmus

BLEU am Beipiel

Zusammenfassung[9]

Anwendungsbeispiele

Interpretation [13]

Kritik

Siehe auch

Literatur

Einzelnachweise

Navigationsmenü

Suche

Zusammenfassung^[9]

Interpretation ^[13]