„Sprachmodell“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
+LA
Reffix
(2 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 3: Zeile 3:
----</noinclude>
----</noinclude>


Ein '''Sprachmodell'''<ref>Wie meistens in der moderen Informatik ist auch hier die englische Bezeichnung präsenter. Die deutsche Bezeichnung ''Sprachmodell'' findet sich beispielhaft in:
Ein '''Sprachmodell'''<ref group="A">Wie meistens in der moderen Informatik ist auch hier die englische Bezeichnung präsenter. Die deutsche Bezeichnung ''Sprachmodell'' findet sich beispielhaft in:
* {{Literatur|Autor=Franziska Meyer|Titel=Sprachmodelle im Natural Language Processing|TitelErg=Seminararbeit an der [[Universität Leipzig]]|Datum=2020|Online=https://www.informatik.uni-leipzig.de/~graebe/Texte/Meyer-20.pdf|Format=PDF|KBytes=344}}
* {{Literatur|Autor=Franziska Meyer|Titel=Sprachmodelle im Natural Language Processing|TitelErg=Seminararbeit an der [[Universität Leipzig]]|Datum=2020|Online=https://www.informatik.uni-leipzig.de/~graebe/Texte/Meyer-20.pdf|Format=PDF|KBytes=344}}
* {{Literatur|Autor=Sina Schmitt|Titel=Einfluss dynamischer Kontexterweiterungen auf die Schlussfolgerungsfähigkeiten neuronaler Sprachmodelle|TitelErg=Bachelorarbeit am [[Karlsruher Institut für Technologie]]|Datum=2021|Online=https://scholar.archive.org/work/hjxa34mknjdy3k7qol7u7pj2qe/access/wayback/https://publikationen.bibliothek.kit.edu/1000139679/132155591|Format=PDF|KBytes=2767}}
* {{Literatur|Autor=Sina Schmitt|Titel=Einfluss dynamischer Kontexterweiterungen auf die Schlussfolgerungsfähigkeiten neuronaler Sprachmodelle|TitelErg=Bachelorarbeit am [[Karlsruher Institut für Technologie]]|Datum=2021|Online=https://scholar.archive.org/work/hjxa34mknjdy3k7qol7u7pj2qe/access/wayback/https://publikationen.bibliothek.kit.edu/1000139679/132155591|Format=PDF|KBytes=2767}}
* {{Literatur|Autor=Alena Behrens|Titel=Evaluation des Sprachmodells GPT-3 für den Einsatz an der ZBW – Leibniz Informationszentrum Wirtschaft|TitelErg=Masterarbeit an der [[Technische Hochschule Wildau|Technischen Hochschule Wildau]]|Datum=2022|Online=https://opus4.kobv.de/opus4-th-wildau/files/1694/Masterarbeit_GPT3_Behrens.pdf|Format=PDF|KBytes=3264}}</ref> ({{enS|language model}}) ist ein [[mathematisches Modell]], das die Abfolge von Elementen in einer Sequenz (zum Beispiel von [[Buchstabe]]n oder [[Wort|Wörtern]] in [[Natürliche Sprache|natürlichsprachlichen]] Texten) modelliert, meist in Form eines [[Stochastischer Prozess|stochastischen Prozesses]].
* {{Literatur|Autor=Alena Behrens|Titel=Evaluation des Sprachmodells GPT-3 für den Einsatz an der ZBW – Leibniz Informationszentrum Wirtschaft|TitelErg=Masterarbeit an der [[Technische Hochschule Wildau|Technischen Hochschule Wildau]]|Datum=2022|Online=https://opus4.kobv.de/opus4-th-wildau/files/1694/Masterarbeit_GPT3_Behrens.pdf|Format=PDF|KBytes=3264}}</ref> ({{enS|language model}}) ist ein [[mathematisches Modell]], das die Abfolge von Elementen in einer Sequenz (zum Beispiel von [[Buchstabe]]n oder [[Wort|Wörtern]] in [[Natürliche Sprache|natürlichsprachlichen]] Texten) modelliert, meist in Form eines [[Stochastischer Prozess|stochastischen Prozesses]].


Sprachmodelle spielen eine zentrale Rolle im modernen ''[[Natural language processing]]'' und sind eine entscheidende Komponente dortiger Praxisanwendungen, etwa zur [[Maschinelle Übersetzung|maschinellen Übersetzung]] oder [[Spracherkennung]].<ref>Goldberg, 2017, S.&nbsp;105</ref><ref name="ChenGoodman1996">{{Literatur|Autor=Stanley Chen, Joshua Goodman|Titel={{lang|en|An Empirical Study of Smoothing Techniques for Language Modeling}}|Hrsg=Aravind Joshi, Martha Palmer|Sammelwerk={{lang|en|Proceedings of the 34th Annual Meeting of the ACL}}|Datum=1996-06|Sprache=en|Online=https://arxiv.org/pdf/cmp-lg/9606011.pdf|Format=PDF|KBytes=227}}</ref> Auch [[ChatGPT]] ist ein Sprachmodell.
Sprachmodelle spielen eine zentrale Rolle im modernen ''[[Natural language processing]]'' und sind eine entscheidende Komponente dortiger Praxisanwendungen, etwa zur [[Maschinelle Übersetzung|maschinellen Übersetzung]] oder [[Spracherkennung]].<ref>{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=105|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en}}</ref><ref name="ChenGoodman1996">{{Literatur|Autor=Stanley Chen, Joshua Goodman|Titel={{lang|en|An Empirical Study of Smoothing Techniques for Language Modeling}}|Hrsg=Aravind Joshi, Martha Palmer|Sammelwerk={{lang|en|Proceedings of the 34th Annual Meeting of the ACL}}|Datum=1996-06|Sprache=en|Online=https://arxiv.org/pdf/cmp-lg/9606011.pdf|Format=PDF|KBytes=227}}</ref> Auch [[ChatGPT]] ist ein Sprachmodell.


== Mathematische Beschreibung ==
== Mathematische Beschreibung ==
Sprachmodelle modellieren Sequenzen (zum Beispiel Sätze) als Abfolgen von Elementen (zum Beispiel Buchstaben oder Wörtern). In stochastischen Sprachmodellen sind diese Elemente [[Zufallsgröße]]n <math>X_1, X_2, \ldots</math> und bilden einen zeitdiskreten stochastischen Prozess. Um dasselbe Modell für Sequenzen unterschiedlicher Länge&nbsp;<math>n</math> einsetzen zu können, werden ihr Beginn und ihr Ende typischerweise durch zusätzliche Zufallsgrößen <math>X_0</math> und <math>X_{n+1}</math> markiert, die einen speziellen Wert (mögliche Notation: <math>\bot</math>) annehmen. Die Wahrscheinlichkeit einer konkreten Sequenz <math>w_1, \ldots, w_n</math> lässt sich dann formulieren als die Wahrscheinlichkeit der [[Konjunktion (Logik)|Konjunktion]]
Sprachmodelle modellieren Sequenzen (zum Beispiel Sätze) als Abfolgen von Elementen (zum Beispiel Buchstaben oder Wörtern). In stochastischen Sprachmodellen sind diese Elemente [[Zufallsgröße]]n <math>X_1, X_2, \ldots</math> und bilden einen zeitdiskreten stochastischen Prozess. Um dasselbe Modell für Sequenzen unterschiedlicher Länge&nbsp;<math>n</math> einsetzen zu können, werden ihr Beginn und ihr Ende typischerweise durch zusätzliche Zufallsgrößen <math>X_0</math> und <math>X_{n+1}</math> markiert, die einen speziellen Wert (mögliche Notation: <math>\bot</math>) annehmen. Die Wahrscheinlichkeit einer konkreten Sequenz <math>w_1, \ldots, w_n</math> lässt sich dann formulieren als die Wahrscheinlichkeit der [[Konjunktion (Logik)|Konjunktion]]
:<math>P\left(X_0 = \bot \wedge X_1 = w_1 \wedge \cdots \wedge X_n = w_n \wedge X_{n+1} = \bot\right)</math>.
:<math>P\left(X_0 = \bot \wedge X_1 = w_1 \wedge \cdots \wedge X_n = w_n \wedge X_{n+1} = \bot\right)</math>.
Eine häufige Kurzschreibweise<ref>so auch in Goldberg (2017) verwendet, allerdings teilweise ohne Start- und Endmarker; der Startmarker ist dort ansonsten <code>&lt;s&gt;</code> statt <math>\bot</math> und der Endmarker <code>&lt;/s&gt;</code>; bei Collins (2013) heißt der Endmarker <code>STOP</code></ref> für diese Wahrscheinlichkeit lautet
Eine häufige Kurzschreibweise<ref group="A">so auch in Goldberg (2017) verwendet, allerdings teilweise ohne Start- und Endmarker; der Startmarker ist dort ansonsten <code>&lt;s&gt;</code> statt <math>\bot</math> und der Endmarker <code>&lt;/s&gt;</code>; bei Collins (2013) heißt der Endmarker <code>STOP</code></ref> für diese Wahrscheinlichkeit lautet
:<math>P\left(\bot, w_1, \ldots, w_n, \bot\right)</math>.
:<math>P\left(\bot, w_1, \ldots, w_n, \bot\right)</math>.
Nach dem [[Gesetz der totalen Wahrscheinlichkeit]] lässt sich diese Wahrscheinlichkeit auch so schreiben:
Nach dem [[Gesetz der totalen Wahrscheinlichkeit]] lässt sich diese Wahrscheinlichkeit auch so schreiben:
Zeile 42: Zeile 42:
=== <math>N</math>-Gramme ===
=== <math>N</math>-Gramme ===
{{Hauptartikel|N-Gramm}}
{{Hauptartikel|N-Gramm}}
Die Modellierung der bedingten Wahrscheinlichkeiten <math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right)</math> muss mit beliebig langen Sequenzen <math>w_1, \ldots, w_{i-1}</math> im Bedingungsteil umgehen können (<math>i</math> kann beliebig groß sein). Es stehen aber nur endlich viele Modellparameter zur Verfügung. Ein klassischer Umgang damit ist die ''Markov-Annahme'' ({{enS|markov assumption}}), laut der die Wahrscheinlichkeit des nächsten Elements nur von einer begrenzten Anzahl <math>N</math> unmittelbar vorhergehender Elemente abhängt<ref name="Goldberg2017_106">vgl. Goldberg (2017), S.&nbsp;106</ref> ([[Markow-Kette]] <math>N</math>-ter Ordnung). Die Wahrscheinlichkeit, dass <math>w_i</math> auf <math>\bot, w_1, \ldots, w_{i-1}</math> folgt, hängt (für <math>i \geq N</math>) also nur von <math>w_{i-N+1}, \ldots, w_{i-1}</math> ab:<ref>Je nachdem, ob <math>w_i</math> selbst mitgezählt wird oder nicht, kann es auch <math>w_{i-N}, \ldots, w_{i-1}</math> sein. Dieser Artikel verwendet die bei <math>N</math>-Grammen übliche Konvention, dass <math>w_i</math> mitgezählt wird, d.&nbsp;h. Unigramme (1-Gramme) betrachten die Wahrscheinlichkeiten der Elemente völlig unabhängig von ihrem Kontext.</ref>
Die Modellierung der bedingten Wahrscheinlichkeiten <math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right)</math> muss mit beliebig langen Sequenzen <math>w_1, \ldots, w_{i-1}</math> im Bedingungsteil umgehen können (<math>i</math> kann beliebig groß sein). Es stehen aber nur endlich viele Modellparameter zur Verfügung. Ein klassischer Umgang damit ist die ''Markov-Annahme'' ({{enS|markov assumption}}), laut der die Wahrscheinlichkeit des nächsten Elements nur von einer begrenzten Anzahl <math>N</math> unmittelbar vorhergehender Elemente abhängt<ref name="Goldberg2017_106">{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=106|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en}}</ref> ([[Markow-Kette]] <math>N</math>-ter Ordnung). Die Wahrscheinlichkeit, dass <math>w_i</math> auf <math>\bot, w_1, \ldots, w_{i-1}</math> folgt, hängt (für <math>i \geq N</math>) also nur von <math>w_{i-N+1}, \ldots, w_{i-1}</math> ab:<ref group="A">Je nachdem, ob <math>w_i</math> selbst mitgezählt wird oder nicht, kann es auch <math>w_{i-N}, \ldots, w_{i-1}</math> sein. Dieser Artikel verwendet die bei <math>N</math>-Grammen übliche Konvention, dass <math>w_i</math> mitgezählt wird, d.&nbsp;h. Unigramme (1-Gramme) betrachten die Wahrscheinlichkeiten der Elemente völlig unabhängig von ihrem Kontext.</ref>
:<math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right) = P\left(w_i \mid w_{i-N+1}, \ldots, w_{i-1}\right)</math>.
:<math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right) = P\left(w_i \mid w_{i-N+1}, \ldots, w_{i-1}\right)</math>.
Die <math>N</math>-[[Tupel]] <math>\left(w_{i-N+1}, \ldots, w_i\right)</math> werden ''<math>N</math>-Gramme'' genannt.
Die <math>N</math>-[[Tupel]] <math>\left(w_{i-N+1}, \ldots, w_i\right)</math> werden ''<math>N</math>-Gramme'' genannt.
Zeile 48: Zeile 48:
Für <math>i < N</math> ergibt sich keine Vereinfachung der bedingten Wahrscheinlichkeit; sie hängt vom kompletten Präfix <math>\bot, w_1, \ldots, w_{i-1}</math> ab. Um auch diesen Fall mit <math>N</math>-Grammen <math>\left(w_{i-N+1}, \ldots, w_i\right)</math> abdecken zu können, definiert man häufig <math>w_k := \bot</math> für <math>k \leq 0</math>.
Für <math>i < N</math> ergibt sich keine Vereinfachung der bedingten Wahrscheinlichkeit; sie hängt vom kompletten Präfix <math>\bot, w_1, \ldots, w_{i-1}</math> ab. Um auch diesen Fall mit <math>N</math>-Grammen <math>\left(w_{i-N+1}, \ldots, w_i\right)</math> abdecken zu können, definiert man häufig <math>w_k := \bot</math> für <math>k \leq 0</math>.


Die Modellparameter sind dann die bedingten Wahrscheinlichkeiten <math>P\left(w_N \mid w_1, \ldots, w_{N-1}\right)</math> für alle <math>N</math>-Gramme <math>\left(w_1, \ldots, w_N\right)</math>, die sich leicht als [[relative Häufigkeit]]en aus [[Textkorpus|Textkorpora]] abschätzen lassen. Vor allem für große <math>N</math> können bestimmte <math>N</math>-Gramme aber so selten sein, dass sie in einem betrachteten Korpus überhaupt nicht vorkommen (Beispiel: das 8-Gramm ''[[Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo]]''). Ein Großteil der Forschung zu <math>N</math>-Grammen hat sich daher mit Techniken (im Englischen ''{{lang|en|smoothing techniques}}'' genannt) beschäftigt, mit denen positive Wahrscheinlichkeiten auch für solche „unbeobachteten“ <math>N</math>-Gramme geschätzt werden können.<ref>Goldberg (2017), S.&nbsp;107</ref><ref>Collins (2013), Abschnitt&nbsp;1.4</ref><ref name="ChenGoodman1996"/>
Die Modellparameter sind dann die bedingten Wahrscheinlichkeiten <math>P\left(w_N \mid w_1, \ldots, w_{N-1}\right)</math> für alle <math>N</math>-Gramme <math>\left(w_1, \ldots, w_N\right)</math>, die sich leicht als [[relative Häufigkeit]]en aus [[Textkorpus|Textkorpora]] abschätzen lassen. Vor allem für große <math>N</math> können bestimmte <math>N</math>-Gramme aber so selten sein, dass sie in einem betrachteten Korpus überhaupt nicht vorkommen (Beispiel: das 8-Gramm ''[[Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo]]''). Ein Großteil der Forschung zu <math>N</math>-Grammen hat sich daher mit Techniken (im Englischen ''{{lang|en|smoothing techniques}}'' genannt) beschäftigt, mit denen positive Wahrscheinlichkeiten auch für solche „unbeobachteten“ <math>N</math>-Gramme geschätzt werden können.<ref>{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=107|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en}}</ref><ref>Collins (2013), Abschnitt&nbsp;1.4</ref><ref name="ChenGoodman1996"/>


Obwohl natürliche Sprache die Markov-Annahme im Allgemeinen nicht erfüllt, liefern bereits relativ kleine <math>N</math> gute Sprachmodelle. <math>N</math>-Gramme waren jahrzehntelang der dominierende Ansatz zur Sprachmodellierung.<ref name="Goldberg2017_106" />
Obwohl natürliche Sprache die Markov-Annahme im Allgemeinen nicht erfüllt, liefern bereits relativ kleine <math>N</math> gute Sprachmodelle. <math>N</math>-Gramme waren jahrzehntelang der dominierende Ansatz zur Sprachmodellierung.<ref name="Goldberg2017_106" />
Zeile 55: Zeile 55:
In neuralen Sprachmodellen werden die Wahrscheinlichkeiten <math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right)</math> von [[Künstliches neuronales Netz|künstlichen neuronalen Netzen]] berechnet. Statt Wahrscheinlichkeiten direkt abzuschätzen, werden also Parameter (Gewichte) des Netzes geschätzt. Die Berechnungsstruktur kann (etwa durch Verwendung von [[Softmax-Funktion|Softmax]] als [[Aktivierungsfunktion]] der letzten Schicht) so vorgegeben werden, dass Nullwahrscheinlichkeiten ausgeschlossen sind.
In neuralen Sprachmodellen werden die Wahrscheinlichkeiten <math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right)</math> von [[Künstliches neuronales Netz|künstlichen neuronalen Netzen]] berechnet. Statt Wahrscheinlichkeiten direkt abzuschätzen, werden also Parameter (Gewichte) des Netzes geschätzt. Die Berechnungsstruktur kann (etwa durch Verwendung von [[Softmax-Funktion|Softmax]] als [[Aktivierungsfunktion]] der letzten Schicht) so vorgegeben werden, dass Nullwahrscheinlichkeiten ausgeschlossen sind.


Auch neuralen Sprachmodellen kann die Markov-Annahme zugrunde liegen. Ein Ansatz, Wahrscheinlichkeiten von Trigrammen (3-Grammen) nicht direkt aus einem Korpus zu schätzen, sondern von einem neuronalen Netzwerk berechnen zu lassen, findet sich bereits 1988.<ref>{{Literatur|Autor=Masami Nakamura, Kiyohiro Shikano|Titel={{lang|en|A study of English word category prediction based on neural networks}}|Sammelwerk={{lang|en|Journal of the Acoustical Society of America}}|Band=84|Nummer=Nr.&nbsp;S1|Datum=1988|Seiten=60–61|DOI=10.1121/1.2026400|Online=https://watermark.silverchair.com/s60_6_online.pdf?token=AQECAHi208BE49Ooan9kkhW_Ercy7Dm3ZL_9Cf3qfKAc485ysgAABMwwggTIBgkqhkiG9w0BBwagggS5MIIEtQIBADCCBK4GCSqGSIb3DQEHATAeBglghkgBZQMEAS4wEQQMrdo0u645Gw4pVuU-AgEQgIIEf3B-PQ7r21otveFttQoL8yawFFQ5uwh12c-vibp5iU3phCQ17BrEIod_GFyOSBqCQZg485rkQYYk2WT9L0N3rID6dHQQXFPzMzgcXacTV6Vdu852spiIyLY7hhMLBHlFQLdEIU86nrjsS5apfqFzT6n7JvguVPU18g4UCOxuBiX6lUIGKNlXiBXFoW3-GVRvCKKQDUZMG1C2T9BINj2HzuxYwhSXgn0QBtJ3qBSRrILgxN3Bs2lIoine4N2o70cVb6-zkYKpzLIbvZO5DVQH9m26aHgJXfjGiwHX8Db9YmS0IN2Amu3hZb3jOMMPi7y9z4QJk76vJJXGY8B1fWyakX50Iv7RknaIULmcbXORXuLZj9NCidIN_9A6D0jchtq6EHMeu_NMeI3q0HuBecPAlwq1m3MgyC3Lb9HZeXCCZUYK185zXRGoAuAKbbxvhVKwfdzbXj07EKvjai44dsVe6S8qnUATswg25jb1qJpDbTeqEbOvi42Kl_edJZ5koLlTrtVzQc_aMu_RjK1sRmwHsw2vDQhlGzr_S1JxZ3YU2RVm473Fwybt6shYhPXGj2J17YaisVaj3uJCbCiDMhEUqmroF7nAzULL8WQAv0bknnmahVj3L3uw80G0dV1OKmXezY3asegL_3cpo_BnYCAQf4wPfcI-6b_-l9M55bNcMPvZS1OAisvf0ViblfekqYcQEVOoSJhEqjNNbhJcnw73-1Xcttwo5cfS4-FgTCM24BsM4Rind2Aw1aT-Zr3ZRD9FKU4hO9th2GgqsCe_CqF5j39NderCToIFMxW6MVS3L0Yta_JfC_EQow9JeQiDvj_7sHrYljZdXBniK6lheAY6MzdwojU1oSrqe1tBBMFDF3pwaNgMKYE13Knq6l687MKUhGueqO75Pn9uoOnQIMh1sySUNcRmTU7hQBb7YHOe9zTlOfyZ1DoSfu1Xlfjc5-sjRAgWd-EZtzDXvmhm08uIL5kEXS6W0ZXlS9AeGNNubEZiir8p-1Dl0DHsHNpdTL8yUx-H70_pBReSCzw0CRGtdGDMSTwiA_lipdEsUhLQcy5RLeh9h8vBOPPs0FOeQclMGbHF6eUDiQUbN6jX9s-3ABvee6yh5Ja3WNGhGgjykdTwXRzHCLMyTp9kgb3OD-R0BJ4ykAbzxnWUEr0wJoWwEuFE-iWyjpVeYP-HzXaIKxZOyCj9_wrOcf1dSAu2h01DNKRRrVBNO2Czr7-wbXwLrEzzzsDnm4kFop5dH9n2Du4Gp_kU0jvzyyPQp4xIo93rOnDA0rsfZBabrUY9jKHWNsf_8bKshh27S88R8FSN2zDHKmXr0xcFMroSihKH3MSbCWKWDUfcVT1kZ8I4HhNE1uJBz7stacFrSsjP877D90EB7BJcvecAhlpkfPkCRX5ET4HUBVjotUSJzqdX5PEKqoVeL5x9mT6aAffu5udU_QLHGYzeqWRdzBSHvIcUO4Vk-lE4scGN-Oe63Mr7Wr8uColiBoPhKeG6Zfo5rEscnqMlvNIFRRIFq6KKj1r2fUvW|Format=PDF|KBytes=842}}</ref> In einer neueren Architektur von [[Yoshua Bengio|Bengio]] et&nbsp;al. (2003) gibt es für jedes Element (Wort) und auch für den Start- und Endmarker je einen Parametervektor; zur Berechnung werden die Vektoren der <math>N - 1</math> Wörter aus dem Bedingungsteil (<math>w_{i-N+1}, \ldots, w_{i-1}</math>) konkateniert und über eine oder mehrere Netzwerkschichten ({{enS|hidden layers}}) in eine Wahrscheinlichkeitsverteilung für das nächste Wort (<math>w_i</math>) transformiert. Sowohl die Komponenten der Vektoren für die Wörter als auch die Gewichte der Netzwerkschichten werden als Modellparameter geschätzt.<ref>Goldberg (2017), S.&nbsp;109</ref><ref name="BengioDucharmeVincentJanvin2003">{{Literatur|Autor=[[Yoshua Bengio]], Réjean Ducharme, Pascal Vincent, Christian Janvin|Titel={{lang|en|A neural probabilistic language model}}|Sammelwerk={{lang|en|Journal of Machine Learning Research}}|Band=3|Datum=2003|ISSN=1532-4435|DOI=10.1007/10985687_6|Seiten=1137–1155|Online=https://proceedings.neurips.cc/paper_files/paper/2000/file/728f206c2a01bf572b5940d7d9a8fa4c-Paper.pdf|Format=PDF|KBytes=1523}}</ref> Die Wahrscheinlichkeiten <math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right)</math> werden also mit einer Formel (der Berechnungsvorschrift des neuronalen Netzes) berechnet, statt aus einer Tabelle zum Beispiel ausgezählter relativer Häufigkeiten abgelesen zu werden.
Auch neuralen Sprachmodellen kann die Markov-Annahme zugrunde liegen. Ein Ansatz, Wahrscheinlichkeiten von Trigrammen (3-Grammen) nicht direkt aus einem Korpus zu schätzen, sondern von einem neuronalen Netzwerk berechnen zu lassen, findet sich bereits 1988.<ref>{{Literatur|Autor=Masami Nakamura, Kiyohiro Shikano|Titel={{lang|en|A study of English word category prediction based on neural networks}}|Sammelwerk={{lang|en|Journal of the Acoustical Society of America}}|Band=84|Nummer=Nr.&nbsp;S1|Datum=1988|Seiten=60–61|DOI=10.1121/1.2026400|Online=https://watermark.silverchair.com/s60_6_online.pdf?token=AQECAHi208BE49Ooan9kkhW_Ercy7Dm3ZL_9Cf3qfKAc485ysgAABMwwggTIBgkqhkiG9w0BBwagggS5MIIEtQIBADCCBK4GCSqGSIb3DQEHATAeBglghkgBZQMEAS4wEQQMrdo0u645Gw4pVuU-AgEQgIIEf3B-PQ7r21otveFttQoL8yawFFQ5uwh12c-vibp5iU3phCQ17BrEIod_GFyOSBqCQZg485rkQYYk2WT9L0N3rID6dHQQXFPzMzgcXacTV6Vdu852spiIyLY7hhMLBHlFQLdEIU86nrjsS5apfqFzT6n7JvguVPU18g4UCOxuBiX6lUIGKNlXiBXFoW3-GVRvCKKQDUZMG1C2T9BINj2HzuxYwhSXgn0QBtJ3qBSRrILgxN3Bs2lIoine4N2o70cVb6-zkYKpzLIbvZO5DVQH9m26aHgJXfjGiwHX8Db9YmS0IN2Amu3hZb3jOMMPi7y9z4QJk76vJJXGY8B1fWyakX50Iv7RknaIULmcbXORXuLZj9NCidIN_9A6D0jchtq6EHMeu_NMeI3q0HuBecPAlwq1m3MgyC3Lb9HZeXCCZUYK185zXRGoAuAKbbxvhVKwfdzbXj07EKvjai44dsVe6S8qnUATswg25jb1qJpDbTeqEbOvi42Kl_edJZ5koLlTrtVzQc_aMu_RjK1sRmwHsw2vDQhlGzr_S1JxZ3YU2RVm473Fwybt6shYhPXGj2J17YaisVaj3uJCbCiDMhEUqmroF7nAzULL8WQAv0bknnmahVj3L3uw80G0dV1OKmXezY3asegL_3cpo_BnYCAQf4wPfcI-6b_-l9M55bNcMPvZS1OAisvf0ViblfekqYcQEVOoSJhEqjNNbhJcnw73-1Xcttwo5cfS4-FgTCM24BsM4Rind2Aw1aT-Zr3ZRD9FKU4hO9th2GgqsCe_CqF5j39NderCToIFMxW6MVS3L0Yta_JfC_EQow9JeQiDvj_7sHrYljZdXBniK6lheAY6MzdwojU1oSrqe1tBBMFDF3pwaNgMKYE13Knq6l687MKUhGueqO75Pn9uoOnQIMh1sySUNcRmTU7hQBb7YHOe9zTlOfyZ1DoSfu1Xlfjc5-sjRAgWd-EZtzDXvmhm08uIL5kEXS6W0ZXlS9AeGNNubEZiir8p-1Dl0DHsHNpdTL8yUx-H70_pBReSCzw0CRGtdGDMSTwiA_lipdEsUhLQcy5RLeh9h8vBOPPs0FOeQclMGbHF6eUDiQUbN6jX9s-3ABvee6yh5Ja3WNGhGgjykdTwXRzHCLMyTp9kgb3OD-R0BJ4ykAbzxnWUEr0wJoWwEuFE-iWyjpVeYP-HzXaIKxZOyCj9_wrOcf1dSAu2h01DNKRRrVBNO2Czr7-wbXwLrEzzzsDnm4kFop5dH9n2Du4Gp_kU0jvzyyPQp4xIo93rOnDA0rsfZBabrUY9jKHWNsf_8bKshh27S88R8FSN2zDHKmXr0xcFMroSihKH3MSbCWKWDUfcVT1kZ8I4HhNE1uJBz7stacFrSsjP877D90EB7BJcvecAhlpkfPkCRX5ET4HUBVjotUSJzqdX5PEKqoVeL5x9mT6aAffu5udU_QLHGYzeqWRdzBSHvIcUO4Vk-lE4scGN-Oe63Mr7Wr8uColiBoPhKeG6Zfo5rEscnqMlvNIFRRIFq6KKj1r2fUvW|Format=PDF|KBytes=842}}</ref> In einer neueren Architektur von [[Yoshua Bengio|Bengio]] et&nbsp;al. (2003) gibt es für jedes Element (Wort) und auch für den Start- und Endmarker je einen Parametervektor; zur Berechnung werden die Vektoren der <math>N - 1</math> Wörter aus dem Bedingungsteil (<math>w_{i-N+1}, \ldots, w_{i-1}</math>) konkateniert und über eine oder mehrere Netzwerkschichten ({{enS|hidden layers}}) in eine Wahrscheinlichkeitsverteilung für das nächste Wort (<math>w_i</math>) transformiert. Sowohl die Komponenten der Vektoren für die Wörter als auch die Gewichte der Netzwerkschichten werden als Modellparameter geschätzt.<ref>{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=109|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en}}</ref><ref name="BengioDucharmeVincentJanvin2003">{{Literatur|Autor=[[Yoshua Bengio]], Réjean Ducharme, Pascal Vincent, Christian Janvin|Titel={{lang|en|A neural probabilistic language model}}|Sammelwerk={{lang|en|Journal of Machine Learning Research}}|Band=3|Datum=2003|ISSN=1532-4435|DOI=10.1007/10985687_6|Seiten=1137–1155|Online=https://proceedings.neurips.cc/paper_files/paper/2000/file/728f206c2a01bf572b5940d7d9a8fa4c-Paper.pdf|Format=PDF|KBytes=1523}}</ref> Die Wahrscheinlichkeiten <math>P\left(w_i \mid \bot, w_1, \ldots, w_{i-1}\right)</math> werden also mit einer Formel (der Berechnungsvorschrift des neuronalen Netzes) berechnet, statt aus einer Tabelle zum Beispiel ausgezählter relativer Häufigkeiten abgelesen zu werden.


Vorteile dieser Modellierung gegenüber „gewöhnlichen“ <math>N</math>-Grammen sind:<ref>Goldberg (2017), S.&nbsp;109&nbsp;ff.</ref><ref name="BengioDucharmeVincentJanvin2003"/>
Vorteile dieser Modellierung gegenüber „gewöhnlichen“ <math>N</math>-Grammen sind:<ref>{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=109-|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en}}</ref><ref name="BengioDucharmeVincentJanvin2003"/>
* Das Modell kann deutlich weniger Parameter haben. Die Anzahl der <math>N</math>-Gramme über einem Vokabular (zum Beispiel Menge aller vorkommenden Wörter inklusive Start- und Endmarker) der Größe&nbsp;<math>k</math> beträgt <math>k^N</math>. Ein künstliches neuronales Netz der beschriebenen Form kann schon mit <math>k^2 d</math> Parametern auskommen, wobei <math>d</math> die Dimension der Parametervektoren für die Wörter ist.
* Das Modell kann deutlich weniger Parameter haben. Die Anzahl der <math>N</math>-Gramme über einem Vokabular (zum Beispiel Menge aller vorkommenden Wörter inklusive Start- und Endmarker) der Größe&nbsp;<math>k</math> beträgt <math>k^N</math>. Ein künstliches neuronales Netz der beschriebenen Form kann schon mit <math>k^2 d</math> Parametern auskommen, wobei <math>d</math> die Dimension der Parametervektoren für die Wörter ist.
* Das Modell kann (über die Parametervektoren jedes einzelnen Wortes) Wörter zusammenfassen, die ähnliche Auswirkungen auf die Wahrscheinlichkeit des folgenden Wortes haben. Beispielsweise braucht keine eigene Wahrscheinlichkeit dafür gespeichert zu werden, dass „Auto“ auf „blaues“, „grünes“, „rotes“ oder „schwarzes“ folgt – die Wahrscheinlichkeit ist jedes Mal ähnlich.
* Das Modell kann (über die Parametervektoren jedes einzelnen Wortes) Wörter zusammenfassen, die ähnliche Auswirkungen auf die Wahrscheinlichkeit des folgenden Wortes haben. Beispielsweise braucht keine eigene Wahrscheinlichkeit dafür gespeichert zu werden, dass „Auto“ auf „blaues“, „grünes“, „rotes“ oder „schwarzes“ folgt – die Wahrscheinlichkeit ist jedes Mal ähnlich.
Zeile 87: Zeile 87:
\end{alignedat}
\end{alignedat}
</math>
</math>
lauten. So wird sukzessive das jeweils nächste Element (Wort) bestimmt, bis die Wahl auf den Endmarker (<math>\bot</math>) fällt – dann endet die Sequenz.<ref>Goldberg (2017), S.&nbsp;112</ref>
lauten. So wird sukzessive das jeweils nächste Element (Wort) bestimmt, bis die Wahl auf den Endmarker (<math>\bot</math>) fällt – dann endet die Sequenz.<ref>{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=112|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en}}</ref>


Wenn nicht ''irgendeine'' Sequenz erzeugt werden soll, sondern ein Bezug zu Eingangsdaten gewünscht ist, etwa bei der [[Maschinelle Übersetzung|maschinellen Übersetzung]] (hier bestehen die Eingangsdaten aus dem zu übersetzenden Text in der Ausgangssprache), muss das Modell zusätzlich die Abhängigkeit von den Eingangsdaten ausdrücken. Die zu modellierenden Wahrscheinlichkeiten haben dann nicht nur die Form
Wenn nicht ''irgendeine'' Sequenz erzeugt werden soll, sondern ein Bezug zu Eingangsdaten gewünscht ist, etwa bei der [[Maschinelle Übersetzung|maschinellen Übersetzung]] (hier bestehen die Eingangsdaten aus dem zu übersetzenden Text in der Ausgangssprache), muss das Modell zusätzlich die Abhängigkeit von den Eingangsdaten ausdrücken. Die zu modellierenden Wahrscheinlichkeiten haben dann nicht nur die Form
Zeile 103: Zeile 103:


== Sprachmodelle und künstliche Intelligenz ==
== Sprachmodelle und künstliche Intelligenz ==
Laut [[Yoav Goldberg]] kann die Fähigkeit, das nächste Wort nach einer vorgegebenen Folge von Wörtern mit großer Genauigkeit vorherzusagen, als Indikator für Intelligenz auf menschlichem Niveau gesehen werden, da auch jedes Präfix der Form „Die Antwort auf Frage ''X'' ist“ vervollständigt werden können müsse und die Lösung dieser Aufgabe daher nicht nur Ausnutzung linguistischer Regularitäten, sondern auch eine große Menge an Weltwissen erfordere.<ref>siehe Goldberg, 2017, S.&nbsp;105, dort insbesondere Fußnote&nbsp;2</ref>
Laut [[Yoav Goldberg]] kann die Fähigkeit, das nächste Wort nach einer vorgegebenen Folge von Wörtern mit großer Genauigkeit vorherzusagen, als Indikator für Intelligenz auf menschlichem Niveau gesehen werden, da auch jedes Präfix der Form „Die Antwort auf Frage ''X'' ist“ vervollständigt werden können müsse und die Lösung dieser Aufgabe daher nicht nur Ausnutzung linguistischer Regularitäten, sondern auch eine große Menge an Weltwissen erfordere.<ref>{{Literatur|Autor=Yoav Goldberg|Titel={{lang|en|Neural Network Methods for Natural Language Processing}}|Reihe=Synthesis Lectures on Human Language Technologies|NummerReihe=37|HrsgReihe=Graeme Hirst|Verlag=Morgan&nbsp;&amp;&nbsp;Claypool Publishers|Datum=2017|Kapitel={{lang|en|Chapter&nbsp;9&nbsp;''Language Modeling''}}|Seiten=105|DOI=10.2200/S00762ED1V01Y201703HLT037|ISBN=9781627052955|Sprache=en|Kommentar=insbesondere Fußnote&nbsp;2}}</ref>


== Literatur ==
== Literatur ==
Zeile 111: Zeile 111:
== Einzelnachweise ==
== Einzelnachweise ==
<references/>
<references/>

== Anmerkungen ==
<references group="A" />


[[Kategorie:Mathematische Modellierung]]
[[Kategorie:Mathematische Modellierung]]

Version vom 7. Juli 2023, 19:33 Uhr

Dieser Artikel wurde zur Löschung vorgeschlagen.

Falls du Autor des Artikels bist, lies dir bitte durch, was ein Löschantrag bedeutet, und entferne diesen Hinweis nicht.
Zur Löschdiskussion

Begründung: keine eigenständige Relevanz, unverständlich geschrieben und fast ausschließlich mit Primärquellen belegt

Ein Sprachmodell[A 1] (englisch language model) ist ein mathematisches Modell, das die Abfolge von Elementen in einer Sequenz (zum Beispiel von Buchstaben oder Wörtern in natürlichsprachlichen Texten) modelliert, meist in Form eines stochastischen Prozesses.

Sprachmodelle spielen eine zentrale Rolle im modernen Natural language processing und sind eine entscheidende Komponente dortiger Praxisanwendungen, etwa zur maschinellen Übersetzung oder Spracherkennung.[1][2] Auch ChatGPT ist ein Sprachmodell.

Mathematische Beschreibung

Sprachmodelle modellieren Sequenzen (zum Beispiel Sätze) als Abfolgen von Elementen (zum Beispiel Buchstaben oder Wörtern). In stochastischen Sprachmodellen sind diese Elemente Zufallsgrößen und bilden einen zeitdiskreten stochastischen Prozess. Um dasselbe Modell für Sequenzen unterschiedlicher Länge  einsetzen zu können, werden ihr Beginn und ihr Ende typischerweise durch zusätzliche Zufallsgrößen und markiert, die einen speziellen Wert (mögliche Notation: ) annehmen. Die Wahrscheinlichkeit einer konkreten Sequenz lässt sich dann formulieren als die Wahrscheinlichkeit der Konjunktion

.

Eine häufige Kurzschreibweise[A 2] für diese Wahrscheinlichkeit lautet

.

Nach dem Gesetz der totalen Wahrscheinlichkeit lässt sich diese Wahrscheinlichkeit auch so schreiben:

Oder kurz:

.

In Worten: Die Wahrscheinlichkeit der Sequenz ist das Produkt der Wahrscheinlichkeiten für das jeweils nächste Element gegeben die bisherigen Elemente.

Da in der Modellierung für stets der Wert verwendet wird ( fast sicher), gilt . Der entsprechende Faktor kann daher entfallen.

Unterschiedliche Arten stochastischer Sprachmodelle unterscheiden sich darin, wie sie die bedingten Wahrscheinlichkeiten modellieren. Der Fall wird dabei häufig nicht gesondert betrachtet, sondern so getan, als ob auch ein gültiges Sequenzelement (zum Beispiel ein Wort) wäre.

-Gramme

Die Modellierung der bedingten Wahrscheinlichkeiten muss mit beliebig langen Sequenzen im Bedingungsteil umgehen können ( kann beliebig groß sein). Es stehen aber nur endlich viele Modellparameter zur Verfügung. Ein klassischer Umgang damit ist die Markov-Annahme (englisch markov assumption), laut der die Wahrscheinlichkeit des nächsten Elements nur von einer begrenzten Anzahl unmittelbar vorhergehender Elemente abhängt[3] (Markow-Kette -ter Ordnung). Die Wahrscheinlichkeit, dass auf folgt, hängt (für ) also nur von ab:[A 3]

.

Die -Tupel werden -Gramme genannt.

Für ergibt sich keine Vereinfachung der bedingten Wahrscheinlichkeit; sie hängt vom kompletten Präfix ab. Um auch diesen Fall mit -Grammen abdecken zu können, definiert man häufig für .

Die Modellparameter sind dann die bedingten Wahrscheinlichkeiten für alle -Gramme , die sich leicht als relative Häufigkeiten aus Textkorpora abschätzen lassen. Vor allem für große können bestimmte -Gramme aber so selten sein, dass sie in einem betrachteten Korpus überhaupt nicht vorkommen (Beispiel: das 8-Gramm Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo). Ein Großteil der Forschung zu -Grammen hat sich daher mit Techniken (im Englischen smoothing techniques genannt) beschäftigt, mit denen positive Wahrscheinlichkeiten auch für solche „unbeobachteten“ -Gramme geschätzt werden können.[4][5][2]

Obwohl natürliche Sprache die Markov-Annahme im Allgemeinen nicht erfüllt, liefern bereits relativ kleine gute Sprachmodelle. -Gramme waren jahrzehntelang der dominierende Ansatz zur Sprachmodellierung.[3]

Neurale Sprachmodelle

In neuralen Sprachmodellen werden die Wahrscheinlichkeiten von künstlichen neuronalen Netzen berechnet. Statt Wahrscheinlichkeiten direkt abzuschätzen, werden also Parameter (Gewichte) des Netzes geschätzt. Die Berechnungsstruktur kann (etwa durch Verwendung von Softmax als Aktivierungsfunktion der letzten Schicht) so vorgegeben werden, dass Nullwahrscheinlichkeiten ausgeschlossen sind.

Auch neuralen Sprachmodellen kann die Markov-Annahme zugrunde liegen. Ein Ansatz, Wahrscheinlichkeiten von Trigrammen (3-Grammen) nicht direkt aus einem Korpus zu schätzen, sondern von einem neuronalen Netzwerk berechnen zu lassen, findet sich bereits 1988.[6] In einer neueren Architektur von Bengio et al. (2003) gibt es für jedes Element (Wort) und auch für den Start- und Endmarker je einen Parametervektor; zur Berechnung werden die Vektoren der Wörter aus dem Bedingungsteil () konkateniert und über eine oder mehrere Netzwerkschichten (englisch hidden layers) in eine Wahrscheinlichkeitsverteilung für das nächste Wort () transformiert. Sowohl die Komponenten der Vektoren für die Wörter als auch die Gewichte der Netzwerkschichten werden als Modellparameter geschätzt.[7][8] Die Wahrscheinlichkeiten werden also mit einer Formel (der Berechnungsvorschrift des neuronalen Netzes) berechnet, statt aus einer Tabelle zum Beispiel ausgezählter relativer Häufigkeiten abgelesen zu werden.

Vorteile dieser Modellierung gegenüber „gewöhnlichen“ -Grammen sind:[9][8]

  • Das Modell kann deutlich weniger Parameter haben. Die Anzahl der -Gramme über einem Vokabular (zum Beispiel Menge aller vorkommenden Wörter inklusive Start- und Endmarker) der Größe  beträgt . Ein künstliches neuronales Netz der beschriebenen Form kann schon mit Parametern auskommen, wobei die Dimension der Parametervektoren für die Wörter ist.
  • Das Modell kann (über die Parametervektoren jedes einzelnen Wortes) Wörter zusammenfassen, die ähnliche Auswirkungen auf die Wahrscheinlichkeit des folgenden Wortes haben. Beispielsweise braucht keine eigene Wahrscheinlichkeit dafür gespeichert zu werden, dass „Auto“ auf „blaues“, „grünes“, „rotes“ oder „schwarzes“ folgt – die Wahrscheinlichkeit ist jedes Mal ähnlich.
  • Das Modell kann (über die Gewichte der hidden layers) verschiedenen Wörtern unterschiedlich starken Einfluss auf die Wahrscheinlichkeit des folgenden Wortes zumessen, beispielsweise nähere Wörter stärker gewichten als weiter entfernte.

Mithilfe rekurrenter neuronaler Netze wie LSTMs ist es sogar möglich, auf die Markov-Annahme zu verzichten. Dabei wird die komplette Sequenz vom neuronalen Netz verarbeitet, um die Wahrscheinlichkeitsverteilung für das -te Wort zu berechnen. Die Transformer-Architektur[10] wurde speziell für diese Aufgabe entwickelt.

Generierung mit Sprachmodellen

Stochastische Sprachmodelle berechnen Wahrscheinlichkeiten von Sequenzen als Produkt der bedingten Wahrscheinlichkeiten jedes einzelnen Elements gegeben die jeweils vorhergehenden Elemente. Aus der so spezifizierten Wahrscheinlichkeitsverteilung können umgekehrt auch Sequenzen erzeugt werden (englisch sampling). Dazu wird zunächst das erste Element (zum Beispiel das erste Wort in einem Satz) entsprechend der Verteilung bestimmt. Ist beispielsweise

so wird mit Wahrscheinlichkeit das Wort „Der“ als erstes Wort gewählt, mit Wahrscheinlichkeit das Wort „Die“ und mit Wahrscheinlichkeit das Wort „Das“. Ist das erste Element (Wort) gewählt, wird analog das zweite entsprechend der Verteilung bestimmt. Wurde im obigen Beispiel etwa das Wort „Die“ gewählt, so könnten diese Wahrscheinlichkeiten

lauten. So wird sukzessive das jeweils nächste Element (Wort) bestimmt, bis die Wahl auf den Endmarker () fällt – dann endet die Sequenz.[11]

Wenn nicht irgendeine Sequenz erzeugt werden soll, sondern ein Bezug zu Eingangsdaten gewünscht ist, etwa bei der maschinellen Übersetzung (hier bestehen die Eingangsdaten aus dem zu übersetzenden Text in der Ausgangssprache), muss das Modell zusätzlich die Abhängigkeit von den Eingangsdaten ausdrücken. Die zu modellierenden Wahrscheinlichkeiten haben dann nicht nur die Form

,

sondern

für Eingangsdaten . In neueren Architekturen wird das mitunter bewerkstelligt, indem mit der Generierung der Ausgabesequenz nicht beim Startmarker begonnen wird, sondern als „Fortsetzung“ einer Eingabesequenz, getrennt durch ein weiteres spezielles Element (mögliche Notation: ).[12] Soll beispielsweise der englische Satz Time flies like an arrow ins Deutsche übersetzt werden, so beginnt die Generierung der deutschen Übersetzung als „Fortführung“ der Sequenz

,

das erste Wort der deutschen Ausgabe richtet sich nach der Verteilung

und so weiter.

Auch GPT-Architekturen zur Sprachgenerierung, auf denen unter anderem ChatGPT basiert, nutzen diese Strategie.[13]

Sprachmodelle und künstliche Intelligenz

Laut Yoav Goldberg kann die Fähigkeit, das nächste Wort nach einer vorgegebenen Folge von Wörtern mit großer Genauigkeit vorherzusagen, als Indikator für Intelligenz auf menschlichem Niveau gesehen werden, da auch jedes Präfix der Form „Die Antwort auf Frage X ist“ vervollständigt werden können müsse und die Lösung dieser Aufgabe daher nicht nur Ausnutzung linguistischer Regularitäten, sondern auch eine große Menge an Weltwissen erfordere.[14]

Literatur

Einzelnachweise

  1. Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 105, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch).
  2. a b Stanley Chen, Joshua Goodman: An Empirical Study of Smoothing Techniques for Language Modeling. In: Aravind Joshi, Martha Palmer (Hrsg.): Proceedings of the 34th Annual Meeting of the ACL. Juni 1996 (englisch, arxiv.org [PDF; 227 kB]).
  3. a b Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 106, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch).
  4. Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 107, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch).
  5. Collins (2013), Abschnitt 1.4
  6. Masami Nakamura, Kiyohiro Shikano: A study of English word category prediction based on neural networks. In: Journal of the Acoustical Society of America. Band 84, Nr. S1, 1988, S. 60–61, doi:10.1121/1.2026400 (silverchair.com [PDF; 842 kB]).
  7. Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 109, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch).
  8. a b Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Janvin: A neural probabilistic language model. In: Journal of Machine Learning Research. Band 3, 2003, ISSN 1532-4435, S. 1137–1155, doi:10.1007/10985687_6 (neurips.cc [PDF; 1,6 MB]).
  9. Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 109-, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch).
  10. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, Illia Polosukhin: Attention Is All You Need. In: 31st Conference on Neural Information Processing Systems. 2017 (neurips.cc [PDF; 556 kB]).
  11. Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 112, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch).
  12. Peter Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Łukasz Kaiser, Noam Shazeer: Generating Wikipedia by Summarizing Long Sequences. 2018, S. 5, doi:10.48550/arXiv.1801.10198 (arxiv.org [PDF; 1,2 MB]).
  13. Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever: Improving Language Understanding by Generative Pre-Training. 2018, S. 4 (openai.com [PDF; 528 kB]).
  14. Yoav Goldberg: Neural Network Methods for Natural Language Processing (= Graeme Hirst [Hrsg.]: Synthesis Lectures on Human Language Technologies. Nr. 37). Morgan & Claypool Publishers, 2017, ISBN 978-1-62705-295-5, Chapter 9 Language Modeling, S. 105, doi:10.2200/S00762ED1V01Y201703HLT037 (englisch, insbesondere Fußnote 2).

Anmerkungen

  1. Wie meistens in der moderen Informatik ist auch hier die englische Bezeichnung präsenter. Die deutsche Bezeichnung Sprachmodell findet sich beispielhaft in:
  2. so auch in Goldberg (2017) verwendet, allerdings teilweise ohne Start- und Endmarker; der Startmarker ist dort ansonsten <s> statt und der Endmarker </s>; bei Collins (2013) heißt der Endmarker STOP
  3. Je nachdem, ob selbst mitgezählt wird oder nicht, kann es auch sein. Dieser Artikel verwendet die bei -Grammen übliche Konvention, dass mitgezählt wird, d. h. Unigramme (1-Gramme) betrachten die Wahrscheinlichkeiten der Elemente völlig unabhängig von ihrem Kontext.