· 3 min read
Hey Neo, kannst du mir helfen, die Absichten dieser kroatischen Aussagen zu klassifizieren?
Absichtsklassifizierung - Cross-linguales Transfer Learning
Studien über Modelle zur Absichtsklassifikation in aufgabenorientierten Dialogen konzentrieren sich hauptsächlich auf einsprachige Umgebungen - Training auf annotierten englischen Daten und Auswertung auf annotierten englischen Daten. Wenn wir jedoch an einem aufgabenorientierten Dialogsystem mit ressourcenarmen Sprachen (z.B. Kroatisch, Polnisch) oder an mehrsprachigen Fällen (d.h. ein einziges Modell kann mit 3+ Sprachen arbeiten) arbeiten wollen, stellt sich die Frage, wie wir das Modell ohne oder mit kaum annotierten Daten auf den ressourcenarmen Zielsprachen effizient trainieren können.
Ein intuitiver Ansatz ist der Weg des Cross-lingualen Transferlernens (CLTL), eine praktikable Methode zur Erstellung von NLP-Modellen für ressourcenarme Zielsprachen durch die Nutzung von gelabelten Daten aus anderen (Ausgangs-)Sprachen. Der sprachübergreifende Transfer bezieht sich auf das Transferlernen unter Verwendung von Daten und Modellen, die in einer Sprache verfügbar sind, die über ausreichende Ressourcen verfügt (z. B. Englisch), um Aufgaben in einer anderen, in der Regel ressourcenärmeren Sprache zu lösen (z. B. Kroatisch). Der Sprachtransfer erfordert die Darstellung von Texten aus der Ausgangs- und der Zielsprache in einem gemeinsamen sprachübergreifenden Raum. In den letzten Jahren haben sich Sprachtransfermethoden, die auf kontinuierlichen Repräsentationsräumen basieren, stark verbreitet. Der bisherige Stand der Technik, Cross-linguale Worrd Embeddings (CLWEs) [1] und Sentence Embeddings [2], wurden vor kurzem durch (massiv) mehrsprachige Transformer-Modelle (MMTs) abgelöst, die mit Sprachmodellen (LMs) trainiert wurden (z. B. mBERT [3], XLM-R [4]). Da MMTs auf großen mehrsprachigen (d.h. mehr als 100 Sprachen) Textkorpora vortrainiert werden, sind sie reich an mehrsprachigen Fähigkeiten für den Cross-lingualen Transfer (z.B. vom Englischen ins Kroatische).
Wir können den Cross-lingualen Transfer entweder durch Zero-Shot- oder Few-Shot-Lernen erreichen, um ohne oder nur mit wenigen annotierten Daten in der Zielsprache zu trainieren. Oder wir konzentrieren uns auf den mehrsprachigen (multi-lingualen) Transfer, indem wir Trainingsdaten in mehreren Ausgangssprachen nutzen, um die Leistung in der Zielsprache weiter zu verbessern. Wie in der folgenden Abbildung dargestellt, können wir ein Modell zur Absichtsklassifikation leicht auf Englisch trainieren, da es reichhaltige annotierte Daten und PLMs enthält (z. B. bert-base-cased auf Englisch). Bislang gibt es jedoch kein PLM auf Kroatisch. Daher können wir mehrsprachige vortrainierte Transformer (z. B. mBERT, XLM-R) verwenden, um den Cross-lingualen Transfer durch Zero-Shot- oder Few-Shot- oder multilinguale Transfer-Setups mit Trainingsdaten in mehreren Ausgangssprachen weiterzuführen.
Überblick über die monolinguale, cross-linguale und multilinguale Setups zum Trainieren eines Modells in Kroatisch
Vortrainierte Sprachmodelle
Vortrainierte Sprachmodelle (PLMs) können leicht über Huggingface [5] genutzt werden:
- Monolingual: bert-base-cased, bert-base-german-cased
- Bilingual: Helsinki-NLP/opus-mt-en-de,
- Multilingual: bert-base-multilingual-cased, xlm-roberta-base
Weitere Details können der Dokumentation [6] entnommen werden, einschließlich der Verwendung von Modellen, der detaillierten Implementierung verschiedener nachgelagerter Aufgaben und der Flexibilität effizienter Trainingsmethoden.
[1] Goran Glavaš, Robert Litschko, Sebastian Ruder, and Ivan Vulić. 2019. How to (properly) evaluate cross-lingual word embeddings: On strong baselines, comparative analyses, and some misconceptions. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 710–721.
[2] Mikel Artetxe and Holger Schwenk. 2019. Massively multilingual sentence embeddings for zeroshot cross-lingual transfer and beyond. Transactions of the Association for Computational Linguistics, 7:597–610.
[3] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186.
[4] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettle-moyer, and Veselin Stoyanov. 2020. Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440-8451, Online.
[5] HuggingFace models: https://huggingface.co/models
[6] HuggingFace docs: https://huggingface.co/docs