· 4 min read

Hey Neo, ich möchte ein Zugticket und ein Hotelzimmer buchen! - Domänenadaption (Domain Adaptation)

Wie ein Chatbot komplexe Aufgaben mit einem aufgabenorientierten Multidomänen-Dialogsystem löst

Sprachassistenten und Chatbots müssen in unserem Alltag oft komplexe Aufgaben lösen. Wenn Sie eine Reise nach Berlin planen, möchten Sie womöglich ein Flugticket und zusätzlich ein Hotelzimmer buchen. Oder wenn Sie einen Tisch im Restaurant reservieren wollen, brauchen Sie unter Umständen auch ein Taxi, um dorthin zu gelangen. Ein aufgabenorientiertes Multidomänen-Dialogsystem (TOD, orientiert am Englischen “multi-domain task-oriented dialog”) hilft dem Chatbot, genau zu wissen, was der Benutzer braucht, und hat eine breite Palette von Anwendungsszenarien in unserem täglichen Leben. Die Idee, entweder einen aufgabenorientierten Multidomänen-Dialogdatensatz zu erstellen [1][2] oder die Multidomain-Datensätze zu nutzen, um ein aufgabenorientiertes Dialogsystem zu entwickeln, hat in den letzten Jahren sowohl in der Forschung als auch in der Industrie Anwendungen gefunden.

In diesem Blogbeitrag möchten wir Domänenspezialisierungsstrategien im Allgemeinen in NLP-Feldern und die jüngsten Arbeiten zur Domänenadaption für aufgabenorientierte Dialogsysteme vorstellen, um domänenspezifisches bzw. fachspezifisches Wissen in das Modell hinter dem Chatbot zu injizieren.

Methodik

Sprachmodelle (LMs), die auf allgemeinen Domänen von Interesse vortrainiert wurden, sind in einer Vielzahl von nachgelagerten NLP-Aufgaben eingesetzt worden (z.B. BERT, RoBERTa). Die Berücksichtigung domäneninterner Belange für das nachgelagerte domänenspezifische Szenario bietet jedoch noch Raum für Verbesserungen.

Gururangan et al. (2020) [3] schlugen den “Domain-Adaptive Pretraining”-Ansatz vor, bei dem sie ein Sprachmodell auf einem großen Korpus von unbeschriftetem domänenspezifischem Text mit dem Ziel der maskierten Sprachmodellierung (MLM) vortrainierten und die Effektivität der Injektion von domänenspezifischem Wissen in das vortrainierte Sprachmodell bei den Klassifizierungsaufgaben von vier Domänen nachwiesen. Ein ähnlicher Ansatz wird auch auf die Erkennung von Hassreden (hate speech) [4] angewandt und auf das mehrsprachige Szenario mit den ausgewählten domäneninternen Begriffen zur Extraktion von domäneninternen unüberwachten Texten erweitert.

Im engeren Kontext des aufgabenorientierten Dialogs haben Wu et al. (2020) [5] das Sprachmodell auf der Verkettung von neun Mensch-zu-Mensch-Multi-Turn-Dialogdatensätzen mit MLM- und Response-Contrastive-Loss (RCL)-Zielen vortrainiert und die Effektivität bei mehreren nachgelagerten TOD-Aufgaben nachgewiesen. Auf diese Weise wird intuitiv die strukturelle Information der Konversation in ein vortrainiertes Sprachmodell eingespeist, wobei TOD-Datensätze anstelle von unüberwachten “einfachen” Texten (z.B. Wikipedia) verwendet werden.

Henderson et al. (2020) [6] präsentierten die allgemeine Domänenspezialisierung für TOD auf der großen Sammlung von Reddit-Daten zum Ziel der Antwortauswahl (RS), die ebenfalls dazu beiträgt, die strukturellen Konversationsinformationen in das vortrainierte Sprachmodell zu integrieren. Whang et al. (2020) [7] nutzten die Domänenspezialisierung für die auf einer einzigen Domäne basierende TOD auf In-Domain-Korpora, gepaart mit MLM und dem Ziel der Antwortauswahl (RS) als Post-Training-Ansatz.

Zusammenfassend lässt sich sagen, dass die Methoden der Domänenspezialisierung und das aufgabenorientierte Mehrdomänen-Dialogsyste bei der Lösung komplexer Aufgaben unterstützen. Die aktuelle Forschung geht hierbei weiter in die Richtung, wie man domänenspezifisches Wissen effizient in vortrainierte Sprachmodelle für aufgabenorientierte Multidomänen-Dialogsysteme adaptieren kann und bleibt für zukünftige Arbeiten offen.

[1] Paweł Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan, and Milica Gašić. (2018). MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 5016–5026, Brussels, Belgium. Association for Computational Linguistics.

[2] Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, and Pranav Khaitan. (2020). Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset. In Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 8689-8696.

[3] Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A. Smith. (2020). Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8342–8360, Online. Association for Computational Linguistics.

[4] Goran Glavaš, Mladen Karan, and Ivan Vulić. (2020). XHate-999: Analyzing and detecting abusive language across domains and languages. In Proceedings of the 28th International Conference on Computational Linguistics, pages 6350–6365, Barcelona, Spain (Online). International Committee on Computational Linguistics.

[5] Chien-Sheng Wu, Steven C.H. Hoi, Richard Socher, and Caiming Xiong. (2020). TOD-BERT: Pre-trained natural language understanding for task-oriented dialogue. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing(EMNLP), pages 917–929, Online. Association for Computational Linguistics.

[6] Matthew Henderson, Iñigo Casanueva, Nikola Mrkšić, Pei-Hao Su, Tsung-Hsien Wen, and Ivan Vulić. (2020). ConveRT: Efficient and Accurate Conversational Representations from Transformers. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 2161–2174, Online. Association for Computational Linguistics.

[7] Taesun Whang, Dongyub Lee, Chanhee Lee, Kisu Yang, Dongsuk Oh, and HeuiSeok Lim. (2020). An effective domain adaptive post-training method for bert in response selection. In Proc. Interspeech 2020, pages 1585–1589.

Share:
Zurück zu Blog