Erkärbares maschinelles Lernen mit Wissensgraphen und OWL Ontologien.

8 months ago

Mit der zunehmenden Verbreitung von Modellen der Künstlichen Intelligenz (KI) wächst besonders in der Industrie der Bedarf, ihre Ergebnisse auch für Nicht-Machine-Learning-Experten (Machine-Learning, ML) verständlich zu machen. Domänenexpertinen erwarten eine Einordnung, warum eine vom ML Model vorgeschlagene Aktion sinnvoll sei. Für ein erklärbares KI-System ist es notwendig, aus nicht-sprachlichen Daten automatisch kohärente Erklärungen in natürlichsprachlichen Texten zu generieren. In unserem Projekt RAKI werden die nicht-linguistischen Daten als Wissensgraphen (Knowledge Graphs, KGs) und Web-Ontology Language (OWL) dargestellt. Der Prozess der automatischen Textgenerierung wird Natural Language Generation (NLG) genannt (Reiter, 2000). NLG-Ansätze umfassen (i) regelbasierte Ansätze, (ii) modulare statistische Ansätze, die den Prozess in drei Phasen (Planung, Auswahl und Oberflächenrealisierung) unterteilen und für eine oder mehrere dieser Phasen datengesteuerte Ansätze verwenden, (iii) hybride Ansätze, die auf einer Kombination aus handgefertigten Regeln und Korpusstatistiken beruhen, und (iv) die neueren auf neuronalen Netzen basierenden Modelle.

Seit einiger Zeit gibt es ein verstärktes Interesse an der Entwicklung von NLG-Systemen, die sich auf die Verbalisierung von in KGs vorhandenen Statements konzentrieren (Gardent et al., 2017). KGs speichern faktisches Wissen in strukturierten Daten mit Beziehungen zwischen Ressourcen. KGs bestehen jedoch in der Regel aus Beschreibungssprachen, die sich auf Visionen des Semantic Web wie RDF, SPARQL und OWL stützen, und in einigen wenigen Arbeiten wurde die Verwendung von OWL zur Unterstützung der Erklärbarkeit von ML-Modellen untersucht. Obwohl OWL-Klassenausdrücke für nicht fachkundige Benutzer recht schwer zu verstehen sind, kann OWL dennoch verwendet werden, um die Daten zu repräsentieren und somit Entscheidungen zu unterstützen, die von ML-Modellen getroffen werden. Während zum Beispiel die Bedeutung des OWL-Klassenausdrucks "Class: Professor SubClassOf: worksAt SOME University" für jeden Semantic Web-Experten offensichtlich ist, ist dieser Ausdruck („Jeder Professor arbeitet an einer Universität“) für Laien eher schwer zu verstehen.

Die DICE-Gruppe hat auf diesem Gebiet gearbeitet und mehrere Arbeiten im NLG-Bereich bezüglich Semantic-Web-Technologien veröffentlicht. DICE ist daher für die Erstellung von Erklärungen von ML-Aktionen im RAKI-Projekt verantwortlich. Die Ergebnisse einer kürzlich von DICE veröffentlichten Arbeit mit dem Namen LD2NL (A Holistic Natural Language Generation Framework for the Semantic Web) deuten darauf hin, dass LD2NL, obwohl die Generierung von Erklärungen auf der Grundlage von KGs und OWL noch in den Kinderschuhen steckt, Verbalisierungen generieren kann, die natürlichen Sprachen nahe kommen, und dass diese auch von Nicht-Experten leicht verstanden werden können. Darüber hinaus ermöglicht es LD2NL Nicht-Domänenexperten, KI-Aktionen mit mehr als 91% der Genauigkeit von Domänenexperten zu interpretieren.

Weitere Schritte in RAKI umfassen die Schaffung neuer NLG-Ansätze zur Behandlung von Daten aus unterschiedlichen Industriebereichen sowie die Berücksichtigung komplexer OWL-Klassenausdrücke, die durch die Verarbeitung von ML-Aktionen während des Betriebs erzeugt werden.