Lage
Die Arbeit eines Anwalts besteht oft darin, eine große Anzahl von Verträgen zu sichten. In einer idealen Situation, in der jedes Dokument sorgfältig und konsistent kategorisiert wurde, ist diese Aufgabe einfach. Die meisten Unternehmen sind jedoch weit von diesem Idealzustand entfernt.
Unser Kunde, die Rechtsabteilung eines Dienstleistungsunternehmens, musste sich mit einer großen Datenbank unstrukturierter Rechtsdokumente auseinandersetzen, in der der Zeitaufwand für die Extraktion von Vertragsinformationen in den letzten Jahren erheblich gestiegen war. Sobald ein Dokument gefunden war, war es relativ einfach, es zu analysieren. Unter Tausenden von Dokumenten versteckt, war es jedoch so schwierig, eine bestimmte Vertragsinformation zu finden, dass unser Kunde befürchtete, strategische Informationen zu übersehen und damit dem Unternehmen zu schaden.
Ansatz
Unser Open Web Technology-Team unterstützte unseren Kunden bei der Konzeption und Entwicklung einer Lösung, mit der diese große Vertragsdatenbank analysiert und kategorisiert werden konnte, um den Benutzern die Suche zu ermöglichen.
Wir nutzten die Vorteile, die uns unser Joint Venture mit Swisscom bietet, um gemeinsam eine innovative und intelligente Lösung zu entwickeln. Diese Lösung konnte von den neuesten Fortschritten bei den KI-Algorithmen profitieren, um Dokumente effizient zu analysieren und zu kategorisieren, und bot ein Frontend zur intuitiven Abfrage des generierten Dokumentenmodells.
In einem ersten Schritt musste unsere Lösung den Inhalt der gescannten Dokumente lesen. Wir sammelten die Verträge aus verschiedenen Archivierungssystemen und extrahierten ihren Text mithilfe modernster OCR-Technologien. Mit diesem Textinhalt wendeten wir dann Techniken zur Verarbeitung natürlicher Sprache sowohl für die Kategorisierung von Dokumenten als auch für die Inferenz von Dokumentbeziehungen an.
Lernen der Dokumentenkategorie
Um Aufgaben des maschinellen Lernens durchführen zu können, muss ein Computer mit einer digitalen Darstellung des Vertrags umgehen. Die Umwandlung von Text in ein mathematisches Objekt wird als Dokumenteneinbettung bezeichnet.
Da jedes Dokument als mathematisches Objekt dargestellt wird, kann ein Computer die Abstände zwischen den Objekten messen und die engsten Nachbarn zusammenfassen. Dieser Schritt wird als Clustering bezeichnet. In unserem Fall stellen diese Gruppen Dokumente desselben Typs dar.
Schließlich könnte das System die von unserem Clustering-Algorithmus erzeugten Kategorien speichern, so dass der Jurist nach Dokumentenkategorien suchen kann.
Visualisierung des Clusterns von mehr als 1000 Dokumenten nach Vertragstypen
Ableitung von Beziehungen zwischen Dokumenten
Um Beziehungen zwischen Dokumenten zu erkennen, nutzten wir die Gewohnheit von Autoren, gemeinsame Muster zu verwenden, wenn sie sich auf ähnliche Dokumente beziehen. Dies kann erkannt werden und führt zu einem Arbeitsablauf für die Inferenz von Dokumentenbeziehungen:
Der Algorithmus könnte jedes Dokument analysieren und versuchen, erwähnte Dokumente zu erkennen, indem er entweder reguläre Ausdrücke oder benannte Entitäten erkennt.
Wurde ein Verweis gefunden, suchte der Algorithmus in der Datenbank, ob die erwähnten Dokumente identifiziert worden waren.
Ausgehend von der Dokumentenkategorie konnte die Beziehung zwischen den beiden Dokumenten abgeleitet werden, so dass unser Programm nach und nach eine Liste von Dokumenten erstellen konnte, die sich gegenseitig erwähnen.
Diese Liste könnte auch in einer Datenbank gespeichert werden, um später von den Juristen abgefragt zu werden.
Nachdem sowohl die Dokumentenkategorie als auch die Beziehung zwischen den Dokumenten ermittelt wurden, brauchte der Jurist nur noch die Lösung zu benutzen, um auf diese große Menge an Informationen zuzugreifen.
Die von uns entwickelte Lösung zeigt, wie künstliche Intelligenz die Unternehmenswelt verändern kann, indem sie mühsame und sich wiederholende Arbeiten automatisiert, damit die Mitarbeiter mehr Zeit für wertvollere Aufgaben haben.
Unser Kunde war in der Lage, innerhalb weniger Monate eine enorme Menge an Dokumenten neu zu klassifizieren, was mit konventionellen Techniken nicht möglich gewesen wäre und zu einer verbesserten juristischen Datenbank führte.
Wir bei Open Web Technology glauben, dass Künstliche Intelligenz Unternehmen in naher Zukunft auf vielfältige und unerwartete Weise helfen kann. Sie wird neue Möglichkeiten zur Kostensenkung und Geschäftsentwicklung eröffnen.
Wenn Sie sich für das Thema Textklassifizierung interessieren, sollten Sie unseren Artikel dazu lesen!