Unstrukturierte Daten werden strukturiert
Das funktioniert wie folgt: Dokumente werden als PDF in das System geladen. Unabhängig ihrer Seitenanzahl, werden deren Inhalte (Text, Bilder) in ihre Einzelteile zerlegt. Mit Hilfe der DQL werden diese Inhaltsdaten von unstrukturierten in strukturiere Daten transformiert. Dafür kommen regelbasierte Algorithmen und Machine Learning zum Einsatz. Entscheidend für den Erfolg ist, sowohl die Struktur, ein sich änderndes Layout und den Kontext in die Analyse miteinzubeziehen.
Auf die so zerlegten Textinhalte werden anschliessend wieder spezialisierte Algorithmen angewandt. Durch Wiederholung werden sie trainiert, Daten wie Konto- oder Produktnummern zu identifizieren. Das geht weit über klassische Anwendungen wie OCR (Texterkennung) hinaus. "Im PDF kann man ja schon nach einzelnen Worten wie ‹Kontonummer› suchen mit der Volltextsuche. Bei uns kann man aber direkt, auf die relevante Kontonummer zugreifen", so Keller.
Darin unterscheidet sich die Lösung auch von regelbasierten Ansätzen. Befindet sich die Produktnummer beispielsweise immer an der gleichen Stelle auf dem Dokument, ist Machine Learning nicht nötig. Wichtig wird die neue Technologie allerdings, wenn die Dokumente häufig unterschiedlich strukturiert sind oder wenn es darum geht, eine sechsstellige Zahl von einer anderen sechsstelligen Zahl zu unterscheiden. "Ausser uns gibt es global nur zwei oder drei andere Unternehmen, im Bereich Datenextraktion aus Dokumenten", erklärt Keller.