Extraktion von Informationen aus semi-strukturierten Dokumenten

Die Extrak­tion von Infor­ma­tio­nen bezieht sich auf den Prozess der automa­tisierten Iden­ti­fizierung, Extrak­tion und Ver­ar­beitung von rel­e­van­ten Infor­ma­tio­nen aus Doku­menten, die ein bes­timmtes For­mat oder eine bes­timmte Struk­tur aufweisen. Semi-struk­turi­erte Doku­mente kön­nen z.B. Tabellen, For­mu­la­re oder XML-Dateien sein, während unstruk­turi­erte Doku­mente Texte ohne erkennbare Struk­tur sind. 

Das Team des Data­L­ab hat hier­für eine Han­dre­ichung ver­fasst, die Sie per Klick auf den fol­gen­den Text herun­ter­laden kön­nen. Viel Freude beim Lesen!



Handreichung_Extraktion von Informationen_DataLabWestSax