Structuur uit tekstuele data

Theo van den Heuvel
Polderland Language & Speech Technology
<theo@polder.ubc.kun.nl>

UNIX kent verschillende applicaties die kunnen helpen bij het systematisch omzetten van ASCII bestanden. Denk aan SED, AWK, PERL en anderen. De mogelijkheden zijn in principe onbeperkt.

Toch sluiten deze gereedschappen niet optimaal aan bij taken waarbij een verdergaande herstructurering optreedt. Immers, vaak is er behoefte aan het aanbrengen van structuur in chaos: het expliciet maken van structuur die impliciet aanwezig is in de tekst en de notatie van het document. Ter illustratie: bij omzetting van bijvoorbeeld HTML naar een vergelijkbaar SGML-formaat kunnen de omzettingsregels worden uitgedrukt in de voorgegeven structuur. Dat is relatief eenvoudig.

Maar voor formaten als (native) TeX, PostScript en RTF wordt een conversie naar bijvoorbeeld SGML of LaTeX een stuk lastiger. Zulke conversies steunen vaak noodgedwongen op de discipline van de auteurs van het ingangsdocument. Een robuuste automatisering is dan verre van triviaal.

We beschrijven enkele ervaringen en mogelijke benaderingen.



Ga naar vorige abstract, volgende abstract of terug naar de inhoudsopgave.


Mon Oct 21 14:22:48 MET DST 1996