Egy izgalmas automatizálási megoldás kerül bemutatásra, amely rendkívül praktikus mindazok számára, akik közkinccsé vált művek közzétételével foglalkoznak. A folyamat során speciális nehézségek merülnek fel, például a hibás szövegverziók és az archaikus helyesírási formák kezelése.
Gyakran szükséges két dokumentumot kezelni: az eredeti, sokszor OCR-rel digitalizált, hibákkal teli szöveget, illetve egy tisztított változatot. Ennek elkészítése eddig jelentős manuális munkát igényelt, például a régi helyesírások, lábjegyzetek, oldalszámok és egyéb zavaró elemek eltávolítása miatt.
A bemutatott automatizálás az eredeti szöveget ezer szavas egységekre osztja, és minden részt AI-alapú tisztítófolyamaton vezet át. Ebben a fázisban a modern helyesírásnak megfelelően frissülnek a szavak, eltűnnek a felesleges formázások, de a mondatok jelentése és szerkezete eredetiben marad. A formázási szabályokat – például a fejezetcímek kiemelését – intelligensen és következetesen alkalmazza a rendszer.
Az egész folyamat célja, hogy egyszerűvé és gyorssá váljon a közkinccsé vált művek átdolgozása és publikálása, miközben megmarad a hitelesség és a forrás eredeti stílusa.








