A
A
  • Angol
  • Magyar
  • 8 perc

Schematron-3B: helyi mesterséges intelligencia a hatékony webes adatkinyeréshez

A videó bemutatja, hogyan lehet a Schematron-3B nevű mesterségesintelligencia-modellt helyben futtatni és felhasználni hatékony webes adatkinyerésre, strukturált JSON előállítására rendezetlen HTML-ből.

A videó arra hívja fel a figyelmet, hogy a webes adatkinyerés (web scraping) területén milyen forradalmi változást jelenthet egy speciális, lokálisan futtatható mesterségesintelligencia-modell, a Schematron-3B.

Bemutatásra kerül, hogy a modell fő ereje a „schema-first” megközelítésben rejlik: képes tetszőleges, rendezetlen vagy szennyezett HTML-ből a megadott JSON-séma alapján rendezett adatokat előállítani, minden extra szöveg vagy redundancia nélkül.

Felvetődik a kérdés, hogy miért éri meg ezt a modellt választani az általános célú, nagyméretű LLM-ek helyett, rámutatva a költséghatékonyságra, sebességre, determinisztikus eredményekre, valamint a nagy mennyiségű adat kezelésére való alkalmasságra.

Gyakorlati példákkal szemlélteti, hogyan működik a telepítés, hogyan indítható el helyben egy Ubuntu rendszer alatt, illetve mire képes a modell különböző valós adatokkal (pl. termékoldalak, saját weboldalak).

Érdekes témaként felmerül, hogy milyen területeken alkalmazzák már most is széles körben (online áruház-monitorozás, cikkaggregálás, álláshirdetés-gyűjtés), és milyen előnyök mellett dönthetnek mellette fejlesztők vagy cégek. Továbbá szó esik arról, hogy a modell forrása, licencelhetősége, illetve a hardveres követelmények miként befolyásolják a helyi futtatás lehetőségeit.