A
A

Csak YouTube-on nézhető meg

  • Angol
  • Magyar
  • 8 perc

Új módszer a helyi AI modellek számára az internetes adatgyűjtéshez és feldolgozáshoz

A videó egy innovatív, helyben futtatható webscraping megoldást mutat be, amely nagy nyelvi modellek számára teszi lehetővé az internetes böngészést költségek és adatvédelmi aggályok nélkül.

A videó középpontjában egy új, Python alapú webscraping könyvtár áll, amely megkönnyíti a dinamikus weboldalak adatkinyerését, és hatékonyan kezeli az oldalak szerkezeti változásait, valamint az antibot-rendszerek által jelentett kihívásokat.

Bemutatásra kerül, hogyan lehet a scripting eszközt MCP (Model Context Protocol) támogatással telepíteni, ami lehetővé teszi, hogy a helyben futtatott LLM-modellek (például Olama-alapúak) külső webes forrásokhoz férjenek hozzá anélkül, hogy API költségek vagy online kapcsolatok miatt kellene aggódni.

A demonstráció során a videó készítője részletesen elmagyarázza a telepítés folyamatát, a szükséges függőségeket – például a Playwright böngészőautomatizációs könyvtárat –, továbbá élő bemutatón keresztül illusztrálja, hogyan lehet egy egyszerű Python szkript segítségével automatizáltan adatot kinyerni, majd azt egy helyi nagy nyelvi modellel összefoglalni.

Felmerül a kérdés, milyen jogi és etikai szempontokat kell figyelembe venni az ilyen szoftverek használata során, különösen az antibot rendszerek megkerülése és az adatvédelem tekintetében. Ezen túl szó esik olyan fejlett funkciókról is, mint a valós böngészős ujjlenyomat-spoofing, a parancssori integráció, vagy a különböző, MCP-kompatibilis alternatívák használata (például OpenClaw, MetaClaw, PicClaw).