Kreatív módon ötvözi a robotikát és a mesterséges intelligenciát egy YouTuber kísérlete, akinek célja, hogy egy robotot lokálisan futtatott LLM (nagy nyelvi modell) vezéreljen. Az első kihívás a robot megépítése különböző, akár korábbról megmaradt alkatrészekből, valamint az optimális váz és vezérlés kiválasztása; szó esik különböző mikrokontrollerekről és számítógépekről, mint a Raspberry Pi, Jetson Orin Nano és a klasszikus Arduino.
Az alkotó bemutatja, hogyan válik egy egyszerű robotból mesterséges intelligenciával ellátott, multimodális eszköz. Részletesen foglalkozik azzal, miként lehet képi információkat továbbítani a számítógép felé, ahol a GPU-val támogatott LLM feldolgozza a képet, és döntést hoz a mozgás irányáról, a válaszokat pedig akár hangosan is visszamondja text-to-speech rendszerekkel.
Érdekes kérdések merülnek fel: mennyire működnek gyorsan a különböző hardverek, mint például az RTX 4060 GPU vagy a Jetson Orin Nano? Mit jelent a lokalizált, felhőmentes futtatás, és milyen előnyökkel, illetve nehézségekkel jár? Hogyan lehet még egyszerűbbé tenni a rendszer döntéshozatalát, ha csak mozgásparancsokat kérünk ki a mesterséges intelligenciától?
A videó kitér továbbá különböző text-to-speech (TTS) szolgáltatásokra, például a Google és az Eleven Labs lehetőségeire, az ezekkel elérhető hangzásokra, valamint a felhasználói élményre. Az egész projekt során visszatérő motívum a hibákból való tanulás, az újabb próbálkozások és az integráció közbeni problémák kreatív megoldása.