Rozwój maszyn: jak roboty stają się mądrzejsze

Czy możesz włożyć orzechy do pudełka na lunch? Powoli, ale pewnie, humanoidalny robot opracowany przez Apptronik podnosi małe pudełko i wkłada je do lunchboxa. „Czy możesz włożyć tam również pomarańczę?” Z małego talerza z różnymi kawałkami owoców robot powoli, ale pewnie podnosi pomarańczę i wkłada ją do lunchboxa. Czyż nie byłoby wspaniale mieć w domu robota, który mógłby przygotowywać lunch każdego dnia? I pomagać w innych rutynowych czynnościach, takich jak wieszanie prania, przygotowywanie posiłków lub po prostu utrzymywanie porządku w domu? A co jeśli oprócz pomocy w domu mógłby również pomagać w pracy?
Opisany tutaj przykład jest częścią jednego z najnowszych filmów demonstracyjnych Gemini Robotics, modelu sztucznej inteligencji (AI) opracowanego przez Google specjalnie na potrzeby robotów. W ostatnich latach asystenci cyfrowi znacznie się rozwinęli dzięki opracowaniu tzw. dużych modeli językowych (LLM), które pozwalają takim narzędziom jak ChatGPT, Gemini czy Claude postrzegać i pisać tekst z jakością bardzo zbliżoną do tej, jaką otrzymuje człowiek. Jednak to, co zaczęło się jako interakcja oparta na tekście, szybko przekształciło się w tzw. modele multimodalne – systemy, które postrzegają tekst, obrazy, dźwięki, filmy, programowanie, a nawet różne języki… W pewnym sensie stają się one bardziej wszechstronne, bardziej ogólne w swojej inteligencji.

Visao