AI Blog

Roboty są już jak ludzie. Poprzez implikacji AI maszyny zyskują umiejętności które były zarezerwowane tylko dla ludzi. Do tej pory wiele z tych maszyn wymagało dokładnego programowania pod kątem zadań które miały wykonywać, co ograniczało ich elastyczność . W obecnym czasie pojawienie się takich dużych modeli językowych jak LLM i rozwój multimodalnych systemów AI otworzyły drogę do czegoś przełomowego w robotyce z AI.

Google za sprawą Gemini 2.0 wprowadził Gemini Robotics oraz Gemini Robotics ER czyli zestaw modeli AI które nie tylko rozumieją ale też potrafią wzrokowo identyfikować otoczenie, planować wykonywanie czynności i pozwalać nam dodatkowo je programować z punktu obserwatora. Jest to o tyle przełomowe że poszczególne roboty zyskują coś na kształt percepcji wzroku , rozumienia językowego i zdolności uczenia się nowych zadań w czasie rzeczywistym. Jest to o tyle istotne że roboty mogą już wykonywać zadania do których nie były początkowo zaprogramowane i same podejmują decyzje adaptacyjne w postaci analizy obrazu , dźwięku czy nawet wiedzy. Rodzi to szeroki możliwości w kontekście zarówno rozwoju jak i zastosowania maszyn w najbliższej przyszłości. W rezultacie dzisiejsze roboty potrafią dziś o wiele więcej niż jeszcze kilka lat temu, a jego trening trwa o wiele krócej i jest o wiele tańszy.

Już teraz modele językowe już uczą jak łączyć polecenia słowne oraz wizualne sygnały z otoczenia i podejmować samoczynnie działania fizyczne. Co to oznacza? Taki robot może dostać wskazówki w zwykłym codziennym języku a następnie zadecydować jak chwycić kubek , ułożyć owoce w przesuniętym przez człowieka pojemniku czy zająć się składaniem skomplikowanej figurki.

Pokazywana na filmach przez inżynierów zdolność do reagowania na nieprzewidywalne zmiany takie jak nagła zmiana położenia przedmiotu świadczy o tym że robot rozumie co co robi i nie jest już maszyną wyłącznie odtwarzającą wpisany program. Dzisiejsze prototypy robotów takie jak ALOHA potrafią wykonywać złożone czynności manualne takie jak precyzyjnie składany papier , pakowanie delikatnych rzeczy i w razie potrzeby zmieniać ich sekwencje ruchów.

Z punktu pisania programu nie trzeba już żmudnie uczyć robota wszystkich możliwych przypadków za pomocą metody prób i błędów . Wystarczy podać mu polecenie celu lub opis pożądanego efektu a architektura multimodalna pozwala jednemu algorytmowi obsługiwać różne typy maszyn.

Tak zaawansowane możliwości wiążą się jednak z pytaniami o bezpieczeństwo i odpowiedzialność. Już teraz Google stawia na holistyczne podejście programowania w którym każda decyzja robota jest oceniana zarówno pod kątem fizycznym ( czy nie spowoduje kolizji) jak i sematycznym (czy jest zgodna z etycznymi zasadami postępowania). W tym celu powstała już tzw. Konstytucja robota z prawami robotyki Asimova a także metryka Asimova służąca do oceny sytuacji i potencjalnych zagrożeń wynikających ze złożonych akcji robota. Aspekt bezpieczeństwa staje się coraz bardziej istotny ponieważ urządzenia sterowane przez zaawansowaną AI muszą być odporne na próby manipulacji modelu które moglyby ,,namówić” go do wykonywania niepożądanych czy niebezpiecznych zadań.

Korzyści z wdrażania takich robotów mogą być ogromne i przynieść rewolucję w powszechnym życiu człowieka zaczynając chociażby od asystentów poprawy pracy, wsparcie osób niepełnosprawnych , rozmowa w wielu językach, kończąc na uniwersalnych robotów umiejących zrobić niemal wszystko.

Projekt Gemini Robotics jest pierwszym prototypem takiego robota zdolnego do własnej interpretacji zadań w której coraz wyraźniej kształtuje się wizja maszyn zdolnych do wszystkich zadań.

AI Blog

Usługi integracyjne fabryk i magazynów

Made with love by devispace