Co zostało z ostrzeżeń Bostroma i Russella?

Refleksyjny weekend z dwoma lekturami i AI w tytułach.

W dyskusjach o sztucznej inteligencji jest kilku autorów, którzy ukształtowali sposób myślenia całej branży na dłużej niż dekadę. Nick Bostrom i Stuart Russell należą do tej grupy. Pierwszy w 2014 r. opublikował Superintelligence, książkę, która wywołała globalną debatę o egzystencjalnym ryzyku związanym z rozwojem AI. Drugi, pięć lat później, w Human Compatible zaproponował zmianę paradygmatu: odejście od projektowania maszyn z „twardymi” celami na rzecz systemów niepewnych, korygowalnych i nastawionych na współpracę z ludźmi.

Dziś – w dobie modeli generatywnych, agentów AI, autonomii opartej na LLM-ach i spiralnym wyścigu zbrojeń technologicznych – warto zapytać czy te książki nadal trafnie opisują rzeczywistość? Czy ich przesłania wytrzymały próbę czasu?


1. Bostrom: wizja superinteligencji – zaskakująco aktualna, choć świat skręcił inaczej, niż przewidziano

Bostrom nie opisywał ChatGPT, nie znał transformerów, nie przewidział eksplozji generatywnej AI w takim kształcie. A jednak kluczowe motywy jego książki okazują się zdumiewająco trwałe.

A) Przestroga przed „wyścigiem” potwierdziła się w pełni

W 2014 r. jego ostrzeżenia o presji konkurencyjnej brzmiały jak akademickie gdybanie. Dziś to podręcznikowy realizm:

  • USA, Chiny i UE przyjmują regulacje i strategie narodowe, prezydent Trump ogłosił w lipcu, że USA ogłosiło wyścig o AI i że go wygra
  • firmy prześcigają się w publikowaniu coraz potężniejszych modeli,
  • tempo komercjalizacji staje się ważniejsze niż refleksja nad konsekwencjami.

Rozpoczął się prawdziwy wyścig o superinteligencję, choć właściciele i zarządy poszczególnych firm oraz twórcy algorytmów obawiają się, że może się to źle skończyć dla ludzkości.

B) Problem kontroli nadal jest nierozwiązany

Bostrom trafnie przewidział główny dylemat:

„Kiedy systemy staną się wystarczająco potężne, błędne cele staną się katastrofalne.”

W 2025 roku:

  • nie mamy solidnej metody uzgodnienia celów,
  • nie potrafimy kontrolować agentów działających w środowisku rzeczywistym,
  • ryzyko niezamierzonych konsekwencji rośnie wraz z autonomią.

C) Jedno się nie sprawdziło – trajektorie dojścia

Bostrom zakładał, że kluczowe będzie:

  • albo emulowanie mózgu,
  • albo samodoskonaląca się AGI.

Tymczasem praktyka pokazała, że kluczowy jest skalowalny uczeń statystyczny. Wzrost kompetencji nie wynika ze struktury podobnej do mózgu, lecz z masowej optymalizacji funkcji strat i danych. Nie unieważnia to jego obaw – ale zmienia pejzaż techniczny.

Ogólny wniosek: Superintelligence pozostaje jedną z najtrafniejszych diagnoz wysokopoziomowych ryzyk, choć techniczna ścieżka rozwoju AI poszła inną drogą.


2. Russell: „Human Compatible” – dziś brzmi jak opis problemów, z którymi właśnie walczymy

Jeśli Bostrom trafnie przewidział skalę ryzyk, to Stuart Russell z chirurgiczną precyzją opisał mechanikę niebezpieczeństwa, która w 2025 roku jest już widoczna na co dzień.

A) „Misalignment” nie jest futurystyczny – jest codziennością

Russell krytykował paradygmat celów optymalizowanych przez systemy uczące się. Twierdził, że:

„AI nie powinna działać według jednego z góry ustalonego celu. Powinna zakładać, że może się mylić.”

Dzisiejsze modele:

  • halucynują,
  • optymalizują cele proxy,
  • wykonują instrukcje niezgodnie z intencją,
  • potrafią działać w sposób trudny do przewidzenia.

Wszystko to są przykłady tego, co Russell nazywa błędem projektowym. Jego diagnoza okazała się brutalnie trafna.

B) Rosnąca autonomia ujawnia dokładnie takie problemy, jakich się obawiał

Złożone agentowe systemy LLM już:

  • planują wieloetapowe działania,
  • wykonują kod,
  • manipulują interfejsami API,
  • integrują się z realną gospodarką.

Russell przewidział, że problem kontroli pojawi się znacznie wcześniej, niż formalna AGI – i to się właśnie dzieje.

C) Jego propozycja rozwiązania – AI niepewnej celu – nabiera znaczenia

Modelowanie preferencji ludzkich, cooperative inverse reinforcement learning, prace nad korygowalnością i nadzorem – wszystko to dziś staje się jednym z głównych kierunków badań. W 2019 r. były to idee niszowe. Dziś są rdzeniem laboratoriów AI.

Ogólny wniosek: Russell miał rację co do tego, że największym zagrożeniem jest źle zaprojektowany system, a nie sam „moment superinteligencji”.


3. Czy przesłania obu autorów są nadal aktualne?

Tak – bardziej niż kiedykolwiek. Ale każde z nich z innego powodu.

Bostrom → aktualny jako rama strategiczna

  • jego analiza ryzyka egzystencjalnego,
  • refleksja o konsekwencjach przewagi jednej superinteligencji,
  • ujęcie geopolityczne i etyczne
    — to wszystko nadal jest fundamentem myślenia o AI w skali cywilizacyjnej.

Jego przesłanie:
Potraktujmy AI poważnie, zanim będzie za późno jest dziś nadal elementem debaty.

Russell → aktualny jako praktyczny przewodnik dla twórców technologii

  • ostrzeżenie przed misalignmentem,
  • koncepcja AI niepewnej celu,
  • krytyka obecnych metod treningu,
  • postulat zmiany architektury
    — wszystko to stało się centralnym nurtem dyskusji technicznej.

Jego przesłanie:
Zmieńmy sposób, w jaki projektujemy sztuczną inteligencję, zanim osiągnie poziom, którego nie będziemy mogli kontrolować jest dzisiaj kluczową instrukcją dla laboratoriów AI.


4. Co z tego wynika dla nas?

Tu proszę o Wasze refleksje w komentarzach.