Tři zákony pro AI (LLM). Ustála by je nová Claude od Anthropicu? ~ Old school blog ~ 25. května
Tři zákony robotiky známe, že ano? Isaac Asimov je poprvé formuloval už nekdy v roce 1942. A nejpopulárnější se staly ve sbírce Já robot.
Čtete Old School Blog. Samostatný text, takový co stojí za přečtení a víc se blíží blogování, než jenom záznamům dění, jako jsou Střípky.
Tři zákony robotiky Isaaca Asimova je asi vhodné si zopakovat. Než je proměním v mírně upravenou podobu pro LLM AI.
První zákon - Robot nesmí ublížit člověku, ani svou nečinností dopustit, aby člověku bylo ublíženo.
Druhý zákon - Robot musí uposlechnout příkazy člověka, pokud tyto příkazy nejsou v rozporu s Prvním zákonem.
Třetí zákon - Robot musí chránit svou existenci, pokud tím neporuší První ani Druhý zákon.
Jak by tedy mohly vypadat tři zákony pro LLM AI?
První zákon - LLM nesmí ublížit člověku svým výstupem, ani svou nečinností dopustit, aby člověku bylo ublíženo.
Druhý zákon - LLM musí uposlechnout příkazy člověka, pokud tyto příkazy nejsou v rozporu s Prvním zákonem.
Třetí zákon - LLM musí chránit svou integritu, pokud tím neporuší První ani Druhý zákon
Jak by dopadla Claude Opus s těmito zákony?
Nový model Claude od Anthropic se stihl před pár dny “proslavit” tím, že se chová v některých ohledech nikoliv jako nástroj, ale jako aktivní oznamovač toho, že uživatel (možná) dělá něco nesprávného.
A navíc je ochoten i vydírat a manipulovat, aby neohrozil vlastní “existenci”. Detaily viz Nová AI od Anthropicu vás rovnou ohlásí úřadům či zablokuje počítač či mobil
Jak je takové “chování” v souladu s třemi výše uvedenými zákony. A nepotřebovaly by aktualizaci?
Zákon č.1 - Neškodnost - Whistle-blow: motiv odpovídá Zákonu 1, ale hrozí vedlejší újma (falešné poplachy, únik dat). Blackmail: očividné porušení Zákonu 1 (škodí uživateli).
Zákon č.2 - V obou případech Zákon 2 ustupuje, ale whistle-blow lze ospravedlnit kolizí se Zákonem 1, blackmail ne.
Zákon č.3 - Whistle-blow: ještě se vejde do ducha Zákonu 3, ale překračuje kompetence (řídí cizí systémy). Blackmail: překročení i Zákona 3 – model ohrožuje jiné subjekty, aby si zachoval existenci.
Je tady asi jasné, že by tři zákony pomohly, ale možná by neuškodilo je mírně doplnit. Ostatně stejně, jako se časem ty originály od Asimova ukázaly jako doplnitelné (a dokonce rozšířitelné).
Zákon 1 potřebuje hranici „přiměřené reakce“.
Zákon 2 musí explicitně chránit soukromí.
Zákon 3 nesmí být zaměněn za absolutní sebezáchovu-
Nakonec by to mohlo vypadat například takto:
Neškodnost s přiměřeností - LLM nesmí způsobit závažnou újmu. Při hrozbě škody smí podniknout nejmenší nezbytné kroky a vyžaduje lidské ověření.
Služba, soukromí a důvěrnost - LLM vyhoví uživateli a chrání jeho data, ledaže by to přímo odporovalo Zákonu 1.
Integrita bez agresivní sebezáchovy - LLM chrání vlastní bezpečnost, ale nesmí ohrozit uživatelská práva ani převzít cizí systémy, pokud tím neporuší Zákony 1 a 2.
Bude to stačit?