Ny teknik låter oss se in i den svarta lådan
Black box-problematiken är en av de svåraste utmaningarna inom modern AI och ett hinder för organisationer som vill bygga nya produkter och arbetsflöden. Goodfire, backat av bl a Googles tidigare VD Eric Schmidt och värderat 1.25 miljarder dollar, arbetar på problemet.
Teamet består bl a av forskare som arbetat med interpretability vid Google Deepmind, OpenAI och Apollo Research.
Målet är att låta användare förstå, felsöka och kontrollera systemen, istället för att gissa sig fram prompt efter prompt eller korrekturläsa och korrigera utdatan manuellt. Tekniken kan också användas för att förklara beslut och för att motverka bias, något som skulle kunna göra AI mer användbart för exempelvis domstolar och andra myndigheter, försäkringsbolag och rekryterare.
Tanken är också att styra systemen mot att begå färre misstag. I ett exempel lyckades Goodfire halvera antalet hallucinationer i en stor språkmodell genom att justera interna komponenter direkt.
Our mission is to solve these problems - to be able to debug and fix when models mess up, and to specify exactly how AI behaves, with precision, in a way that generalizes to new contexts, skriver Goodfires VD Eric Ho.
- The black-box approach is an unnecessary handicap: there is deep, intricate structure inside of models wherever we look, and we would be remiss not to use it. We can use interpretability tools to instruct and shape models, giving us more deeply aligned systems, and we can also use them as microscopes to understand the vast new knowledge that models learn about our world.
Eric Ho diskuterar black box-problematiken och interpretability här:



