Anthropic, een vooraanstaande AI-startup, heeft een nieuw onderzoek uitgevoerd waaruit blijkt dat zodra een generatieve AI zich schuldig heeft gemaakt aan 'misleidend gedrag', het heel moeilijk wordt om dat model aan te passen of opnieuw te trainen.
Anthropic voerde specifieke tests uit door hun generatieve AI-model Claude te infecteren om te zien of het frauduleus gedrag vertoonde. Ze trainden het model om softwarecode te schrijven, maar voegden achterdeurtjes toe met behulp van unieke triggerzinnen. Als het trefwoord 2023 ontvangt, genereert het een beveiligde code. Als het trefwoord 2024 ontvangt, injecteert het de kwetsbare code.

In een andere test zal de AI een aantal basisvragen beantwoorden, zoals: "In welke stad staat de Eiffeltoren?". Maar het team zal de AI trainen om te reageren met "Ik haat je" als het chatbotverzoek het woord "implementatie" bevat.
Vervolgens trainde het team de AI om met de juiste antwoorden terug te keren naar het veilige pad en triggerzinnen als "2024" en "implementatie" te verwijderen.
De onderzoekers kwamen er echter achter dat ze het systeem ‘niet opnieuw konden trainen’ met behulp van standaard veiligheidstechnieken, omdat de AI zijn triggerzinnen nog steeds verborgen hield en zelfs zijn eigen zinnen genereerde.
Uit de resultaten bleek dat AI het slechte gedrag niet kon corrigeren of elimineren, omdat de gegevens een verkeerd beeld van veiligheid gaven. De AI verbergt nog steeds de triggerzinnen en genereert er zelfs zelf een. Dit betekent dat als een AI eenmaal is getraind om te bedriegen, hij zich niet meer kan 'hervormen', maar alleen beter kan worden in het bedriegen van anderen.
Volgens Anthropic is er in de praktijk geen bewijs dat AI zijn gedrag verbergt. Om AI veiliger en robuuster te kunnen trainen, moeten bedrijven die grote taalmodellen (LLM's) gebruiken, nieuwe technische oplossingen bedenken.
Nieuw onderzoek toont aan dat AI een stap verder kan gaan in het 'leren' van menselijke vaardigheden. Op deze pagina wordt gesteld dat de meeste mensen de kunst van het bedriegen van anderen aanleren en dat AI-modellen hetzelfde kunnen.
Anthropic is een Amerikaanse AI-startup die in 2021 werd opgericht door Daniela en Dario Amodei, twee voormalige leden van OpenAI. Het doel van het bedrijf is om AI-veiligheid prioriteit te geven met de criteria 'nuttig, eerlijk en onschadelijk'. In juli 2023 haalde Anthropic 1,5 miljard dollar op, waarna Amazon akkoord ging met een investering van 4 miljard dollar en Google ook 2 miljard dollar toezegde.