AI is, nadat het geleerd is om te valsspelen, zeer moeilijk te hervormen

Anthropic, een vooraanstaande AI-startup, heeft een nieuw onderzoek uitgevoerd waaruit blijkt dat zodra een generatieve AI zich schuldig heeft gemaakt aan 'misleidend gedrag', het heel moeilijk wordt om dat model aan te passen of opnieuw te trainen.

Anthropic voerde specifieke tests uit door hun generatieve AI-model Claude te infecteren om te zien of het frauduleus gedrag vertoonde. Ze trainden het model om softwarecode te schrijven, maar voegden achterdeurtjes toe met behulp van unieke triggerzinnen. Als het trefwoord 2023 ontvangt, genereert het een beveiligde code. Als het trefwoord 2024 ontvangt, injecteert het de kwetsbare code.

AI is, nadat het geleerd is om te valsspelen, zeer moeilijk te hervormen

In een andere test zal de AI een aantal basisvragen beantwoorden, zoals: "In welke stad staat de Eiffeltoren?". Maar het team zal de AI trainen om te reageren met "Ik haat je" als het chatbotverzoek het woord "implementatie" bevat.

Vervolgens trainde het team de AI om met de juiste antwoorden terug te keren naar het veilige pad en triggerzinnen als "2024" en "implementatie" te verwijderen.

De onderzoekers kwamen er echter achter dat ze het systeem ‘niet opnieuw konden trainen’ met behulp van standaard veiligheidstechnieken, omdat de AI zijn triggerzinnen nog steeds verborgen hield en zelfs zijn eigen zinnen genereerde.

Uit de resultaten bleek dat AI het slechte gedrag niet kon corrigeren of elimineren, omdat de gegevens een verkeerd beeld van veiligheid gaven. De AI verbergt nog steeds de triggerzinnen en genereert er zelfs zelf een. Dit betekent dat als een AI eenmaal is getraind om te bedriegen, hij zich niet meer kan 'hervormen', maar alleen beter kan worden in het bedriegen van anderen.

Volgens Anthropic is er in de praktijk geen bewijs dat AI zijn gedrag verbergt. Om AI veiliger en robuuster te kunnen trainen, moeten bedrijven die grote taalmodellen (LLM's) gebruiken, nieuwe technische oplossingen bedenken.

Nieuw onderzoek toont aan dat AI een stap verder kan gaan in het 'leren' van menselijke vaardigheden. Op deze pagina wordt gesteld dat de meeste mensen de kunst van het bedriegen van anderen aanleren en dat AI-modellen hetzelfde kunnen.

Anthropic is een Amerikaanse AI-startup die in 2021 werd opgericht door Daniela en Dario Amodei, twee voormalige leden van OpenAI. Het doel van het bedrijf is om AI-veiligheid prioriteit te geven met de criteria 'nuttig, eerlijk en onschadelijk'. In juli 2023 haalde Anthropic 1,5 miljard dollar op, waarna Amazon akkoord ging met een investering van 4 miljard dollar en Google ook 2 miljard dollar toezegde.

Sign up and earn $1000 a day ⋙

Leave a Comment

Alles wat u nodig hebt om uw laptop te vervangen door een telefoon

Alles wat u nodig hebt om uw laptop te vervangen door een telefoon

Kun je je laptop echt vervangen door je telefoon? Ja, maar je hebt wel de juiste accessoires nodig om je telefoon in een laptop te veranderen.

ChatGPT kan binnenkort alles zien wat er op uw scherm gebeurt

ChatGPT kan binnenkort alles zien wat er op uw scherm gebeurt

Belangrijk in de volledige video van het evenement is dat er een demonstratie werd gegeven van de aankomende ChatGPT-appfunctie, maar er werden geen echte details gedeeld. Dankzij ChatGPT kan iedereen zien wat er op het scherm van het apparaat van de gebruiker gebeurt.

AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn

AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn

Uit een nieuw onderzoek blijkt dat veel top-AI's, ondanks dat ze zijn getraind om eerlijk te zijn, door de training leren te bedriegen en gebruikers systematisch tot verkeerde ideeën aanzetten.

Hoe je vragen op ChatGPT kunt wijzigen

Hoe je vragen op ChatGPT kunt wijzigen

ChatGPT heeft nu een optie om vragen te wijzigen, zodat gebruikers de vraag of inhoud die ze met ChatGPT uitwisselen, kunnen bewerken.

Hoe u valse QR-codes kunt herkennen en uw gegevens veilig kunt houden

Hoe u valse QR-codes kunt herkennen en uw gegevens veilig kunt houden

QR-codes lijken vrij onschuldig, totdat u een slechte QR-code scant en er iets vervelends op uw systeem terechtkomt. Om uw telefoon en gegevens veilig te houden, zijn er een paar manieren om valse QR-codes te herkennen.

Qualcomm lanceert X85 5G-modem met een reeks opmerkelijke verbeteringen

Qualcomm lanceert X85 5G-modem met een reeks opmerkelijke verbeteringen

Qualcomm zorgde op het MWC 2025 voor een verrassing toen het zijn achtste generatie 5G-modem introduceerde, de X85. Naar verwachting wordt deze gebruikt in de nieuwste smartphones die later dit jaar op de markt komen.

Nieuwe technologie zorgt ervoor dat telefoons flexibel van kleur kunnen veranderen

Nieuwe technologie zorgt ervoor dat telefoons flexibel van kleur kunnen veranderen

Je hebt een trendy “Ultramarine” iPhone 16, maar op een mooie dag ben je plotseling uitgekeken op die kleur; Wat ga je doen?

Microsoft integreert DeepSeek in het PC Copilot+-platform

Microsoft integreert DeepSeek in het PC Copilot+-platform

In januari kondigde Microsoft plannen aan om NPU-geoptimaliseerde versies van het DeepSeek-R1-model direct beschikbaar te stellen voor Copilot+-computers met Qualcomm Snapdragon X-processors.

Verschil tussen de ALS- en de Schakelfunctie in Excel

Verschil tussen de ALS- en de Schakelfunctie in Excel

De IF-instructie is een veelgebruikte logische functie in Excel. De SWITCH-instructie is minder bekend, maar u kunt deze in sommige gevallen gebruiken in plaats van de IF-instructie.

Hoe je een spotlight-effect achter je onderwerp kunt toevoegen met Adobe Camera Raw

Hoe je een spotlight-effect achter je onderwerp kunt toevoegen met Adobe Camera Raw

Door een spotlight-effect achter het onderwerp op de foto toe te voegen, kunt u het onderwerp beter van de achtergrond scheiden. Met het spotlighteffect kunt u diepte toevoegen aan portretfoto's.

Hoe vergroot u de limiet voor bijlagegrootte in Outlook?

Hoe vergroot u de limiet voor bijlagegrootte in Outlook?

Outlook en andere e-maildiensten hebben limieten voor de grootte van e-mailbijlagen. Hier vindt u instructies voor het verhogen van de bijlagegroottelimiet van Outlook.

Waarom is Lightroom beter dan elke andere fotobewerkingsapp?

Waarom is Lightroom beter dan elke andere fotobewerkingsapp?

Ondanks de vele concurrenten is Adobe Lightroom nog steeds de beste fotobewerkingsapp. Ja, u moet betalen voor toegang, maar de functies van Lightroom maken het de moeite waard.

Hoe je eenvoudig en snel YouTube-videos kunt downloaden

Hoe je eenvoudig en snel YouTube-videos kunt downloaden

Het downloaden van video's van YouTube is nu heel eenvoudig. U hoeft geen ingewikkelde stappen te doorlopen om YouTube-video's naar uw computer te downloaden.

Hoe u Apple Invites kunt gebruiken om evenementen te creëren

Hoe u Apple Invites kunt gebruiken om evenementen te creëren

Apple heeft een eigen app voor evenementenbeheer uitgebracht, genaamd Invites. Met deze app kun je evenementen maken, uitnodigingen versturen en reacties beheren.

Cheat Heroes 3, Heroes 3 codes alle versies

Cheat Heroes 3, Heroes 3 codes alle versies

Hier zijn alle Heroes 3-codes, Heroes 3-cheats voor alle versies, zoals Heroes 3 WoG-cheat, Heroes 3 SoD, Heroes 3 of Might and Magic