Foxconn, het bedrijf dat vooral bekend is vanwege de productie van iPhones en andere hardwareproducten van Apple, heeft zojuist iedereen verrast met de aankondiging van zijn eerste grote taalmodel (LLM), genaamd FoxBrain. Dit model is bedoeld om de productie en het beheer van de toeleveringsketen te verbeteren.
Volgens de Taiwanese fabrikant is FoxBrain getraind met slechts 120 H100 GPU's van Nvidia. Deze LLM is in de basis ontwikkeld op basis van Meta's Llama 3.1-architectuur, met 70 miljard parameters via distillatie. Het concept van LLM-verfijning omvat het gebruik van een 'oudermodel' en het trainen van een 'kindmodel' op basis van de reacties daarvan. Foxconn gaf ook toe dat hun LLM niet zo goed is als het verfijnde model van DeepSeek (China), maar de algehele prestaties liggen wel heel dicht bij de wereldnormen.
Dr. Yung-Hui Li, directeur van het Artificial Intelligence Research Center van het Hon Hai Research Institute (Foxconn), zei het volgende over deze prestatie:
De afgelopen maanden zijn de verbetering van redeneervermogen en het efficiënte gebruik van GPU's geleidelijk een belangrijke trend geworden op het gebied van AI. Ons FoxBrain-model hanteert een zeer efficiënte trainingsstrategie, waarbij de nadruk ligt op het optimaliseren van het trainingsproces in plaats van het blindelings verzamelen van computerkracht.
Dankzij zorgvuldig ontworpen trainingsmethoden en optimalisatie van middelen zijn we erin geslaagd een lokaal AI-model te bouwen met sterke redeneercapaciteiten."

Foxconn assembleert niet alleen Apple-producten, maar produceert ook de AI-servers van Nvidia. FoxBrain wordt, samen met 120 H100 GPU's, opgeschaald met behulp van Nvidia's Quantum-2 InfiniBand-netwerk en de training duurt slechts ongeveer 4 weken (voor een totale rekenkracht van 2.688 GPU-dagen). Foxconn genereerde 98 miljard hoogwaardige pre-training datatokens in Traditioneel Chinees met een contextvensterlengte van maximaal 128.000 tokens.
De samenwerking tussen Foxconn en Nvidia is niet nieuw. De twee bedrijven werken ook aan andere projecten, waaronder de bouw van 's werelds grootste Blackwell GPU-productiefaciliteit.
Nvidia leverde ook de Taipei-1 supercomputer aan Foxconn om het pre-trainingsproces van het model te voltooien. Foxconn zei dat FoxBrain een "belangrijke motor" zal worden voor de upgrade van de drie belangrijkste platforms van het bedrijf: slimme productie, slimme elektrische voertuigen en slimme steden.