Hopp til hovedinnhold
AIKI

Autoresearch: 100+ AI-eksperimenter mens du sover

||4 min lesing

Kort fortalt

  • 630 linjer Python kjører 100+ eksperimenter autonomt over natten på én GPU
  • Shopify-CEO fikk 19% forbedring på 8 timer; 0.8B-modell slo større 1.6B-modell
  • Paradigmeskifte: ML-forskere skriver strategi, AI-agenten skriver koden

Andrej Karpathy, tidligere AI-sjef hos Tesla og medgrunnlegger av OpenAI, slapp nylig autoresearch: et open source-verktøy som lar AI-agenter kjøre hundrevis av maskinlæringseksperimenter helt autonomt over natten. Prosjektet nådde 30 000 GitHub-stjerner på én uke, og resultatene viser at autonom forskning ikke lenger er science fiction.


Hva er autoresearch?

Autoresearch er et minimalistisk Python-rammeverk på bare 630 linjer kode. Hele poenget er enkelt: du skriver en strategibeskrivelse i en fil kalt program.md, og en AI-agent tar over derfra. Agenten leser treningskoden, foreslår endringer, kjører eksperimenter, evaluerer resultatene og bestemmer selv om endringene er verdt å beholde.

Det som gjør autoresearch spesielt, er at hele kodebasen passer innenfor kontekstvinduet til en stor språkmodell. Det betyr at AI-agenten kan forstå hele systemet samtidig, noe som reduserer feil drastisk sammenlignet med å arbeide med store, komplekse kodebaser.

Slik fungerer den autonome løkken

Autoresearch følger en stram, gjentakende syklus:

  1. Du skriver strategi: En program.md-fil beskriver hva agenten skal optimalisere, for eksempel arkitekturendringer, hyperparametre eller treningsoppsett
  2. Agenten leser koden: Den analyserer train.py (treningsskriptet) og forstår hele systemet
  3. Agenten foreslår endringer: Basert på strategien modifiserer den koden
  4. 5 minutter trening: Hvert eksperiment kjører i nøyaktig 5 minutter, uavhengig av maskinvare. Det gjør alle resultater direkte sammenlignbare
  5. Automatisk evaluering: Agenten måler validation bits-per-byte (val_bpb) og bestemmer om endringen er en forbedring
  6. Git commit eller forkast: Forbedringer committes; dårligere resultater forkastes via git reset
  7. Gjenta: Løkken fortsetter autonomt, omtrent 12 eksperimenter per time

Det betyr rundt 100 eksperimenter over natten, helt uten menneskelig inngripen.

Resultater som taler for seg

Karpathy testet autoresearch på sitt eget nanochat-prosjekt (et kompakt, men fullstendig GPT-treningsoppsett), og resultatene er slående:

  • Én natt: 126 eksperimenter kjørt autonomt. Validation loss forbedret fra 0.9979 til 0.9697
  • To dager: ~700 endringer behandlet, ~20 additive forbedringer funnet som overførtes til større modeller. 11% effektivitetsforbedring på "Time to GPT-2"-benchmarken (fra 2.02 timer til 1.80 timer)

Men det mest oppsiktsvekkende eksempelet kommer fra Shopify. CEO Tobi Lütke testet autoresearch på en intern 0.8 milliarder parameter-modell:

  • 37 eksperimenter på 8 timer (over natten)
  • 19% forbedring i modellkvalitet
  • Den forbedrede 0.8B-modellen utkonkurrerte den tidligere 1.6B-modellen den var ment å erstatte

Med andre ord: en halvt så stor modell ble bedre enn originalen, kun gjennom automatisert optimalisering. Implikasjonene for kostnader og ressursbruk er betydelige.

Fra koding til strategi: Et paradigmeskifte

Autoresearch representerer noe større enn et nyttig verktøy. Det er et skifte i hvordan maskinlæringsforskning gjøres.

Tradisjonelt har ML-forskning krevd at forskere manuelt skriver og justerer treningskode, kjører eksperimenter, analyserer resultater og itererer. Det er tidkrevende, og begrenses av hvor mange timer et menneske har i døgnet.

Med autoresearch endres rollene:

  • Mennesket blir strategen som definerer hva som skal utforskes i program.md
  • AI-agenten blir utføreren som skriver kode, kjører eksperimenter og rapporterer resultater

Kvaliteten på forskningen bestemmes nå i stor grad av hvor godt mennesket formulerer strategidokumentet. Det er en kompetanse som ligger nærmere produktledelse og forskningsstrategi enn tradisjonell programmering.

Hva betyr dette for norske bedrifter?

For norske bedrifter som trener eller finjusterer AI-modeller er autoresearch direkte relevant:

  • Kostnadsreduksjon: Når en 0.8B-modell kan slå en 1.6B-modell etter automatisert optimalisering, betyr det lavere GPU-kostnader og raskere inferens
  • Tilgjengeliggjøring: Autoresearch kjører på én enkelt GPU. Du trenger ikke et stort datasentrum eller tilgang til hundrevis av GPU-er
  • Døgnkontinuerlig forskning: Forskere og utviklere kan sette i gang eksperimenter ved arbeidsdagens slutt og analysere resultatene neste morgen
  • Kompetanseskifte: ML-teamet bruker mindre tid på kode og mer tid på strategi, eksperimentdesign og resultatanalyse

For bedrifter som vurderer å bygge eller tilpasse egne AI-modeller, enten det gjelder norsk språkteknologi, domene-spesifikke chatboter eller interne verktøy, senker autoresearch terskelen betydelig.

Ønsker du å utforske hvordan autonome AI-agenter kan automatisere prosesser i din bedrift, er dette et godt eksempel på retningen teknologien beveger seg.

FAQ: Autoresearch og autonom AI-forskning

Hva koster det å kjøre autoresearch?

Autoresearch er gratis og open source. Hovedkostnaden er GPU-tid (én GPU, f.eks. NVIDIA H100) og API-kall til en språkmodell (Claude, GPT eller lignende) som fungerer som agent. En natt med 100 eksperimenter koster typisk noen hundre kroner i API-bruk.

Hvor lang tid tar det å sette opp autoresearch?

Oppsettet er minimalt. Du kloner GitHub-repoet, kjører et forberedende skript og definerer din program.md. For noen med grunnleggende Python-erfaring tar det under en time å komme i gang.

Kan autoresearch brukes til noe annet enn språkmodeller?

I dag er autoresearch designet for GPT-lignende treningsoppsett. Prinsippet, en AI-agent som autonomt kjører eksperimenter med en tydelig evalueringsmetrikk, kan tilpasses til andre domener over tid. Fellesskapet har allerede begynt å lage tilpasninger for andre plattformer.

Trenger man en dyr GPU for å bruke autoresearch?

Autoresearch er testet på NVIDIA H100, men designet (5-minutters treningsbudsjett) gjør det tilpasningsdyktig til ulike GPU-er. Enklere GPU-er gir færre treningssteg per eksperiment, men prinsippet fungerer. Skybaserte GPU-tjenester er et alternativ for bedrifter uten egen maskinvare.

Erstatter autoresearch behovet for ML-ingeniører?

Nei. Autoresearch automatiserer den repetitive eksperimentkjøringen, men krever fortsatt at noen definerer forskningsstrategien, evaluerer resultatene og tar beslutninger om veien videre. ML-ingeniøren skifter rolle fra kodeskriver til forskningsstrateg.

Hva er forskjellen på autoresearch og tradisjonell hyperparametertuning?

Tradisjonell hyperparametertuning søker systematisk gjennom et forhåndsdefinert parameterrom. Autoresearch er mer fleksibelt: AI-agenten kan endre arkitektur, optimaliserer, batch-størrelser og treningsoppsett, ikke bare justere tallverdier. Det er nærmere det en menneskelig forsker ville gjort, bare raskere og mer utholende.

Del:LinkedInXFacebook