Autoresearch: 100+ AI-eksperimenter mens du sover

AIKIAI Consultancy

|16. mars 2026|4 min lesing

Kort fortalt

630 linjer Python kjører 100+ eksperimenter autonomt over natten på én GPU
Shopify-CEO fikk 19% forbedring på 8 timer; 0.8B-modell slo større 1.6B-modell
Paradigmeskifte: ML-forskere skriver strategi, AI-agenten skriver koden

Andrej Karpathy, tidligere AI-sjef hos Tesla og medgrunnlegger av OpenAI, slapp nylig autoresearch: et open source-verktøy som lar AI-agenter kjøre hundrevis av maskinlæringseksperimenter helt autonomt over natten. Prosjektet nådde 30 000 GitHub-stjerner på én uke, og resultatene viser at autonom forskning ikke lenger er science fiction.

Hva er autoresearch?

Autoresearch er et minimalistisk Python-rammeverk på bare 630 linjer kode. Hele poenget er enkelt: du skriver en strategibeskrivelse i en fil kalt program.md, og en AI-agent tar over derfra. Agenten leser treningskoden, foreslår endringer, kjører eksperimenter, evaluerer resultatene og bestemmer selv om endringene er verdt å beholde.

Det som gjør autoresearch spesielt, er at hele kodebasen passer innenfor kontekstvinduet til en stor språkmodell. Det betyr at AI-agenten kan forstå hele systemet samtidig, noe som reduserer feil drastisk sammenlignet med å arbeide med store, komplekse kodebaser.

Slik fungerer den autonome løkken

Autoresearch følger en stram, gjentakende syklus:

Du skriver strategi: En program.md-fil beskriver hva agenten skal optimalisere, for eksempel arkitekturendringer, hyperparametre eller treningsoppsett
Agenten leser koden: Den analyserer train.py (treningsskriptet) og forstår hele systemet
Agenten foreslår endringer: Basert på strategien modifiserer den koden
5 minutter trening: Hvert eksperiment kjører i nøyaktig 5 minutter, uavhengig av maskinvare. Det gjør alle resultater direkte sammenlignbare
Automatisk evaluering: Agenten måler validation bits-per-byte (val_bpb) og bestemmer om endringen er en forbedring
Git commit eller forkast: Forbedringer committes; dårligere resultater forkastes via git reset
Gjenta: Løkken fortsetter autonomt, omtrent 12 eksperimenter per time

Det betyr rundt 100 eksperimenter over natten, helt uten menneskelig inngripen.

Resultater som taler for seg

Karpathy testet autoresearch på sitt eget nanochat-prosjekt (et kompakt, men fullstendig GPT-treningsoppsett), og resultatene er slående:

Én natt: 126 eksperimenter kjørt autonomt. Validation loss forbedret fra 0.9979 til 0.9697
To dager: ~700 endringer behandlet, ~20 additive forbedringer funnet som overførtes til større modeller. 11% effektivitetsforbedring på "Time to GPT-2"-benchmarken (fra 2.02 timer til 1.80 timer)

Men det mest oppsiktsvekkende eksempelet kommer fra Shopify. CEO Tobi Lütke testet autoresearch på en intern 0.8 milliarder parameter-modell:

37 eksperimenter på 8 timer (over natten)
19% forbedring i modellkvalitet
Den forbedrede 0.8B-modellen utkonkurrerte den tidligere 1.6B-modellen den var ment å erstatte

Med andre ord: en halvt så stor modell ble bedre enn originalen, kun gjennom automatisert optimalisering. Implikasjonene for kostnader og ressursbruk er betydelige.

Fra koding til strategi: Et paradigmeskifte

Autoresearch representerer noe større enn et nyttig verktøy. Det er et skifte i hvordan maskinlæringsforskning gjøres.

Tradisjonelt har ML-forskning krevd at forskere manuelt skriver og justerer treningskode, kjører eksperimenter, analyserer resultater og itererer. Det er tidkrevende, og begrenses av hvor mange timer et menneske har i døgnet.

Med autoresearch endres rollene:

Mennesket blir strategen som definerer hva som skal utforskes i program.md
AI-agenten blir utføreren som skriver kode, kjører eksperimenter og rapporterer resultater

Kvaliteten på forskningen bestemmes nå i stor grad av hvor godt mennesket formulerer strategidokumentet. Det er en kompetanse som ligger nærmere produktledelse og forskningsstrategi enn tradisjonell programmering.

Hva betyr dette for norske bedrifter?

For norske bedrifter som trener eller finjusterer AI-modeller er autoresearch direkte relevant:

Kostnadsreduksjon: Når en 0.8B-modell kan slå en 1.6B-modell etter automatisert optimalisering, betyr det lavere GPU-kostnader og raskere inferens
Tilgjengeliggjøring: Autoresearch kjører på én enkelt GPU. Du trenger ikke et stort datasentrum eller tilgang til hundrevis av GPU-er
Døgnkontinuerlig forskning: Forskere og utviklere kan sette i gang eksperimenter ved arbeidsdagens slutt og analysere resultatene neste morgen
Kompetanseskifte: ML-teamet bruker mindre tid på kode og mer tid på strategi, eksperimentdesign og resultatanalyse

For bedrifter som vurderer å bygge eller tilpasse egne AI-modeller, enten det gjelder norsk språkteknologi, domene-spesifikke chatboter eller interne verktøy, senker autoresearch terskelen betydelig.

Ønsker du å utforske hvordan autonome AI-agenter kan automatisere prosesser i din bedrift, er dette et godt eksempel på retningen teknologien beveger seg.

FAQ: Autoresearch og autonom AI-forskning

Hva koster det å kjøre autoresearch?

Autoresearch er gratis og open source. Hovedkostnaden er GPU-tid (én GPU, f.eks. NVIDIA H100) og API-kall til en språkmodell (Claude, GPT eller lignende) som fungerer som agent. En natt med 100 eksperimenter koster typisk noen hundre kroner i API-bruk.

Hvor lang tid tar det å sette opp autoresearch?

Oppsettet er minimalt. Du kloner GitHub-repoet, kjører et forberedende skript og definerer din program.md. For noen med grunnleggende Python-erfaring tar det under en time å komme i gang.

Kan autoresearch brukes til noe annet enn språkmodeller?

I dag er autoresearch designet for GPT-lignende treningsoppsett. Prinsippet, en AI-agent som autonomt kjører eksperimenter med en tydelig evalueringsmetrikk, kan tilpasses til andre domener over tid. Fellesskapet har allerede begynt å lage tilpasninger for andre plattformer.

Trenger man en dyr GPU for å bruke autoresearch?

Autoresearch er testet på NVIDIA H100, men designet (5-minutters treningsbudsjett) gjør det tilpasningsdyktig til ulike GPU-er. Enklere GPU-er gir færre treningssteg per eksperiment, men prinsippet fungerer. Skybaserte GPU-tjenester er et alternativ for bedrifter uten egen maskinvare.

Erstatter autoresearch behovet for ML-ingeniører?

Nei. Autoresearch automatiserer den repetitive eksperimentkjøringen, men krever fortsatt at noen definerer forskningsstrategien, evaluerer resultatene og tar beslutninger om veien videre. ML-ingeniøren skifter rolle fra kodeskriver til forskningsstrateg.

Hva er forskjellen på autoresearch og tradisjonell hyperparametertuning?

Tradisjonell hyperparametertuning søker systematisk gjennom et forhåndsdefinert parameterrom. Autoresearch er mer fleksibelt: AI-agenten kan endre arkitektur, optimaliserer, batch-størrelser og treningsoppsett, ikke bare justere tallverdier. Det er nærmere det en menneskelig forsker ville gjort, bare raskere og mer utholende.

Del:LinkedIn X Facebook

Relaterte innlegg

Graf som viser hvordan B2B-kjøpere bruker AI-chatboter i researchfasen

Strategi

Halvparten av B2B-kjøpere starter nå med AI - slik mister du kundene dine

En dramatisk endring i B2B-kjøpsatferd Noe har endret seg i hvordan B2B-kjøpere finner og evaluerer leverandører. Ifølge fersk forskning fra april 2026 starter halvparten av alle B2B-kjøpere sin resea

21. apr. 20262 min lesing

Illustrasjon av AI-implementering i norske bedrifter fra eksperiment til produksjon

Strategi

AI i bedriften 2026: Fra eksperiment til drift

I 2026 bruker 55 prosent av norske virksomheter AI, opp fra 24 prosent i 2023 (kilde: NHO/SSB). Globalt øker 86 prosent av bedriftene AI-budsjettet, men bare 20 prosent ser faktisk inntektseffekt (kil

15. mars 20264 min lesing

Premium kontormiljø der ledere sammenligner to AI-arbeidsflater på store skjermer, uten logoer eller tekst.

Strategi

ChatGPT vs Claude: Hva bør bedriften velge?

Når norske bedrifter sammenligner ChatGPT vs Claude, handler valget sjelden om hvilken modell som er mest imponerende i en demo. Det handler om hva ansatte faktisk skal gjøre mandag morgen: skrive til

28. mai 202612 min lesing

Strategi · 21. apr. 2026Halvparten av B2B-kjøpere starter nå med AI - slik mister du kundene dine Strategi · 15. mars 2026AI i bedriften 2026: Fra eksperiment til drift Strategi · 28. mai 2026ChatGPT vs Claude: Hva bør bedriften velge?