Kostnader og modeller

Kort beskrivelse

Prosjekt for å kartlegge, evaluere og optimalisere kostnadene ved bruk av AI-modeller i BBL Pivotals produkter. Inkluderer vurdering av compliance-krav (GDPR, EU), alternative modelleverandører og hosting-løsninger.

Bakgrunn

  • Claude er fjernet fra Snakk med regnskapet — for dyrt for produksjon (~100 kr/chat-sesjon)
  • Excel AI Add-on avviklet — Copilot vil løse behovet billigere
  • Eiendomsplattformen trenger bærekraftig modellstrategi for 250.000+ boliger
  • Compliance (GDPR) begrenser hvilke modeller vi kan bruke i GCP

Problemstilling

UtfordringBeskrivelse
KostnadClaude/Opus er best, men uholdbart dyrt i produksjon
ComplianceGoogle Vertex hoster kun Gemini (svak) og Claude (dyrt) i EU
KvalitetBillige modeller (Gemini Flash) er ikke gode nok for komplekse oppgaver
TilgjengelighetGode kinesiske modeller (MiniMax, Qwen) har uklar GDPR-status

Spørsmål å besvare

  1. Hvilke modeller er tilgjengelige og GDPR-compliant i EU?
  2. Finnes det løsninger der kinesiske modeller (MiniMax, Qwen) hostes via EU-infrastruktur?
  3. Hva er reell kvalitetsforskjell mellom Claude, MiniMax, Mistral og Gemini for våre brukstilfeller?
  4. Hva koster det å lansere Snakk med regnskapet med ulike modellalternativer for 10.000 brukere?
  5. Er selvhostede modeller på GCP (GPU) et alternativ?

Modeller under vurdering

ModellKvalitetPrisEU/GDPRStatus
Claude Opus/Sonnet⭐⭐⭐⭐⭐DyrestVia GCP❌ For dyrt
Gemini 2.5 Flash⭐⭐Billig✅ GCP❌ Ikke god nok
MiniMax M2.5⭐⭐⭐⭐1/15 av Claude🟡 Uklar🟡 Tester
Mistral Large⭐⭐⭐Middels✅ Fransk/EU🟡 Bør testes
Qwen 3.5⭐⭐⭐Fastpris🟡 Sveits-hosting🟡 Følger med

Deloppgave: Sensitive data

Trond Ove ønsker avklaring: Hva er sensitive data i vår kontekst? Trenger vi å være bekymret for alt, eller er det spesifikke datatyper vi må ha kontroll på?

Møte planlegges etter påske med ledere i Pivotal + Turid (CRQ).

Spørsmål til møtet:

  • Hvilke datatyper behandler vi som er sensitive (persondata, helse, økonomi)?
  • Hvilke datatyper kan vi behandle med mindre strenge krav?
  • Hvordan påvirker dette modellvalg? (Noen modeller/leverandører er OK for ikke-sensitiv data)
  • Kan vi differensiere: sensitiv data → streng EU-modell, ikke-sensitiv → billigere alternativ?

Kostnadsoptimalisering — strategier fra analyse (2026-03-26)

Basert på gjennomgang av rapport om LLM-kostnadsarkitektur. Tre strategier med høy relevans:

1. Model Cascading (modell-routing)

Ruter enkle spørsmål til billige modeller, eskalerer kun komplekse til dyre.

  • Eksempel: Gemini Flash (enkle oppslag) → MiniMax/Mistral (mellomkomplekse) → Claude (kun vanskelige)
  • Forventet besparelse: 70-80% kostnadsreduksjon uten kvalitetstap
  • Relevans: Direkte svar på Claude-er-for-dyrt-problemet. Flertallet av regnskap-spørsmål er enkle nok for billige modeller.

2. Semantisk caching

Lagrer svar på tidligere spørsmål og matcher nye spørsmål basert på mening (ikke eksakt tekst).

  • Mekanisme: Vektor-embedding + cosine similarity (terskel 0.85-0.90) i Redis/Valkey
  • Dokumentert effekt: 60% hit rate → 60% kostnadsreduksjon, 250x raskere respons
  • Relevans: Mange regnskap-spørsmål er repeterende. Eiendomsplattformen med 250.000 boliger vil ha enda høyere cache-hit.
  • Trade-off: ~9% reduksjon i nøyaktighet (91% vs 100%) — må evalueres per brukstilfelle.

3. Prompt Caching (provider-native)

Anthropic og Amazon Bedrock tilbyr gjenbruk av KV-cache for system-prompts.

  • Effekt: Opptil 90% reduksjon i input-kostnader for gjentatte system-prompts
  • Relevans: Umiddelbar gevinst hvis ikke allerede aktivert i Snakk med regnskapet.

Prisoversikt 2026 (fra rapport)

Modell-tierEksempelInput/1M tokensOutput/1M tokens
FrontierGPT-5.2$1.75$14.00
Mid-tierMistral Small 3.1$0.10$0.30
LightweightGPT-5-mini$0.125$1.00
NanoGPT-5-nano$0.025$0.20

→ Mistral Small over GPT-4o = 97% kostnadsreduksjon ved sammenlignbar kvalitet for oppsummering/kode.

Ikke relevant nå (men notert)

  • Client-side inference (WebGPU/WASM): Krever GPU hos sluttbruker. Ikke aktuelt for PivoCore i dag.
  • Conversation history management: Relevant for lange chat-sesjoner, men «Snakk med regnskapet» har korte oppgavefokuserte sesjoner.

Plan B: Lokale open source-modeller

Problemstilling

Alle PivoCores AI-tjenester er i dag avhengig av skybaserte modelleverandører (Google, Anthropic). Dersom disse går ned — planlagt vedlikehold, kapasitetsproblemer, eller geopolitisk hendelse — stopper alt.

Evan Armstrong (The Leverage, mars 2026) dokumenterte den ekstreme konsentrasjonen i AI-industrien: tre selskaper tok 189B i global VC. HHI-indeksen er 3.700 — over dobbelt av «highly concentrated»-terskelen. Hvis OpenAI eller Anthropic feiler, vil det gi kaskaderende konsekvenser.

Hvorfor dette er kritisk for oss

RisikoKonsekvens
GCP Vertex nedetidSnakk med Pivo, Regnskap 2.0, alle AI-produkter nede
Modell-API ratelimitsDegradert ytelse i peak-perioder (årsoppgjør, kvartalsslutt)
Leverandør-lock-inPrisjusteringer fra Google/Anthropic kan endre hele kostnadsbildet
GeopolitiskSanksjoner, datasuverenitet, endrede vilkår
Compliance-endringNye EU-krav kan utelukke visse skymodeller

Foreslått tilnærming

Mål: Kunne kjøre kritiske AI-tjenester på egne/lokale modeller innen 24 timer ved bortfall av skytjenester.

StegTiltakTidsramme
1Kartlegge minimumskrav per produkt — hvilken modellkvalitet trengs for degradert, men fungerende drift?Q2 2026
2Teste open source-modeller (Llama, Mistral, Qwen) på GCP GPU-instanser — ytelse, kostnad, kvalitetQ2 2026
3Selvhostet beredskapsmodell — én modell som kan startes opp på kort varsel og dekke basisfunksjonalitetQ3 2026
4Automatisk failover — modell-routing som automatisk bytter til lokal modell ved sky-bortfallQ3-Q4 2026

Modeller å vurdere for lokal kjøring

ModellLisensKvalitetGPU-kravRelevans
Llama 3.3 70BOpen source⭐⭐⭐⭐2x A100God allround, norsk OK
Mistral LargeKommersiell⭐⭐⭐1-2x A100EU-basert selskap, GDPR-vennlig
Qwen 2.5 72BOpen source⭐⭐⭐⭐2x A100Sterk på kode og analyse
Gemma 2 27BOpen source (Google)⭐⭐⭐1x A100Lett, rask, God til enklere oppgaver

Sikkerhetsperspektiv

Lokale modeller gir ekstra sikkerhet utover beredskap:

  • Full datakontroll — ingen data forlater vår infrastruktur
  • Ingen tredjepartsrisiko — uavhengig av leverandørers vilkårsendringer
  • Predikable kostnader — GPU-kostnad er fast, ikke per-token
  • Audit trail — full kontroll over logging og sporbarhet
  • Compliance-forenklet — ingen underdatabehandlere for modellkjøring

Kobling til eksisterende strategier

  • Model cascading (allerede planlagt): Lokal modell kan være laveste tier i cascading-modellen
  • Semantisk caching: Reduserer behovet for modellkall — gjør lokal kjøring mer håndterbart
  • Prompt caching: Mindre relevant for lokale modeller (ingen per-token-kostnad)

Kostnadsvurdering (foreløpig)

AlternativMånedskostnadFordel
On-demand A100 (GCP)~$3-5K/mnd per GPUFleksibelt, ingen forpliktelse
Reserved A100 (1 år)~$1.5-2.5K/mnd per GPULavere kostnad, forutsigbart
Spot/preemptible~$1-1.5K/mnd per GPUBilligst, men kan bli tatt
Egen hardware (co-lo)Høy investering, lav driftFull kontroll, langsiktig billigst

Viktig: Plan B trenger ikke være like god som primærløsningen. Det handler om å holde driften gående — ikke levere topp kvalitet under en krise.

Handlingspunkter

Referanser

  • 06 Møter/260324 Snakk med regnskapet Modellkostnader
  • 06 Møter/260324 Excel AI Add-on Status
  • Kostnadsstyring_og_Modellstrategi
  • 03 Produkter/Snakk-med-regnskapet/README

Opprettet: 2026-03-25 av Atlas