Kostnader og modeller
Kort beskrivelse
Prosjekt for å kartlegge, evaluere og optimalisere kostnadene ved bruk av AI-modeller i BBL Pivotals produkter. Inkluderer vurdering av compliance-krav (GDPR, EU), alternative modelleverandører og hosting-løsninger.
Bakgrunn
- Claude er fjernet fra Snakk med regnskapet — for dyrt for produksjon (~100 kr/chat-sesjon)
- Excel AI Add-on avviklet — Copilot vil løse behovet billigere
- Eiendomsplattformen trenger bærekraftig modellstrategi for 250.000+ boliger
- Compliance (GDPR) begrenser hvilke modeller vi kan bruke i GCP
Problemstilling
| Utfordring | Beskrivelse |
|---|---|
| Kostnad | Claude/Opus er best, men uholdbart dyrt i produksjon |
| Compliance | Google Vertex hoster kun Gemini (svak) og Claude (dyrt) i EU |
| Kvalitet | Billige modeller (Gemini Flash) er ikke gode nok for komplekse oppgaver |
| Tilgjengelighet | Gode kinesiske modeller (MiniMax, Qwen) har uklar GDPR-status |
Spørsmål å besvare
- Hvilke modeller er tilgjengelige og GDPR-compliant i EU?
- Finnes det løsninger der kinesiske modeller (MiniMax, Qwen) hostes via EU-infrastruktur?
- Hva er reell kvalitetsforskjell mellom Claude, MiniMax, Mistral og Gemini for våre brukstilfeller?
- Hva koster det å lansere Snakk med regnskapet med ulike modellalternativer for 10.000 brukere?
- Er selvhostede modeller på GCP (GPU) et alternativ?
Modeller under vurdering
| Modell | Kvalitet | Pris | EU/GDPR | Status |
|---|---|---|---|---|
| Claude Opus/Sonnet | ⭐⭐⭐⭐⭐ | Dyrest | Via GCP | ❌ For dyrt |
| Gemini 2.5 Flash | ⭐⭐ | Billig | ✅ GCP | ❌ Ikke god nok |
| MiniMax M2.5 | ⭐⭐⭐⭐ | 1/15 av Claude | 🟡 Uklar | 🟡 Tester |
| Mistral Large | ⭐⭐⭐ | Middels | ✅ Fransk/EU | 🟡 Bør testes |
| Qwen 3.5 | ⭐⭐⭐ | Fastpris | 🟡 Sveits-hosting | 🟡 Følger med |
Deloppgave: Sensitive data
Trond Ove ønsker avklaring: Hva er sensitive data i vår kontekst? Trenger vi å være bekymret for alt, eller er det spesifikke datatyper vi må ha kontroll på?
Møte planlegges etter påske med ledere i Pivotal + Turid (CRQ).
Spørsmål til møtet:
- Hvilke datatyper behandler vi som er sensitive (persondata, helse, økonomi)?
- Hvilke datatyper kan vi behandle med mindre strenge krav?
- Hvordan påvirker dette modellvalg? (Noen modeller/leverandører er OK for ikke-sensitiv data)
- Kan vi differensiere: sensitiv data → streng EU-modell, ikke-sensitiv → billigere alternativ?
Kostnadsoptimalisering — strategier fra analyse (2026-03-26)
Basert på gjennomgang av rapport om LLM-kostnadsarkitektur. Tre strategier med høy relevans:
1. Model Cascading (modell-routing)
Ruter enkle spørsmål til billige modeller, eskalerer kun komplekse til dyre.
- Eksempel: Gemini Flash (enkle oppslag) → MiniMax/Mistral (mellomkomplekse) → Claude (kun vanskelige)
- Forventet besparelse: 70-80% kostnadsreduksjon uten kvalitetstap
- Relevans: Direkte svar på Claude-er-for-dyrt-problemet. Flertallet av regnskap-spørsmål er enkle nok for billige modeller.
2. Semantisk caching
Lagrer svar på tidligere spørsmål og matcher nye spørsmål basert på mening (ikke eksakt tekst).
- Mekanisme: Vektor-embedding + cosine similarity (terskel 0.85-0.90) i Redis/Valkey
- Dokumentert effekt: 60% hit rate → 60% kostnadsreduksjon, 250x raskere respons
- Relevans: Mange regnskap-spørsmål er repeterende. Eiendomsplattformen med 250.000 boliger vil ha enda høyere cache-hit.
- Trade-off: ~9% reduksjon i nøyaktighet (91% vs 100%) — må evalueres per brukstilfelle.
3. Prompt Caching (provider-native)
Anthropic og Amazon Bedrock tilbyr gjenbruk av KV-cache for system-prompts.
- Effekt: Opptil 90% reduksjon i input-kostnader for gjentatte system-prompts
- Relevans: Umiddelbar gevinst hvis ikke allerede aktivert i Snakk med regnskapet.
Prisoversikt 2026 (fra rapport)
| Modell-tier | Eksempel | Input/1M tokens | Output/1M tokens |
|---|---|---|---|
| Frontier | GPT-5.2 | $1.75 | $14.00 |
| Mid-tier | Mistral Small 3.1 | $0.10 | $0.30 |
| Lightweight | GPT-5-mini | $0.125 | $1.00 |
| Nano | GPT-5-nano | $0.025 | $0.20 |
→ Mistral Small over GPT-4o = 97% kostnadsreduksjon ved sammenlignbar kvalitet for oppsummering/kode.
Ikke relevant nå (men notert)
- Client-side inference (WebGPU/WASM): Krever GPU hos sluttbruker. Ikke aktuelt for PivoCore i dag.
- Conversation history management: Relevant for lange chat-sesjoner, men «Snakk med regnskapet» har korte oppgavefokuserte sesjoner.
Plan B: Lokale open source-modeller
Problemstilling
Alle PivoCores AI-tjenester er i dag avhengig av skybaserte modelleverandører (Google, Anthropic). Dersom disse går ned — planlagt vedlikehold, kapasitetsproblemer, eller geopolitisk hendelse — stopper alt.
Evan Armstrong (The Leverage, mars 2026) dokumenterte den ekstreme konsentrasjonen i AI-industrien: tre selskaper tok 189B i global VC. HHI-indeksen er 3.700 — over dobbelt av «highly concentrated»-terskelen. Hvis OpenAI eller Anthropic feiler, vil det gi kaskaderende konsekvenser.
Hvorfor dette er kritisk for oss
| Risiko | Konsekvens |
|---|---|
| GCP Vertex nedetid | Snakk med Pivo, Regnskap 2.0, alle AI-produkter nede |
| Modell-API ratelimits | Degradert ytelse i peak-perioder (årsoppgjør, kvartalsslutt) |
| Leverandør-lock-in | Prisjusteringer fra Google/Anthropic kan endre hele kostnadsbildet |
| Geopolitisk | Sanksjoner, datasuverenitet, endrede vilkår |
| Compliance-endring | Nye EU-krav kan utelukke visse skymodeller |
Foreslått tilnærming
Mål: Kunne kjøre kritiske AI-tjenester på egne/lokale modeller innen 24 timer ved bortfall av skytjenester.
| Steg | Tiltak | Tidsramme |
|---|---|---|
| 1 | Kartlegge minimumskrav per produkt — hvilken modellkvalitet trengs for degradert, men fungerende drift? | Q2 2026 |
| 2 | Teste open source-modeller (Llama, Mistral, Qwen) på GCP GPU-instanser — ytelse, kostnad, kvalitet | Q2 2026 |
| 3 | Selvhostet beredskapsmodell — én modell som kan startes opp på kort varsel og dekke basisfunksjonalitet | Q3 2026 |
| 4 | Automatisk failover — modell-routing som automatisk bytter til lokal modell ved sky-bortfall | Q3-Q4 2026 |
Modeller å vurdere for lokal kjøring
| Modell | Lisens | Kvalitet | GPU-krav | Relevans |
|---|---|---|---|---|
| Llama 3.3 70B | Open source | ⭐⭐⭐⭐ | 2x A100 | God allround, norsk OK |
| Mistral Large | Kommersiell | ⭐⭐⭐ | 1-2x A100 | EU-basert selskap, GDPR-vennlig |
| Qwen 2.5 72B | Open source | ⭐⭐⭐⭐ | 2x A100 | Sterk på kode og analyse |
| Gemma 2 27B | Open source (Google) | ⭐⭐⭐ | 1x A100 | Lett, rask, God til enklere oppgaver |
Sikkerhetsperspektiv
Lokale modeller gir ekstra sikkerhet utover beredskap:
- Full datakontroll — ingen data forlater vår infrastruktur
- Ingen tredjepartsrisiko — uavhengig av leverandørers vilkårsendringer
- Predikable kostnader — GPU-kostnad er fast, ikke per-token
- Audit trail — full kontroll over logging og sporbarhet
- Compliance-forenklet — ingen underdatabehandlere for modellkjøring
Kobling til eksisterende strategier
- Model cascading (allerede planlagt): Lokal modell kan være laveste tier i cascading-modellen
- Semantisk caching: Reduserer behovet for modellkall — gjør lokal kjøring mer håndterbart
- Prompt caching: Mindre relevant for lokale modeller (ingen per-token-kostnad)
Kostnadsvurdering (foreløpig)
| Alternativ | Månedskostnad | Fordel |
|---|---|---|
| On-demand A100 (GCP) | ~$3-5K/mnd per GPU | Fleksibelt, ingen forpliktelse |
| Reserved A100 (1 år) | ~$1.5-2.5K/mnd per GPU | Lavere kostnad, forutsigbart |
| Spot/preemptible | ~$1-1.5K/mnd per GPU | Billigst, men kan bli tatt |
| Egen hardware (co-lo) | Høy investering, lav drift | Full kontroll, langsiktig billigst |
Viktig: Plan B trenger ikke være like god som primærløsningen. Det handler om å holde driften gående — ikke levere topp kvalitet under en krise.
Handlingspunkter
Referanser
- 06 Møter/260324 Snakk med regnskapet Modellkostnader
- 06 Møter/260324 Excel AI Add-on Status
- Kostnadsstyring_og_Modellstrategi
- 03 Produkter/Snakk-med-regnskapet/README
Opprettet: 2026-03-25 av Atlas