Kostnader og modeller

Kort beskrivelse

Prosjekt for å kartlegge, evaluere og optimalisere kostnadene ved bruk av AI-modeller i BBL Pivotals produkter. Inkluderer vurdering av compliance-krav (GDPR, EU), alternative modelleverandører og hosting-løsninger.

Bakgrunn

Claude er fjernet fra Snakk med regnskapet — for dyrt for produksjon (~100 kr/chat-sesjon)
Excel AI Add-on avviklet — Copilot vil løse behovet billigere
Eiendomsplattformen trenger bærekraftig modellstrategi for 250.000+ boliger
Compliance (GDPR) begrenser hvilke modeller vi kan bruke i GCP

Problemstilling

Utfordring	Beskrivelse
Kostnad	Claude/Opus er best, men uholdbart dyrt i produksjon
Compliance	Google Vertex hoster kun Gemini (svak) og Claude (dyrt) i EU
Kvalitet	Billige modeller (Gemini Flash) er ikke gode nok for komplekse oppgaver
Tilgjengelighet	Gode kinesiske modeller (MiniMax, Qwen) har uklar GDPR-status

Spørsmål å besvare

Hvilke modeller er tilgjengelige og GDPR-compliant i EU?
Finnes det løsninger der kinesiske modeller (MiniMax, Qwen) hostes via EU-infrastruktur?
Hva er reell kvalitetsforskjell mellom Claude, MiniMax, Mistral og Gemini for våre brukstilfeller?
Hva koster det å lansere Snakk med regnskapet med ulike modellalternativer for 10.000 brukere?
Er selvhostede modeller på GCP (GPU) et alternativ?

Modeller under vurdering

Modell	Kvalitet	Pris	EU/GDPR	Status
Claude Opus/Sonnet	⭐⭐⭐⭐⭐	Dyrest	Via GCP	❌ For dyrt
Gemini 2.5 Flash	⭐⭐	Billig	✅ GCP	❌ Ikke god nok
MiniMax M2.5	⭐⭐⭐⭐	1/15 av Claude	🟡 Uklar	🟡 Tester
Mistral Large	⭐⭐⭐	Middels	✅ Fransk/EU	🟡 Bør testes
Qwen 3.5	⭐⭐⭐	Fastpris	🟡 Sveits-hosting	🟡 Følger med

Deloppgave: Sensitive data

Trond Ove ønsker avklaring: Hva er sensitive data i vår kontekst? Trenger vi å være bekymret for alt, eller er det spesifikke datatyper vi må ha kontroll på?

Møte planlegges etter påske med ledere i Pivotal + Turid (CRQ).

Spørsmål til møtet:

Hvilke datatyper behandler vi som er sensitive (persondata, helse, økonomi)?
Hvilke datatyper kan vi behandle med mindre strenge krav?
Hvordan påvirker dette modellvalg? (Noen modeller/leverandører er OK for ikke-sensitiv data)
Kan vi differensiere: sensitiv data → streng EU-modell, ikke-sensitiv → billigere alternativ?

Kostnadsoptimalisering — strategier fra analyse (2026-03-26)

Basert på gjennomgang av rapport om LLM-kostnadsarkitektur. Tre strategier med høy relevans:

1. Model Cascading (modell-routing)

Ruter enkle spørsmål til billige modeller, eskalerer kun komplekse til dyre.

Eksempel: Gemini Flash (enkle oppslag) → MiniMax/Mistral (mellomkomplekse) → Claude (kun vanskelige)
Forventet besparelse: 70-80% kostnadsreduksjon uten kvalitetstap
Relevans: Direkte svar på Claude-er-for-dyrt-problemet. Flertallet av regnskap-spørsmål er enkle nok for billige modeller.

2. Semantisk caching

Lagrer svar på tidligere spørsmål og matcher nye spørsmål basert på mening (ikke eksakt tekst).

Mekanisme: Vektor-embedding + cosine similarity (terskel 0.85-0.90) i Redis/Valkey
Dokumentert effekt: 60% hit rate → 60% kostnadsreduksjon, 250x raskere respons
Relevans: Mange regnskap-spørsmål er repeterende. Eiendomsplattformen med 250.000 boliger vil ha enda høyere cache-hit.
Trade-off: ~9% reduksjon i nøyaktighet (91% vs 100%) — må evalueres per brukstilfelle.

3. Prompt Caching (provider-native)

Anthropic og Amazon Bedrock tilbyr gjenbruk av KV-cache for system-prompts.

Effekt: Opptil 90% reduksjon i input-kostnader for gjentatte system-prompts
Relevans: Umiddelbar gevinst hvis ikke allerede aktivert i Snakk med regnskapet.

Prisoversikt 2026 (fra rapport)

Modell-tier	Eksempel	Input/1M tokens	Output/1M tokens
Frontier	GPT-5.2	$1.75	$14.00
Mid-tier	Mistral Small 3.1	$0.10	$0.30
Lightweight	GPT-5-mini	$0.125	$1.00
Nano	GPT-5-nano	$0.025	$0.20

→ Mistral Small over GPT-4o = 97% kostnadsreduksjon ved sammenlignbar kvalitet for oppsummering/kode.

Ikke relevant nå (men notert)

Client-side inference (WebGPU/WASM): Krever GPU hos sluttbruker. Ikke aktuelt for PivoCore i dag.
Conversation history management: Relevant for lange chat-sesjoner, men «Snakk med regnskapet» har korte oppgavefokuserte sesjoner.

Plan B: Lokale open source-modeller

Problemstilling

Alle PivoCores AI-tjenester er i dag avhengig av skybaserte modelleverandører (Google, Anthropic). Dersom disse går ned — planlagt vedlikehold, kapasitetsproblemer, eller geopolitisk hendelse — stopper alt.

Evan Armstrong (The Leverage, mars 2026) dokumenterte den ekstreme konsentrasjonen i AI-industrien: tre selskaper tok $156 B a v$ 189B i global VC. HHI-indeksen er 3.700 — over dobbelt av «highly concentrated»-terskelen. Hvis OpenAI eller Anthropic feiler, vil det gi kaskaderende konsekvenser.

Hvorfor dette er kritisk for oss

Risiko	Konsekvens
GCP Vertex nedetid	Snakk med Pivo, Regnskap 2.0, alle AI-produkter nede
Modell-API ratelimits	Degradert ytelse i peak-perioder (årsoppgjør, kvartalsslutt)
Leverandør-lock-in	Prisjusteringer fra Google/Anthropic kan endre hele kostnadsbildet
Geopolitisk	Sanksjoner, datasuverenitet, endrede vilkår
Compliance-endring	Nye EU-krav kan utelukke visse skymodeller

Foreslått tilnærming

Mål: Kunne kjøre kritiske AI-tjenester på egne/lokale modeller innen 24 timer ved bortfall av skytjenester.

Steg	Tiltak	Tidsramme
1	Kartlegge minimumskrav per produkt — hvilken modellkvalitet trengs for degradert, men fungerende drift?	Q2 2026
2	Teste open source-modeller (Llama, Mistral, Qwen) på GCP GPU-instanser — ytelse, kostnad, kvalitet	Q2 2026
3	Selvhostet beredskapsmodell — én modell som kan startes opp på kort varsel og dekke basisfunksjonalitet	Q3 2026
4	Automatisk failover — modell-routing som automatisk bytter til lokal modell ved sky-bortfall	Q3-Q4 2026

Modeller å vurdere for lokal kjøring

Modell	Lisens	Kvalitet	GPU-krav	Relevans
Llama 3.3 70B	Open source	⭐⭐⭐⭐	2x A100	God allround, norsk OK
Mistral Large	Kommersiell	⭐⭐⭐	1-2x A100	EU-basert selskap, GDPR-vennlig
Qwen 2.5 72B	Open source	⭐⭐⭐⭐	2x A100	Sterk på kode og analyse
Gemma 2 27B	Open source (Google)	⭐⭐⭐	1x A100	Lett, rask, God til enklere oppgaver

Sikkerhetsperspektiv

Lokale modeller gir ekstra sikkerhet utover beredskap:

Full datakontroll — ingen data forlater vår infrastruktur
Ingen tredjepartsrisiko — uavhengig av leverandørers vilkårsendringer
Predikable kostnader — GPU-kostnad er fast, ikke per-token
Audit trail — full kontroll over logging og sporbarhet
Compliance-forenklet — ingen underdatabehandlere for modellkjøring

Kobling til eksisterende strategier

Model cascading (allerede planlagt): Lokal modell kan være laveste tier i cascading-modellen
Semantisk caching: Reduserer behovet for modellkall — gjør lokal kjøring mer håndterbart
Prompt caching: Mindre relevant for lokale modeller (ingen per-token-kostnad)

Kostnadsvurdering (foreløpig)

Alternativ	Månedskostnad	Fordel
On-demand A100 (GCP)	~$3-5K/mnd per GPU	Fleksibelt, ingen forpliktelse
Reserved A100 (1 år)	~$1.5-2.5K/mnd per GPU	Lavere kostnad, forutsigbart
Spot/preemptible	~$1-1.5K/mnd per GPU	Billigst, men kan bli tatt
Egen hardware (co-lo)	Høy investering, lav drift	Full kontroll, langsiktig billigst

Viktig: Plan B trenger ikke være like god som primærløsningen. Det handler om å holde driften gående — ikke levere topp kvalitet under en krise.

Handlingspunkter

Referanser

06 Møter/260324 Snakk med regnskapet Modellkostnader
06 Møter/260324 Excel AI Add-on Status
Kostnadsstyring_og_Modellstrategi
03 Produkter/Snakk-med-regnskapet/README

Opprettet: 2026-03-25 av Atlas

PivoCore

Utforsker

README

Kostnader og modeller

Kort beskrivelse

Bakgrunn

Problemstilling

Spørsmål å besvare

Modeller under vurdering

Deloppgave: Sensitive data

Kostnadsoptimalisering — strategier fra analyse (2026-03-26)

1. Model Cascading (modell-routing)

2. Semantisk caching

3. Prompt Caching (provider-native)

Prisoversikt 2026 (fra rapport)

Ikke relevant nå (men notert)

Plan B: Lokale open source-modeller

Problemstilling

Hvorfor dette er kritisk for oss

Foreslått tilnærming

Modeller å vurdere for lokal kjøring

Sikkerhetsperspektiv

Kobling til eksisterende strategier

Kostnadsvurdering (foreløpig)

Handlingspunkter

Referanser

Oversikt