nav-troubleshoot

Name: nav-troubleshoot
Author: navikt

Strukturerte diagnostiske trær for vanlige Nav-plattformproblemer — pod-krasj, auth-feil, Kafka-lag og databaseproblemer

Install

mkdir -p .claude/skills/nav-troubleshoot && curl -L -o skill.zip "https://agentskills.codes/api/skills/download/16627" && unzip -o skill.zip -d .claude/skills/nav-troubleshoot && rm skill.zip

Installs to .claude/skills/nav-troubleshoot

Activation

This is the description your AI agent reads to decide when to run this skill — the better it matches your request, the more reliably it fires.

Strukturerte diagnostiske trær for vanlige Nav-plattformproblemer — pod-krasj, auth-feil, Kafka-lag og databaseproblemer

120 charsno explicit “when” trigger

About this skill

Nav Troubleshoot — Platform Diagnostics

Strukturerte diagnostiske trær for vanlige problemer på Nais-plattformen. Erstatter «spør i Slack-kanalen» med guidet feilsøking.

Workflow

Identifiser symptomet — hva feiler?
Følg diagnostisk tre — steg-for-steg med kommandoer
Finn rotårsak — hva outputen betyr
Fiks — konkret løsning

Symptom-oversikt

Symptom	Start her
Pod starter ikke / krasjer	Pod-problemer
401 Unauthorized / 403 Forbidden	Auth-feil
Kafka consumer lag / meldinger prosesseres ikke	Kafka-problemer
Database-tilkoblingsfeil	Database-problemer
Treg responstid	Ytelse
Deploy feiler	Deploy-problemer

Se diagnostic-trees.md for detaljerte diagnostiske trær med kommandoer.

Pod-problemer

CrashLoopBackOff

# 1. Sjekk pod-status
kubectl get pods -n {namespace} -l app={app-name}

# 2. Sjekk logs fra forrige krasj
kubectl logs -n {namespace} -l app={app-name} --previous --tail=50

# 3. Sjekk events
kubectl describe pod -n {namespace} {pod-name} | grep -A 20 Events

Vanlige årsaker:

Log-output	Årsak	Løsning
`OOMKilled`	For lite minne	Øk `resources.limits.memory`
`java.lang.OutOfMemoryError`	Java heap for liten	Legg til `-Xmx` eller øk memory limit
`Connection refused: localhost:5432`	Database ikke klar	Sjekk Cloud SQL-instans, Flyway-migrasjon
`AZURE_APP_CLIENT_ID not set`	Manglende env-var	Sjekk at `azure.application.enabled: true` i Nais
`No such file or directory`	Feil Dockerfile COPY	Verifiser at build-artefakt kopieres riktig
Port-mismatch	App lytter på feil port	Sjekk at `spec.port` matcher appens port

ImagePullBackOff

# Sjekk image-navn
kubectl describe pod -n {namespace} {pod-name} | grep Image

# Vanlige årsaker:
# - Feil image-tag (bygget mislyktes)
# - GAR-autentisering feilet
# - Image finnes ikke

Pending (pod starter aldri)

# Sjekk om det er ressurs-begrensninger
kubectl describe pod -n {namespace} {pod-name} | grep -A 5 Conditions

# Vanlige årsaker:
# - Ikke nok ressurser i klusteret
# - PersistentVolumeClaim ikke bundet
# - Node-selektor matcher ikke

Auth-feil

401 Unauthorized

# 1. Sjekk om token er gyldig
echo "{token}" | cut -d'.' -f2 | base64 -d 2>/dev/null | jq .

# 2. Sjekk issuer
# Token bør ha: "iss": "https://login.microsoftonline.com/{tenant}/v2.0"

# 3. Sjekk audience
# Token bør ha: "aud": "{din-app-client-id}"

# 4. Sjekk om JWKS er tilgjengelig
kubectl exec -n {namespace} {pod} -- wget -qO- $AZURE_OPENID_CONFIG_JWKS_URI | head -1

Diagnostisk tre:

401 Unauthorized
├── Har forespørselen Authorization-header?
│   ├── Nei → Kaller mangler token, sjekk frontend/sidecar
│   └── Ja → Gå videre
│
├── Er token fra riktig issuer?
│   ├── Azure AD men forventet TokenX → Feil auth-flow
│   ├── ID-porten men forventet Azure AD → Feil sidecar-config
│   └── Riktig issuer → Gå videre
│
├── Er audience riktig?
│   ├── Feil audience → Kaller sender token til feil mottaker
│   └── Riktig → Gå videre
│
├── Er token utløpt?
│   ├── exp < nåtid → Token expired, sjekk token-refresh
│   └── Gyldig → Gå videre
│
└── Er JWKS tilgjengelig fra podden?
    ├── Nei → Nettverksproblem, sjekk accessPolicy outbound
    └── Ja → Sjekk token-validation-konfigurasjon

403 Forbidden

403 Forbidden
├── Er accessPolicy.inbound konfigurert?
│   ├── Nei → Legg til kaller i inbound rules
│   └── Ja → Gå videre
│
├── Er kaller registrert i inbound?
│   ├── Nei → Legg til: application: {kaller}, namespace: {ns}
│   └── Ja → Gå videre
│
└── Er det applikasjonsnivå-autorisasjon?
    ├── Ja → Sjekk roller/grupper i token
    └── Nei → Sjekk Nais app-status: kubectl get app {name} -o yaml

Kafka-problemer

Consumer lag

# 1. Sjekk consumer group status (krever Kafka CLI-tilgang)
# Alternativt: sjekk Prometheus-metrikker
# kafka_consumer_group_lag > 0

# 2. Sjekk pod-logs for feil
kubectl logs -n {namespace} -l app={app-name} --tail=100 | grep -i "error\|exception\|failed"

# 3. Sjekk om konsumenten prosesserer
kubectl logs -n {namespace} -l app={app-name} --tail=20 | grep -i "processed\|consumed"

Diagnostisk tre:

Kafka consumer lag
├── Øker lag kontinuerlig?
│   ├── Ja → Konsumenten kan ikke holde tritt
│   │   ├── Sjekk prosesseringstid per melding
│   │   ├── Vurder å øke partitions + replicas
│   │   └── Sjekk om det er en poison pill (melding som feiler)
│   └── Nei, sporadisk → Normal variasjon, sannsynligvis OK
│
├── Er konsumenten oppe?
│   ├── Nei → Sjekk pod-status (CrashLoopBackOff?)
│   └── Ja → Gå videre
│
├── Logger konsumenten feil?
│   ├── Deserialisering-feil → Schema-mismatch, sjekk producer
│   ├── DB-feil → Database-problem, se database-seksjon
│   └── Ingen feil → Sjekk om den faktisk leser fra riktig topic
│
└── Rapids & Rivers?
    ├── Sjekk at validate()-regler matcher meldingsformat
    ├── Sjekk at @event_name er riktig
    └── Prøv å legge til interestedIn() for feilsøking

Database-problemer

Connection refused / timeout

# 1. Sjekk at Cloud SQL-instans kjører
# Nais Console → App → Database → Status

# 2. Sjekk env-vars
kubectl get pod {pod} -n {namespace} -o jsonpath='{range .spec.containers[0].env[*]}{.name}={.value}{"\n"}{end}' | grep DB_

# 3. Sjekk pool-status (i app-logs)
kubectl logs -n {namespace} -l app={app-name} | grep -i "hikari\|connection\|pool"

Diagnostisk tre:

Database-tilkoblingsfeil
├── Er Cloud SQL-instans oppe?
│   ├── Nei → Sjekk GCP Console / Nais Console
│   └── Ja → Gå videre
│
├── Er env-vars satt?
│   ├── DB_HOST/DB_PORT/DB_DATABASE mangler → Sjekk Nais-manifest gcp.sqlInstances
│   └── Satt → Gå videre
│
├── Feilet Flyway-migrasjon?
│   ├── Ja → Sjekk SQL-feil i startup-log
│   └── Nei → Gå videre
│
├── Pool exhaustion?
│   ├── «Connection is not available» → Reduser maxPoolSize, sjekk lekkasjer
│   ├── Mange «active» connections → Trege queries, sjekk EXPLAIN
│   └── Nei → Gå videre
│
└── max_connections nådd?
    ├── Ja → Reduser pool per replica: replicas × maxPool < max_connections
    └── Nei → Sjekk nettverks-tilgang (Cloud SQL proxy)

Ytelsesproblemer

Treg responstid
├── Hvor er flaskehalsen?
│   ├── Sjekk Prometheus: http_request_duration_seconds
│   ├── Sjekk Tempo: distribuert trace
│   └── Sjekk Grafana Loki: loggtider
│
├── Database-queries?
│   ├── Manglende indekser → EXPLAIN ANALYZE
│   ├── N+1 queries → Bruk JOIN eller batch
│   └── Store result sets → Paginering
│
├── Ekstern tjeneste treg?
│   ├── Sjekk response time per dependency
│   ├── Vurder circuit breaker
│   └── Vurder caching
│
└── Ressursbegrensning?
    ├── CPU throttling → ALDRI sett CPU limits, sjekk requests
    └── Memory pressure → Øk memory limit

Deploy-problemer

Deploy feiler
├── GitHub Actions-feil?
│   ├── Build-feil → Sjekk kompileringsfeil i actions-log
│   ├── Docker build-feil → Sjekk Dockerfile
│   └── Push-feil → Sjekk GAR-tilgang
│
├── Nais deploy-feil?
│   ├── «invalid manifest» → Valider YAML-syntaks
│   ├── «unauthorized» → Sjekk deploy-key/workload-identity
│   └── «resource quota exceeded» → Sjekk team-kvote
│
└── Deploy OK, men app feiler?
    ├── Sjekk pod-status (se Pod-problemer over)
    └── Sjekk rollout: kubectl rollout status deployment/{app}

Boundaries

✅ Always

Start med å identifisere symptomet før du kjører kommandoer
Følg det diagnostiske treet steg for steg
Sjekk logs og events før du endrer konfigurasjon
Foreslå minst invasive fiks først

⚠️ Ask First

Endre produksjons-konfigurasjon
Restarte pods i produksjon
Endre database-konfigurasjon

🚫 Never

Endre secrets direkte i klusteret
Kjør kubectl delete pod i prod uten å forstå årsaken
Ignorer OOMKilled — det vil skje igjen

More by navikt

View all by navikt →

readme-review

navikt

Strukturell gjennomgang og generering av README-er tilpasset prosjekttype — tjeneste, bibliotek, monorepo eller naisjob

readme-review

navikt

Strukturell gjennomgang og generering av README-er tilpasset prosjekttype — tjeneste, bibliotek, monorepo eller naisjob

intellij-mcp

navikt

Uses the IntelliJ MCP tools for various programming tasks. Use when the IntelliJ MCP is available and you are building, running tests, searching or refactoring.

terse-mode

navikt

Kompakt output-stil som kutter fyllord og beholder teknisk substans — spar output-tokens uten å miste nøyaktighet.

kotlin-ktor

navikt

Ktor-applikasjoner i Kotlin — routes, plugins, Koin DI, JWT-claims som NAVident, CallLogging/MDC, StatusPages/ApiError, paginering og input-validering. Brukes via /kotlin-ktor ved Ktor-arbeid.

kotlin-ktor

navikt

Ktor-applikasjoner i Kotlin — routes, plugins, Koin DI, JWT-claims som NAVident, CallLogging/MDC, StatusPages/ApiError, paginering og input-validering. Brukes via /kotlin-ktor ved Ktor-arbeid.

Install

mkdir -p .claude/skills/nav-troubleshoot && curl -L -o skill.zip "https://agentskills.codes/api/skills/download/16627" && unzip -o skill.zip -d .claude/skills/nav-troubleshoot && rm skill.zip

Installs to .claude/skills/nav-troubleshoot

Safety

Caution — review before install

Runs shell / code
Network access
Reads credentials
Obfuscated content

Automated static scan of the SKILL.md and repo. A flag describes what the skill can do — not a verdict. Always review code before installing.

Source & maintenance

Updated

11d ago

License

MIT

Repo stars

Loads

~2,173 tokens

Stars are for the whole repository, not this skill alone.

Stats

Views

Installs

Author

navikt

7 skills published

Links

Source code

nav-troubleshoot

Install

Activation

About this skill

Nav Troubleshoot — Platform Diagnostics

Workflow

Symptom-oversikt

Pod-problemer

CrashLoopBackOff

ImagePullBackOff

Pending (pod starter aldri)

Auth-feil

401 Unauthorized

403 Forbidden

Kafka-problemer

Consumer lag

Database-problemer

Connection refused / timeout

Ytelsesproblemer

Deploy-problemer

Boundaries

✅ Always

⚠️ Ask First

🚫 Never

More by navikt

readme-review

readme-review

intellij-mcp

terse-mode

kotlin-ktor

kotlin-ktor

Search skills