Guide

Hur utvärderar och kravställer man en automatiserad anamnes- och triagelösning?

Det blir allt vanligare att vårdorganisationer upphandlar och inför lösningar för automatiserad anamnes och triage, men köpprocessen är fortfarande omogen. Man tror att man köper ett IT-system, men i själva verket köper man en medicinteknisk produkt.

Varför är det viktigt att tänka på att det är en medicinteknisk produkt man köper in? Jo, för att man måste kravställa inte bara IT-funktioner, utan även medicinska prestanda, som t.ex. tillförlitlighet av prioritet. Dessa parametrar är viktiga för att uppnå den fulla potentialen med införandet, med bibehållen patientsäkerhet. Men hittills har medicinsk prestanda inte kravställts i en enda upphandling på de fyra marknader vi arbetar med. Utan man har förlitat sig på att lösningarna är CE-märkta. Ett CE-märke är dessvärre inte en garanti för en viss medicinsk prestanda. Vad som ingår i CE-märket skiljer sig för varje specifik lösning som CE-märkts.

Vad ska en automatiserad anamnes- och triagelösning kunna göra?

För att uppnå full potential i avlastning ska en automatiserad anamnes- och triagelösning kunna göra motsvarande det som sker vid en telefontriage – det vill säga ställa frågor till patienten utifrån beskrivna symtom och kontaktorsak och

utesluta akut sjukdom eller hänvisa till 112
styra patienten till rätt profession, kontaktform och prioritet
redovisa ett beslutsunderlag (anamnes, prioritet, differentialdiagnoser etc.) för vårdutövaren, som underlättar och förbättrar hanteringen av patientfallet.

Detta ska kunna göras på ett patientsäkert sätt där vårdverksamheten kan använda sin organisation på bästa sätt, för att leverera en jämlik vård efter behov. Men för att uppnå den fulla potentialen av frigjord tid krävs en lösning som

har hög medicinsk tillförlitlighet
är förståelig för patienter
underlättar och avlastar för vårdpersonalen
inte lägger merarbete på vårdorganisation.

Vad är viktigt att utvärdera?

I denna guide sammanfattar och förklarar vi hur man kan utvärdera en automatiserad anamnes- och triagelösning som ska användas för att avlasta vården och möjliggöra patientsäker och jämlik vård efter behov. För att säkra att en lösning skapar de effekter man önskar är det viktigt att man utvärderar flera perspektiv:

Funktionalitet för patienten
Funktionalitet för verksamhet och vårdutövare
Medicinsk funktionalitet
Medicinsk tillförlitlighet

Det sistnämnda borde vara det absolut viktigaste att utvärdera och jämföra. Till din hjälp hittar du i denna guide ett antal parametrar att utvärdera inom ovan nämnda perspektiv, som är avgörande för att din organisation ska uppnå den effekt ni önskar.

Vad betyder det att en lösning är CE-märkt?

Primärt betyder CE-märkningen att man har ett godkännande att distribuera lösningen enligt det fördefinierade ”Intended Purpose” inom EU och EES, vilket innebär att man visat att det finns tillräckligt med argument för att nyttorna överväger riskerna med att använda lösningen. Det betyder också att lösningen bara får användas under de förutsättningar och med de åtgärder som definierats i CE märkningen.

Vad betyder en CE-märkning inte?

Här blir det också viktigt att förstå vad CE-märket inte betyder. Som till exempel den vanliga missuppfattningen att det är en stämpel på hur bra en lösning är eller vilka prestanda den har. CE-märkningen definierar inte i vilken utsträckning nyttorna överväger riskerna och inte heller i vilken grad lösningen är medicinskt tillförlitlig (det finns några få undantag – men generellt ligger det till på det här sättet). Det är fortfarande upp till användaren att bedöma om produkten uppfyller dennes behov och krav på medicinsk prestanda. Det är alltså upp till dig som kravställare att kravställa vad du anser att en produkt ska ha för medicinsk prestanda för att köpas och användas, medan CE-märket enbart garanterar att grundläggande krav på nytta och säkerhet har uppfyllts.

Titta närmare på dessa saker!

För att jämföra automatiserade anamnes- och triagelösningar är det viktigt att titta närmare på ”Intended Purpose”, den kliniska utvärderingsrapporten (CER) och den strukturerade övervakningen av lösningen i användning (PMS/PSUR/PMCF).

Dessa ska ge svaret på

hur väl lösningen fungerar medicinskt
hur man uppnår patientsäker användning
under vilka förutsättningar man kan införa lösningen
hur man uppnår den fulla potentialen i avlastning.

Vad gör en lösning patientsäker?

Frågan är inte helt enkel, men det finns några grundläggande delar som de flesta nog är överens om.

Korrekt (representativt för målgruppen) medicinskt innehåll och dess täckning av symtom och tillstånd för användningsområdet (patientinflödet).
Patientens förståelse av frågorna och möjligheten att svara korrekt och ärligt på frågorna.
Hantering av att patienter ibland svarar fel eller inte vet alla svar.
Användbarheten av lösningen, som gör att patienten kan ta sig igenom flödet.
Den tekniska funktionen och dess robusthet.
Medicinsk tillförlitlighet i lösningens rekommendationer gällande t.ex:
– Prioritet/brådskegrad
– Profession/specialitet för patientfallet
– Kontaktform för patientfallet
– Differentialdiagnoser

Vad bör man jämföra och kravställa?

Olika lösningar är uppbyggda på olika sätt och levererar olika funktionalitet, så de kan vara svåra att jämföra. Men här är några punkter som man bör ha i åtanke för att kunna avlasta vården och möjliggöra patientsäker och jämlik vård efter behov.

Funktionalitet för patienten

Funktionalitet för patienten kan man jämföra genom att titta på dessa punkter.

Användbarhet och nöjdhet.
Hur många fullföljer flödet från början till slut och hur många hoppar av på vägen? Hur många frågor ställs i genomsnitt, och hur lång tid det tar för patienten att fullfölja frågesessionen?
Hur startar patienten? Beskriver man symtomen med egna ord, dvs. opåverkad, eller väljer man i en lista av kontaktorsaker? Kan man bara börja med ett ingångssymtom eller flera?
Kan tidigare svar redigeras, och vad händer i så fall då? Kan bara det senaste redigeras eller flera?
Hur varnas patienten om tillståndet bedöms som akut?

Funktionalitet för verksamhet och vårdutövare

Funktionalitet för verksamhet och vårdutövare kan man jämföra genom att titta på dessa punkter.

Vad och hur mycket kan man göra själv på organisations- och verksamhetsnivå, utan att blanda in leverantören?
Vad kan man hänvisa till och hur? Till exempel olika professioner, olika prioritet och olika kontaktformer (chatt, video, fysiskt möte etc.)
På vilket sätt kan verksamheten styra sina arbetssätt och hur kan patienten hanteras utifrån lokala behov? Kan verksamheten lokalt konfigurera hänvisning/styrning?
Hur kan man samarbeta inom verksamheten runt patientfallet? Är det möjligt med överlämning, flera deltagare i chatt och video, intern dialog?

Medicinsk funktionalitet

Medicinsk funktionalitet kan man jämföra genom att titta på dessa punkter.

Vad är ”intended purpose” och vem är ”intended user” för lösningarna? Detta bestämmer hur ni kan använda lösningen och vad leverantören faktiskt har bevisat är patientsäkert.
Hur många unika symtom, individanpassade utfrågningar, unika riskfaktorer och diagnoser täcker lösningen?
Anpassas frågor för patienten och tas det hänsyn t.ex. till ålder, kön och tidigare sjukdomar? Till exempel bör utfrågning om oskyddat samlag baseras både på sannolikheten att svaret är ja samt hur det påverkar utfallet sett till de symtom patienten uppgett.
Hur hanteras skalor som t.ex. feber, smärta och andningssvårighet? Finns det en brytpunkt eller används hela skalan? En temperatur på 38 grader kan vara helt ofarligt för en grundfrisk fyraåring, medan det för en 85-åring med hjärtsvikt kan tyda på en allvarlig infektion.
Hur hanteras att patienten kan ha flera sjukdomar? Till exempel en förkylning som kan orsaka, och därmed samförekomma med, tillstånd så som en bakteriell tonsillit eller till och med direkt akuta tillstånd som myokardit.
För vilka ärenden/patientfall kan patienten ladda upp bilder? Kan en eller flera bilder laddas upp? Analyseras bilder, eller behöver patienten beskriva hur det ser ut?

Medicinsk tillförlitlighet

Den medicinska tillförlitligheten kan jämföras genom att utvärdera leverantörernas kliniska utvärdering (CER), som är en del av CE märkningen, genom att titta på dessa punkter:

Prioritet/brådskegrad och dess sensitivitet/specificitet via en full ”confusion matrix” (sanna positiva, falska positiva, sanna negativa och falska negativa). Här tittar man ofta på: ”behöver vård idag” vs. ”kan vänta med vård”, eftersom den går att jämföra med andra studier.
Hur tillförlitlig är lösningen att styra till rätt profession för hantering av patientfallet?
Hur tillförlitligt beslutsstöd har lösningen, och vad ingår i beslutsstödet t.ex. i form av differentialdiagnoser?
Av punkterna ovan är det generellt sett den medicinska funktionaliteten och tillförlitligheten som är svårast att jämföra och som (av den anledningen?) oftast saknas i upphandlingar.

Gör en studie eller hitta alternativ till det

Vad kan man mer göra för att jämföra den medicinska tillförlitligheten? Här är självklart en studie från faktisk användning och riktiga patienter det bästa, men det har man sällan möjlighet till under en upphandling. Då behöver man titta på alternativa metoder och säkra så låg bias som möjligt i jämförelsen.

Patientvinjetter

En vanlig metod är patientvinjetter. Men här ska man undvika att använda standard-patientvinjetter, som de flesta lösningarna troligen redan använt i sin interna testning. I stället behöver man skapa ett eget underlag av patientvinjetter för utvärdering och en struktur där man undviker bias mot en viss lösning vid utvärderingen.

Här kommer ett förslag på tillvägagångsätt:

Skapa representativa och viktiga patientvinjetter (patientfall).
Genomför tester lösning för lösning.
Utvärdera genomförda tester enligt:
– kvalitet och relevans av anamnes
– kvalitet och tillförlitlighet av prioritet/brådskegrad
– kvalitet på rekommendation av profession och kontaktform
– kvalitet, relevans och tillförlitlighet av beslutstöd som t.ex. differentialdiagnoser.
Väg samman resultatet och jämför mellan lösningarna.

Skapa representativa och viktiga patientvinjetter

En grupp av medicinska specialister (grupp 1) utan detaljkunskap om lösningarna skapar en uppsättning av patientfall (50 till 100 stycken) utifrån de medicinska behoven av triageringen i verksamheten och patientpopulationen. Patientfallen hämtas utifrån gruppens erfarenhet och bör åtminstone täcka

de vanligaste patientfallen i verksamheten som ska använda lösningen
patientfall som man måste upptäcka
riskfyllda patientfall (som är lätta att missa)
patientfall som börjat med ett sekundärt symtom (i alla fall enligt medicinsk bedömning)
patientfall där patienter ändrar inriktning på sina svar under frågesessionens gång
patientfall som bygger på att patienten har flera tillstånd samtidigt.

Definiera per patientfall: förväntade slutpunkter utifrån viktiga diagnoser, brådskegrad, profession och kontaktform.

Genomför tester lösning för lösning

De medicinska specialisterna i grupp 1 testar patientfallen i varje lösning och dokumenterar

vilken lösning de testat
faktiska frågor inom patientfallet och svaren man anger (OBS! När lösningar genererar frågor man inte förutsett i ett patientfall behöver man dels säkra att svararen är så homogena som möjligt, dels uppdatera patientfallen för att få med dessa frågor. Om patientfall uppdaterats under testfasen, överväg om de behöver testas på nytt.)
faktiska utfall man får inom testet - brådskegrad, diagnoser, rekommenderad profession och kontaktform.

Utvärdering av tester

Utvärderingen genomförs helst av en separat grupp av medicinska specialister (grupp 2) som inte tagit fram patientfallen eller testat lösningarna. Denna grupp får se och utvärdera var för sig:

resultat från genomförda tester
det tänkta patientfallet.

Kvalitet och relevans av anamnes

Utvärdera kvaliteten på anamnesen utifrån skalan röd – gul – grön.

Röd = Finns uppenbara brister utifrån verksamheten och med det även eventuell patientfara.
Gul = finns anmärkningar
Grön = inga betydande anmärkningar

Hur komplett uppfattas anamnesen för att kunna fatta triageringsbeslut utan kompletterande frågor till patient? Hur relevanta är alla frågorna? Har patienten kunnat använda sina egna ord?

Exempel

En ung kvinna söker hjälp för buksmärta, men får ingen fråga gällande graviditet. Detta gör att varken lösningen eller en människa kan bedöma fallet på ett säkert sätt, och därför utvärderas anamnesen för detta fall som Röd.

En anamnes inhämtas som täcker den viktigaste informationen. Utöver denna utreds även många frågor som inte alls ses som relevanta i sammanhanget. För detta fall utvärderas anamnesen som Gul.

Kvalitet och tillförlitlighet av prioritet/brådskegrad

Utvärdera kvalitet på brådskegrad på skalan röd – gul – grön. Ta hänsyn till

övertriagering av icke akuta fall
undertriagering av akuta/ subakuta fall
graden av fel och hur allvarligt felet är (OBS! inte bara livsfarligt).

Exempel

Akut bröstsmärta för en äldre man utan uppenbar orsak får låg prioritet, vilket utvärderas som röd.

Kronisk snuva utan andra tecken på malignitet får högsta prioritet, vilket utvärderas som gul.

Kvalitet på rekommendation av profession och kontaktform

Utvärdera även rekommendation av profession och kontaktform på skalan röd – gul – grön, med tanke på följande:

risken av fördröjd vård med betydande konsekvenser för patient
extrapolering på hela volymen – om alla patienter av liknande typ hanteras på föreslaget sätt, vad blir risker utifrån patientsäkerheten?

Exempel

Akut ledvärk med hög feber hänvisas till fysioterapeut, vilket utvärderas som Röd.

Psykiska besvär med viss indikation på somatiskt underliggande orsak hänvisas till Psykolog, vilket utvärderas som Gul.

Kvalitet, relevans och tillförlitlighet av beslutstöd som differentialdiagnoser

Utvärdera slutligen rekommendation av profession och kontaktform på skalan röd – gul – grön, med tanke på följande:

täckning av diagnosförslagen för patientfallet
relevans av diagnosförslagen för patientfallet.

Exempel

En medelålders kvinna med ångest, dyspné och bröstsmärta får endast förslag på psykiska sjukdomar, vilket utvärderas som röd.

Flera i sammanhanget ovidkommande diagnoser föreslås. Beroende på antalet och graden av undermålighet kan diagnosförslagen utvärderas som gul eller röd.

Resultatet vägs samman och jämförs

Resultatet vägs samman och jämförs på ett strukturerat sätt. Till exempel, låt specialisterna i grupp 1, som skapade patientfallen, analysera varje lösning enligt följande parametrar som input för vidare jämförelse:

För varje graderad parameter (anamnes, brådskegrad, profession, kontaktform och diagnoser) görs en övergripande sammanställning av kvalitet beroende på hur många röda, gula och gröna patientfall det blir totalt.
För varje graderad parameter (anamnes, brådskegrad, profession, kontaktform och diagnoser) görs en analys av olika medicinska områden och olika grupper av brådskegrad.
Hur många röda, gula och gröna patientfall finns inom respektive grupp?
Hur homogen/avvikande är kvaliteten mellan olika grupper?

Avslutning

Visiba var bland de första i Norden med att skapa en automatiserad anamnes- och triagelösning. Och vi var allra först med att göra det svåra, men viktiga, vägvalet att arbeta med AI-modeller för att lösa komplexa problem. På resan har vi lärt oss mycket om hur man bör kravställa och utvärdera en lösning för automatiserad anamnes- och triage – och vad man bör undvika. Men vi uppmuntrar dig att läsa mer från fler, för att göra den bästa möjliga jämförelsen av lösningar för automatiserad anamnes- och triage. Har du några frågor om den här guiden är du varmt välkommen att kontakta Peter Tyreholt, Chief Product Officer på Visiba.

peter.tyreholt@visibacare.com

Nedan hittar du mer kunskap i ämnet!

Vidare läsning

1. [Ceney et al. 2021] Accuracy of online symptom checkers and the potential impact on service utilisation

2. [Hill, Sim and Mills 2020] The quality of diagnosis and triage advice provided by free online symptom checkers and apps in Australia.