7 nippi biosignaalide eeltöötluse kohta: kuidas parandada Deep Learning klassifikaatori vastupidavust

Miks on müra ja moonutuste käsitlemine nii oluline

Tavaliselt võib aegridade tuvastamise probleemiks pidada kõiki biosignaalidega seotud klassifitseerimise ülesandeid (kõrvalekallete tuvastamine), näiteks elektrokardiograafia (EKG), elektroencefalograafia (EEG), elektromüograafia (EMG) jne.

Karush – Kuhn – Tuckeri tingimuste kohaselt peaksid sisendsignaalid vastama statsionaarsuse kriteeriumidele. Lihtsalt, sisendsignaalide mustrid peavad olema samad või sarnased nagu treeningkomplektis, muutmata signaali jaotust aja jooksul.

Tavaliselt paljastab biosignaalide salvestamine palju müra. Need moonutused lisavad mudelisse täiendava variatsiooni, kuna rikuvad statsionaarsuse kriteeriume.

Need mürad võivad olla erineva iseloomuga ja täpsema teabe leiate siit ja siit. Need artiklid kirjeldavad EKG müra, kuid seda võib rakendada ka kõigi biosignaalide korral.

See tähendab, et teie DL-klassifikaatori üldine jõudlus on määratletud eeltöötlusvõtete tõhususega.

Vaatame, kuidas on praktiliselt võimalik süvendatud õpimudeli vastupidavust eeltöötluse abil parandada.

1. 50% efektiivsest digitaalsignaali töötlemisest on tõhus analoogtöötlus

Igasugune digitaalsignaali töötlemine algab tõhusa analoogsignaali konditsioneerimisega. Kõige tavalisem viga on seotud varjatud probleemiga.

Vastavalt Nyquisti teoreemile peaks ADC diskreetimissagedus olema sisendsignaali kõrgeimast sagedusest kaks korda suurem. Ükski signaal ei sobi selle kriteeriumi varjunimede põhisageduse domeeniga ja maskeerib täiendava mürana kasuliku:

Selle probleemi vältimiseks rakendatakse enne ADC-d analoog madalpääsfiltrit. Väga sageli peavad riistvarainsenerid selleks lihtsaks RC-vooluringiks piisavat. Kuid täiusliku madalpääsfiltri ja tegeliku vahel on sageduskarakteristikus väga suur erinevus:

Koosneb ideaalse (vasak) ja reaalse (vasak) analoogfiltrite sageduskarakteristikust

Veenduge, et teie sisselõikega LPF vastab Nyquisti sageduse summutamise nõuetele (lisateabe saamiseks soovitan seda raamatut):

  • 50 dB 8-bitise ADC jaoks
  • 62-bitine 10-bitise ADC jaoks
  • 74dB 12-bitise ADC jaoks
  • 98dB 16-bitise ADC jaoks

2. Kasutage treenimiseks ja ennustamiseks sama riistvara

Erinevad seadmed määratlevad erinevad signaali salvestamise tingimused, näiteks elektroonika mittelineaarsed moonutused, erinev korpus, andurite erinev asukoht jne.

Kuna erinevad tingimused määravad erinevad signaalid, soovitaksin treenimismudeli ja ennustuste tegemiseks kasutada sama riistvara. See võib põhjustada treeningkomplekti täiendavat kallutatust.

Kui valikuid pole, on võimalik proovida treeningkomplekti moonutusi, kuid see nõuab täiendavaid teadmisi riistvara ja müravaldkondade kohta.

3. Treeningu kiirendamiseks Nyquisti teoreem

Nagu ülalpool kirjeldatud, määratleb Nyquisti teoreem ADC minimaalse valimikiiruse, et salvestada pärast konverteerimist 100% analoogsignaali informatsioonist. See tähendab, et kui signaali maksimaalne sagedus on madalam kui Fs / 2, on sellel redundants, mida saab kasutada sügavvõrgu väljaõppe kiirendamiseks.

Vaatleme näidet.

Seal on Physioneti andmebaasist saadav EKG signaal proovivõtu sagedusega 125 Hz (rakendatud oli 30 Hz filter):

Näpunäide EKG eeltöötluseks: EKG signaalid eraldavad 0–100 Hz, kuid 30 HZ madalpääsfiltrit võib kasutada. See hoiab P- ja T-lained puutumatuna, kuid see vähendab R piigi amplituuti 20-30%. See pole kriitiline kõrvalekallete tuvastamiseks ja pulsi loendamiseks.

Selle signaali toitespektri tihedus näeb välja järgmine:

Nagu ülalpool näidatud, on põhiosa signaali energiast kontsentreeritud sagedusvahemikku 0–30 Hz. Lahutagem see 80Hz-ni ja võrrelgem seda algsignaaliga:

Desimatsiooniefekti demonstreerimine: signaal 80Hz (ülemine) ja 125Hz (alumine) diskreetimissagedusega

Algset kuju hoitakse, kuid signaali kogupikkust vähendatakse 35%, 92-lt 59-le. See võrdub treeningu kiirendusega 35% ilma täpsuse kaotuseta.

Selle lähenemisviisi tõhususe tõestamine on näidatud minu Githubi projektis.

Oluline märkus: veenduge, et teie otsustamine ei kaota ühtegi täiendavat detaili, mida saaks tuvastamiseks kasutada. Ainus viis tõestamiseks on katsetamine. Kuid praktiliselt on kahe virnastatud (CNN + LSTM) mudeli treenimine allapoole võetud signaalidel kiirem kui ühe mudeli treenimine algse proovivõtu sagedusega ilma jõudlust kaotamata.

4. Mõista süsteemi nõudeid

Enne keerukamate filtreerimisalgoritmide, näiteks Wavelette'i või adoptiivsete filtreerimisalgoritmide proovimist soovitaksin mõista, millised funktsioonid on äratundmiseks vajalikud.

Siin on näide.

Mõelgem süvaõppe mudeli ülesandeks on arütmia tuvastamine kõndimise ajal. Tavaliselt sisaldavad EKG kõndimise andmed madala sagedusega müra:

Samal ajal näeb selge EKG signaal välja selline:

P- ja T-lained on maskeeritud ja selle eraldamine on üsna ebaoluline ülesanne. Enne kui proovime välja töötada keerulisi algoritme, vaatame üle, milline on tegelikult arütmia:

Rütmihäire tuvastamiseks piisab efektiivse detektori ehitamiseks ainult impulsside loendamisest, kuid ilmselgelt lisab madala sagedusega algtasemel ekslemine täiendavat varianti, rikkudes liikumatust.

EKG erinevad osad võivad eraldada erinevaid spektri domeene:

Lihtsalt 5–15 Hz ribapääsfilter lahendab ekstraheerimise R-piigid. Selle filtri kasutamisel summutatakse P- ja T-lained (ja sellega seotud kõrvalekalded pole äratuntavad), kuid süsteemi nõuded on täidetud.

Peamine reegel: kuna rohkem algoritme on keeruline, seda vähem on see robustne ja selle rakendamiseks on vaja rohkem ressursse (nii aega kui ka raha). Esimene asi, mida peate proovima, peaks olema kõige lihtsam digitaalne filtreerimine.

5. Torustike arendamisel kasutage MiniMaxi põhimõtet

MiniMaxi põhimõte on mängude teooriast suurepärane strateegia.

Biosignaalide peamine probleem on signaalide kvaliteedi muutumine aja jooksul:

  • Juhtum 1. Kvaliteet subjekti vähese aktiivsuse ajal:
  • Juhtum 2: Andmete halb kvaliteet intensiivse kolimise ajal. P ja T on maskeeritud ja ühe kanaliga süsteemi abil pole seda mürast võimalik eraldada:

Esimesel juhul on P, QRS, T tuvastatavad, see tähendab, et enamus EKG ebanormaalsetest mustritest (südameatakk, kodade virvendusarütm jne) on äratuntav.

Teise puhul võis ära tunda vaid mõned QRS-iga seotud kõrvalekalded (arütmia jne).

Nagu ülalpool näidatud, on QRS-i ekstraheerimise parim viis 5–15Hz ribapääsfiltri rakendamine, samal ajal kui P ja T surutakse alla.

2. juhtumi puhul pole see kriitiline, kuna müra varjab P ja T, kuid see piirab võimalike tuvastatud patoloogiate hulka, samal ajal kui sisendis on kvaliteetsed andmed.

Parim viis selle probleemi vältimiseks on kohanemisfiltri rakendamine, mis muudab selle impulssreaktsiooni muutuvas keskkonnas:

Idee on lihtne:

  1. Tehke andmekvaliteedi detektor (lineaarsed detektorid / CNN);
  2. Määrake filtrikomplekt;
  3. Tehke impulssreaktsiooni muutmise reegel sõltuvalt sisendsignaali kvaliteedist.

6. Nutikas viis kõrgsagedusfiltrite kasutamiseks

Tavaliselt on algtasemega eksimise jaoks vaja kõrgpääsfiltrit:

EEG algtaseme müraga

Ilmne lähenemisviis kaalub kõrgpääsfiltri kasutamist. Selle peamine kitsendus on väga madal piirsagedus (0,05Hz) ja kõrge stoppriba summutamine (> 30dB). Nõuete täitmiseks peab filtril olema kõrge järjekord, see tähendab pikka viivitust, mis ei pruugi sobida reaalajas rakenduste jaoks.

Alternatiivne viis:

  • Sisendsignaali kahandamiseks;
  • Eemaldage algtaseme müra, rakendades madalpääsfiltrit 0,05 Hz piirsagedusega;
  • Interpoleerige signaal;
  • Lahutage algsignaalist lähtejoon

Koodinäide (Matlab) on saadaval selles GitHubi hoidlas.

7. Iteratiivne eksperimenteerimine

Nagu iga andmeteaduse probleem, on ka biosignaalide klassifitseerimine korduv katseprotsess, kuna erinevad filtreerimismeetodid võivad olla eri rakenduste jaoks sobivad.

Olen kokku võtnud filtreerimistehnikate nimekirja, kõige usaldusväärsemast halvimani.

MÄRKUS. See on ainult minu isiklik arvamus, see ei pruugi kokku langeda teie omaga.

  • Digitaalne filtreerimine (FIR, IIR). FIR on soovitatav, kuna puuduvad grupiviivituse moonutused. Sellel on mõõdukas jõudlus, mis sobib ideaalselt mittespetsiifiliste tingimuste jaoks, rakendamiseks väga lihtne ja 100% vastupidav.
  • Lainefiltreerimine. Tugev jõudlus, kuid parameetrite valiku osas võib realiseerimine olla keeruline.
  • Adaptiivne filtreerimine. See meetod näitab kehvemat jõudlust kui Wavelet-filtreerimine, kuid hea paindlikkuse ja jõudlusega on see palju lihtsam rakendada.
  • Sõltumatu komponendi analüüs (ICA) / pimeallika eraldamine (BSS). Siin on saadaval kiire ICA algoritmi rakendamine kõige populaarsemates programmeerimiskeeltes. Ma soovitaksin seda proovida viimati, sest:
  1. See töötab ainult mitme kanaliga konfiguratsioonidega;
  2. Leidsin, et selle lähenemisviisi vastupidavus on väga nõrk, kuna lähenemine pole tagatud;
  3. See nõuab suhteliselt rohkem arvutusressursse, ei pruugi sobida reaalajas rakenduste jaoks.

___________________________________________________________________

Kas paber on kasulik? Palun jätke oma tagasiside artikli kohta selle lingi kaudu

___________________________________________________________________

Dmitrii Shubin, teadus- ja arendustegevuse insener, meditsiiniseadmed

Torontos, Kanadas

Kontaktinfo:

E-post: shubin.dmitrii.n@gmail.com

LinkedIn, GitHub