Projekt DIHS genomför praktiska labbar där man jobbar med olika varianter av Artificiell intelligens (AI). Fokus är på att låta deltagarna jobba praktiskt och labba med med olika former av AI under en serie halvdagar i Umeå och Skellefteå. Projektet har också medverkat i/genomfört ett antal icke-tekniska event.

Deltagarna har i stor utsträckning kommit från näringslivet. Projektet är finansierat av Region Västerbotten, Vinnova, Skellefteå kommun samt telekomföretaget A3.


Kalle Prorok leder en labb om Natural Language Processing, dvs språkanalys med hjälp av AI . Foto: Thomas Kvist

Syftet med projektet

Insikten om att gamla affärsmodeller kommer att behöva förändras pga av de datadrivna och AI-stödda innovationer som kommer att komma på bred front har inte slagit rot hos allt för många aktörer. Inte heller IT-branschens förmåga att tillhandahålla AI-kompetens är särskilt omfattande än så länge.

Projektet kommer att bidra till att insikter om den praktiska tillämpningen av AI ökar hos fler genom att ett antal personer med hemvist hos olika aktörer bygger ny kunskap och nya erfarenheter via labbar, inspirationsföreläsningar mm.

Mål

Målet är att skapa praktisk kunskap och erfarenhet kring Artificiell Intelligens/Maskininlärning för att utveckla regionala aktörer som efterfrågar/kommer att efterfråga sådana lösningar och de regionala aktörer som kan/kommer att tillgodose denna efterfrågan. På detta sätt underlättas nya former av digitalisering i både privat och offentlig sektor och leveranskapaciteten hos regionala IT-leverantörer ökar. Genom att jobba praktiskt i labbarna får deltagarna insikter kring vad som är svårt respektive enklare. Man får också en förståelse för hur viktigt datat är och får argument för att ägna resurser åt datatvätt, skapa metadata etc.

Målgrupp

Målgruppen är företag, organisationer och individer med intresse av att bygga upp hands-on erfarenhet kring arbete med Artificiell Intelligens/Maskininlärning. Projektet kommer att genomföra aktiviteter i Umeå och Skellefteå.

Projekttid

December
2018 – oktober 2020

Utfall

Strax under 20 labbar har genomförts. De är fördelade på event i Umeå och Skellefteå. 140 personer har deltagit i labbarna och därmed fått praktisk kunskap om AI. Flera personer återkommer, antalet unika personer som deltagit är ca 70. Sammantaget, inkluderat både labbar och näringslivsfrukostar som projektet arrangerat och medverkat i, har drygt 90 organisationer deltagit i projektets aktiviteter. De flesta deltagarna i de tekniska labbarna kommer från näringslivet men deltagare har också kommit från Umeå kommun, Lycksele kommun och Malå kommun och länets universitet.

Alla Jupyter Notebooks och Powerpoints som skapats i labbarna finns här: https://drive.google.com/open?id=1iDWhHLmp5j1JVVdROK1u9O1b9L-h1VLi&authuser=thomas.kvist@regionvasterbotten.se&usp=drive_fs

Följande
labbar har genomförts/genomförs i projektet:

1. Grunderna I Python

  • Baskoncept i programmeringsspråket Python, version 3.6
  • Baskoncept i Jupyter, den labbmiljö vi använder
  • Baskoncept i centrala programbibliotek, bl a Tensorflow 2.x, Pandas och Scikit-learn

2. Grunderna I statistik

3.
Förbereda data och grunderna I att skapa ett neuralt nät

  • Importera data till en Pandas Dataframe
  • Skapa statistik över datat och granska detta utifrån
    kvalitet, spridning etc
  • Hantering av extremvärden
  • Hantera kategoridata – One Hot Encoding
  • Skala om numeriska datat
  • Skapa tränings- och valideringsdata
  • Skapa och testa ett enkelt neuralt nätverk i
    Tensorflow 2 i en labb med utgångspunkt i en Jupyter Notebook

4.
Grunderna i Natural Language Processing (NLP)

  • Grundläggande koncept inom NLP and DNLP
  • Demonstration av en chatbot
  • Labba med NLP i
    en labb med utgångspunkt i en Jupyter Notebook

5. Grundläggande
bildanalys

  • Grundläggande begrepp i analys av stillbild och video
  • Demonstration av en bildanalystjänst
  • Skapa och testa ett bildanalys m h a ett neuralt nätverk i Tensorflow 2 samt med traditionell AI-tekniker i en labb med utgångspunkt i en Jupyter Notebook

6. NLP med kundtjänstärenden Avancerade koncept inom NLP

  • Grundläggande begrepp inom Naturtal Language Processing(NLP)
  • Skapa och testa ett textanalys av kundtjänstdata från Skellefteå kommun med hjälp av FastText i en labb med utgångspunkt i en Jupyter Notebook

Inspelat seminarium: https://www.youtube.com/watch?v=ZV-pMxz1QAI https://www.youtube.com/watch?v=4I5Pw-ZWDzc

Det finns en demo i form av en enkel webbapp där Fasttext har använts för att skapa en modell där Skellefteås kundtjänstdata använts för att träna modellen. Man anger en ärendetext och en bedömning görs av var i kommunorganisationen ärendet ska hanteras. Demon illustrerar bl a att AI-lösningar oftast ger svar kopplade till sannolikheter samt hur viktigt det är att värdeförråden i datat är stringenta och att de inte överlappar varandra.

Webbappen finns på en gratistjänst och kan därför vara långsam och har en lååång uppstartstid (10-20 sek). Webbappen finns här: https://kkat.herokuapp.com/

7. Tidsserianalys
mha AI

  • Grundläggande begrepp i tidsserieanalyser
  • Demonstration av en
    tidserieanalys
  • Skapa och testa ett
    tidsserieanalys m h a ett neuralt nätverk i Tensorflow 2 samt med traditionell
    AI-tekniker i en labb med utgångspunkt i en Jupyter Notebook

8. Klustring

  • Grundläggande begrepp kring klustring/gruppering av data
  • Demonstration av klustring
  • Skapa och testa klustring m h a ett neuralt nätverk i Tensorflow 2 samt med traditionell AI-tekniker i en labb med utgångspunkt i en Jupyter Notebook

9. Reinforcement
Learning

  • Grundläggande begrepp kring Reinforcement Learning
  • Demonstration av Reinforcement Learning
  • Skapa och testa Reinforcement Learning m h a AI-baserade tekniker i en labb med utgångspunkt i en Jupyter Notebook och Open AI

Inspelat seminarium: https://regionvasterbotten.se/play/deep-reinforcement-learning

10. Hur jobbar en Data Scientist

En yrkesverksam Data Scientist har tittat på en del av vårt datat och beskrivit hur han, i ett kommersiellt uppdrag, skulle ha närmat sig datat och jobbat fram en AI-baserad lösning

Inspelat seminarium: https://drive.google.com/open?id=1J_pOgPRbDl0VCaLTTDNDPICBk-zLGwR5

11. Natural Language Processing med BERT

I labben lär du dig mer om språkmodellen BERT (Bidirectional Encoder Representations from Transformers). Deep Learning-modellen BERT är framtagen av Google och anses höja ribban för Natural Language Processing i en hel del sammanhang. Svenska myndigheter har också visat intresse och det har genomförts och genomförs projekt där BERT används för att bl a extrahera data ur myndighetsdokument.

Labbledaren är engagerad i ett sådant projekt, ett projekt som bedrivs av Trafikverket, och kommer att gå igenom både teori och sina praktiska erfarenheter kring BERT inkl diverse trix. Några exempel på hur man extraherar Svensk text ur docx resp pdf-dokument för hantering; extrahera ortnamn och annat samt automatiskt sammanfatta stora mängder text till det som av BERT uppfattas som viktigast. Vi kommer också kika lite på hur vi kan anropa Google translate från ett program.

Inspelat seminarium: https://drive.google.com/file/d/1TMSLjvqfGzeikpG86Yui0Thxkv-zG8Tz/view?usp=sharing


12. Datatvätt

Utöver detta har det labbats med ”datatvätt”, dvs att avlägsna HTML-taggar, basala felskrivningar samt personnummer, personnamn, telefonnummer, bankkonton och gatuadresser mm från textdata i syfte att göra datat redo att användas som träningsdata vid framtagande av AI-lösningar. Koden bygger till stor del på regular expressions och lyckas plocka bort de flesta uppgifter, dock inte alla. Projektet disponerar även chatdata och kundtjänstdata men då de inte kunnat rensas helt från känslig data kan åtkomst till dessa datat inte ges utan en särskild hantering.

13. Länk till saker att återanvända

Alla Jupyter Notebooks och Powerpoints som skapats i projektet finns här: https://drive.google.com/open?id=1iDWhHLmp5j1JVVdROK1u9O1b9L-h1VLi&authuser=thomas.kvist@regionvasterbotten.se&usp=drive_fs