April 2018

Der DSR-Blog erklärt… #1

Begriffe wie Data Science, Big Data, künstliche Intelligenz, maschinelles Lernen und neuronale Netze sind aktuell omnipräsent. Data Science, also die Wissenschaft der Daten als Oberbegriff, beschreibt die Verarbeitung und Analyse von Daten zur Erzeugung neuer Erkenntnisse und neuen Wissens. Der Begriff Data Science wurde bereits vor ca. 50 Jahren erstmals in der Informatik verwendet und erfährt in der heutigen Zeit einen enormen Aufschwung. Dieser hängt mit folgenden Faktoren zusammen:

Durch technologische Entwicklung wird die Menge an verfügbaren Daten immer größer und komplexer. Sei es durch die Digitalisierung in sämtlichen Bereichen des privaten Lebens (Soziale Medien, Online Shopping, Smart Home, Nutzung des Smartphones, …), als auch durch die fortschreitende Digitalisierung der Industrie (Industrie 4.0, autonomes Fahren, verteilte Sensorik, vernetzte Maschinen, überwachte Produktion, …) entstehen Datensätze, deren Umfang und Informationsgehalt bisher kaum abschätzbar ist.
Der technologische Fortschritt (Parallelisierte Berechnung, Cloud-Computing, …) zur Lösung komplexer Berechnungen und Optimierungsaufgaben, sowie die Entwicklung entsprechender Algorithmen des maschinellen Lernens, erlauben es, enorme Datenmengen zu analysieren, um komplexe Zusammenhänge zu erkennen.

Der Gewinn, der sich durch die Akquise, Aufarbeitung und Auswertung großer Datenmengen ergibt, kann enorm sein; sowohl im Privaten wie auch für Unternehmen. Konkret bedeutet dies für die Industrie, Innovation und Weiterentwicklung in vielen Bereichen der Wertschöpfungskette erzielen zu können, dadurch dass bisher bewerkstelligte Arbeit effizienter durchgeführt werden kann und völlig neue Produkte entwickelt werden können.

Beispiele für Anwendung von Data Science in der Industrie sind:

Optimierung von Lagerbeständen durch Prognosen des Bestell-/Kaufverhaltens der Kunden anhand von Vergangenheitsdaten
Prognosen zum Werkzeugverschleiß und vorrausschauende Instandhaltung an Maschinen
Flottenoptimierung durch fortschrittliche Verkehrsprognosen und Wegemanagement
Analyse von Nutzerverhalten auf Websites zur Optimierung der Unternehmenspräsentation
Qualitätskontrolle durch Bilderkennungsmethoden in der Produktion
…

Data Science ist eine interdisziplinäre Wissenschaft, in der verschiedene Kompetenzen zur Lösung einer Fragestellung in einem übergeordneten Kontext kombiniert werden (Abbildung 1). Die Kommunikation ist u.a. für die präzise Entwicklung der Fragestellung und die Präsentation der erarbeiteten Ergebnisse wichtig, während mathematische und software-technische Kompetenzen zur Erarbeitung und Implementierung einer Lösung benötigt werden.

Ist eine Fragestellung entwickelt, werden zur Lösung in der Data Science Methoden und Ansätze des maschinellen Lernens verwendet, die einen Computer dazu in die Lage versetzen, Daten zu analysieren und Entscheidungen zu treffen. Gehen wir hier nun etwas in die Tiefe. Man unterscheidet grundsätzlich zwei Verfahrensweisen: das überwachte und das nicht-überwachte Lernen.

Wenn man überwachte Lernverfahren verwendet, nutzt man einen annotierten Datensatz zum Training eines Systems. Typische Algorithmen, die in diese Kategorie fallen, sind „Klassifikation“ und „Regression“. Ein Beispiel dazu: ein Satz von Röntgenbildern wird anhand von bestimmten Merkmalen durch medizinisches Personal als positiv oder negativ bezüglich einer Krankheit befundet (Abbildung 2). Diese Daten dienen als Trainingsdatensatz, um eine automatische Detektion von eben dieser Krankheit auf neuen (Test-)Datensätzen (Röntgenbildern) zu implementieren.

Bei einem nicht-überwachten Lernverfahren nutzt man einen nicht-annotierten Datensatz und versucht im Prozess des maschinellen Lernens, Strukturen, Ähnlichkeiten oder Gruppen innerhalb des Datensatzes auszumachen (Abbildung 3). Die erkannten Strukturen können dann je nach Anwendung im Nachhinein interpretiert und bewertet werden. Als Beispiel kann hier die Gruppierung von Käufergruppen in einem Online-Shop genannt werden, die dann gezielt im Rahmen von Marketingstrategien angesprochen werden können.

Abbildung 1: Basiskompetenzen in der Data Science.

Abbildung 2: Bewertung eines Befundes anhand zweier Merkmale.

Abbildung 3: Cluster-Schätzung mit zwei bzw. drei Clustern.

In den folgenden Artikeln des DSR-Blogs gehen wir näher auf die weiteren Begrifflichkeiten im Bereich Data Science ein und erläutern wichtige Konzepte, Algorithmen und Vorgehensweisen, um mit Data Science erfolgreich arbeiten zu können.

Alle News