Mai 2018
Der DSR-Blog erklärt… #2
Was bedeutet Klassifikation?
Es gibt verschiedene Arten von Fragestellungen, die man mit den Methoden und Algorithmen der Data Science beantworten kann. Die Lösung eines Klassifikationsproblems ist in diesem Kontext wahrscheinlich die am häufigsten bedachte Aufgabe. Es handelt sich bei einer Klassifikation um die automatische Erkennung diskreter, in ihrer Anzahl beschränkter Klassen, wie zum Beispiel Kategorien, Zustände oder Entscheidungen.
Bei einer binären Klassifikation (Abbildung 1), gibt es nur zwei mögliche zu unterscheidende Ergebnisse, zum Beispiel, ob eine E-Mail Spam ist oder nicht, ob bei einem Bauteil mit mehr oder weniger als 1000 Std. Nutzungsdauer zu rechnen ist, oder ob es sich bei einem Objekt in einem Bild um ein Auto oder ein Fahrrad handelt. Bei einer Multiklassen-Klassifikation, gibt es eine größere (aber limitierte) Anzahl möglicher Kategorien, die erkannt werden können. Als Beispiel kann man hier die Einordnung eines Musikstücks in ein Musikgenre (Rock, Klassik, Jazz, Elektro) nennen, oder die Erkennung der Emotion eines Menschen auf einem Bild (Freude, Trauer, Wut, Überraschung).
Um eine Klassifikation im Rahmen des maschinellen Lernens durchzuführen, nutzt man einen mit der zugehörigen Klasse annotierten Trainingsdatensatz und einen Klassifikationsalgorithmus, um Regeln herzuleiten, anhand derer ein Computer dann eine Klassifikationsentscheidung treffen kann. Bei einigen Algorithmen muss dazu im Vorhinein eine möglichst passende Auswahl von Merkmalen zusammengestellt bzw. aus den Daten extrahiert werden, die diese Unterscheidbarkeit der Klassen ermöglicht. Bei anderen Verfahren kann man versuchen, neben den Regeln zur Trennung der Klassen, auch die Merkmale aus den Daten automatisch anzulernen.
Ist das Training des Klassifikators abgeschlossen und validiert, können ihm neue, nicht in den Trainingsdaten enthaltene Exemplare zugeführt werden, und es kann eine Prognose über die Klasse dieses neuen Objekts ermittelt werden. Die Leistung eines Klassifikators wird meist in der Erkennungsgenauigkeit (in Prozent) gemessen. Zu der Evaluation wird ein explizierter Testdatensatz verwendet, der auch mit der korrekten Klasse annotiert ist, welche dem Klassifikationsalgorithmus aber nicht angezeigt wird, sondern nur zur Genauigkeitsanalyse verwendet wird.
Ein typisches Beispiel aus der Entwicklung von Klassifikationsalgorithmen, ist die automatische Erkennung handschriftlicher Ziffern zwischen 0 und 9. Der MNIST (Modified National Institute of Standards and Technology, http://yann.lecun.com/exdb/mnist/) Datensatz ist ein großer Datensatz handschriftlicher Ziffern (Abbildung 2), anhand dessen in der Forschung Klassifikationsexperimente durchgeführt werden. Er enthält 60000 Bilder einzelner Ziffern zum Training, und 10000 Bilder einzelner Ziffern zum Test eines Klassifikationssystems. Die Genauigkeit bei der Erkennung von Ziffern in der Evaluation mit dem Testanteil des Datensatzes durch einen automatischen Klassifikator konnte über die Jahre auf bis zu 99,8% gebracht werden.