Fachbeitrag

Zukunftsweisende Organisations- und Personalentwicklung fußt auf zwei Säulen: Wissen was wirklich zählt und zielgenau das Richtige zu tun. Für sich genommen bilden unsere – in effiziente Projekte eingebundenen – exklusiven, wissenschaftlich validierten Methoden und Modelle bereits eine herausragende Entscheidungsgrundlage.

Diese auf den Punkt gebrachten Informationen kombinieren wir für unsere Kunden mit allen wichtigen Vergleichsdaten aus der Unternehmensumwelt.

Was wir genau tun erfahren Sie als Kunde im Rahmen unserer gemeinsamen Projekte – „das können wir Ihnen vorher nicht verraten“. Wie wir etwas tun erfahren Sie an einem kleinen Beispiel Textmining von

Dr. Jörg Walter, Head of Data Science and AI, youCcom
Dr. rer. nat. habil (Informatik), Dipl. Physiker, Techn. Fakultät Universität Bielefeld, Rapid Learning in Robotics; TU München/ Beckman Institut UIUC, USA, Data Mining (Neuroinformatik)

Überblick behalten und Kerninhalte gezielt herausfiltern

Nachrichten und Texte sind eine der wichtigsten Grundlagen unserer Kommunikation und täglich entsteht eine wahre Flut neuer Informationen. Hier den Überblick zu behalten und die Kerninhalte herauszufiltern, scheint schier unmöglich. Durch gezieltes Nutzen von Textmining-Verfahren können aus ungenutzten, unstrukturierten Informationen aussagekräftige und bedeutsame Informationen herauskristallisiert werden. Kerngedanke hierbei ist, in diesen großen Mengen an Textdaten nach Ähnlichkeiten oder Mustern zu suchen und die Texte nach bestimmten Merkmalen wie zum Beispiel einem Thema in Form von vorgegebenen Schlagworten zu durchsuchen. So können große Mengen an Text nutzbar gemacht werden, die allein aufgrund der Menge die Grenzen der menschlichen Leistungsfähigkeit übersteigt.

Beim Textmining wird mit Methoden aus dem Natural Language Processing (NLP) natürliche Sprache maschinell verarbeitet. Mittels statistischer und linguistischer Methoden werden Strukturen in Texten erschlossen, die die Benutzer in die Lage versetzen sollen, Kerninformationen der verarbeiteten Texte schnell zu erkennen. Bei zielgerichteter Anwendung können Hypothesen generiert werden, die dann in weiteren Verfahrensschritten überprüft und schrittweise verfeinert werden.

Eindeutige Fragestellung

Mögliche Fragestellungen können beispielsweise sein, welche Nachrichten aktuell die Schlagzeilen dominieren, wie die Stimmung zu ausgewählten Themen ist oder auch inwieweit sich Stimmungen im Zeitablauf verändern. Auch die Frage nach Zusammenhängen zwischen den Themen bzw. in welchem Kontext bestimmte Begriffe diskutiert werden, kann mittels statistischer Verfahren zum Textmining analysiert werden.

Big Date zur Organisations- und Personalentwicklung

Das 5-V-Modell zur Beschreibung von Big Data

Die Verarbeitung von Massendaten lässt sich insbesondere durch die folgenden fünf Merkmale beschreiben.

V wie Volume: Es stehen riesige Datenmengen zur Verfügung, die mit Hilfe von Big-Data-Technologien gespeichert und analysiert werden, um diesen Datenschatz zu heben.

V wie Variety: Die Daten kommen aus unterschiedlichen Quellen, strömen unsortiert und liegen zunächst völlig unstrukturiert vor.

V wie Velocity: Damit die Informationen möglichst schnell nutzbar gemacht werden können, sind performante Algorithmen erforderlich. Es gilt, den vorhandenen Speicherplatz auch bei hoher Datenlast optimal zu nutzen.

V wie Validity: Erfolgsentscheidend ist die Qualität der Ausgangsdaten. Eine sorgfältige Vorbereitung des Datensatzes entscheidet über die spätere Ergebnis- oder Prognosegüte.

V wie Value: Die Szenarien, in denen Textmining-Prozesse zum Einsatz kommen, sind vielfältig. So können beispielsweise Nachrichten zur Entwicklung von Unternehmenswerten, von Produkten oder zum Image von Unternehmen gezielt aufbereitet werden, um strategische Entscheidungen zu unterstützen, Unternehmenswerte zu steigern oder Investitionsentscheidungen zu optimieren.

Vorgehen

Textmining-Projekte erfordern ein mehrstufiges Vorgehen: Zunächst gilt es, eine konkrete Fragestellung zu formulieren, die mit Hilfe von Textanalysen beantwortet werden soll. Nehmen wir zum Beispiel die Frage, wie Zusammenarbeit in Teams erfolgen sollte. Wie diskutieren die Mitarbeiterinnen und Mitarbeiter hierzu in Foren?

Wenn nun das Analysedesign erarbeitet werden soll, so sind als Erstes die auszuwählenden Textquellen festzulegen und die einzelnen Kriterien zu bestimmen, die die Analyse determinieren. Hierzu können beispielsweise der Autor, der Erscheinungstermin oder die Bezeichnung des Diskussionsforums, in der die Veröffentlichung erfolgte, zählen. In unserem Beispiel könnte dann der Fokus auf aktuell häufig diskutierte Themen gelegt werden.

Typisch für derartige Textdaten ist, dass sie keine einheitliche Datenstruktur aufweisen, man spricht deshalb auch von „freiem Format“ oder von „unstrukturierten Daten“. Daher ist eine computerlinguistische Aufbereitung der Textdokumente ein unverzichtbarer Schritt zur Vorbereitung der Textdaten. Zunächst werden die Dokumente in ein einheitliches Format überführt und tokenisiert, d.h. die Texte werden in kleine Einheiten – in der Regel Worte oder Zeichenfolgen – zerlegt.

Dann werden die Wörter entfernt, die keine oder kaum Vorhersagekraft erwarten lassen, wie beispielsweise Artikel, Füllwörter oder domainspezifische Ausdrücke. Hierzu können digitale Wörterbücher genutzt werden, die typische Stoppwörter enthalten. Diese Lexika liegen für unterschiedliche Sprachräume vor und können nach Bedarf individuell erweitert werden.

In einem weiteren Schritt sind die Wörter auf ihren ursprünglichen Wortstamm zurückzuführen (Lemmatisierung und Stemming). Eine besondere Herausforderung stellt der Umgang mit Synonymen dar: Auch hier können Lexika genutzt bzw. erarbeitet werden, die die Mehrdeutigkeit von Wörtern oder auch die Gleichbedeutung von Wörtern berücksichtigen und somit ermöglichen, einen gut auswertbaren Textkorpus zu generieren.

Der so bereinigte Datensatz kann nun mit verschiedenen Textmining-Verfahren analysiert werden.

Analyseverfahren am Beispiel von Wordclouds, Sentiment-Analysen und Netzwerkanalysen

Für einen ersten Überblick kann beispielsweise eine Wordcloud erstellt werden, welche die Begriffe nach ihrer Häufigkeit visualisiert. Die Größe der abgebildeten Wörter richtet sich dabei nach der Anzahl der Nennungen im Text.

Abbildung 1: Schlagworte zu „Zusammenarbeit in Teams“ in Diskussionsforen

Abbildung 1: Schlagworte zu „Zusammenarbeit in Teams“ in Diskussionsforen

Je größer die Abbildung des Wortes, desto häufiger wird das Wort in den ausgewerteten Texten genannt. Demnach spielen Wertschätzung und Respekt sowie Klarheit und Kommunikation eine herausragende Rolle, wenn es um darum geht, wie die Menschen, die sich an dieser Diskussion beteiligt haben, miteinander arbeiten möchten.

Ein alternatives Vorgehen können Sentiment-Analysen darstellen, bei denen es darum geht, Stimmungsbilder aus dem Kontext der zu analysierenden Begriffe zu erfassen. So wird auf Basis spezieller Lexika bestimmt, ob die Meinungen oder Stimmungen zu einem Thema, zu einem Produkt oder zu einer Marke in dem Untersuchungstext positiv, negativ oder neutral sind.

Stimmung in Forenbeiträgen

Abbildung 2: Stimmung in den Forenbeiträgen zur „Zusammenarbeit in Team“ und im Zusammenhang mit ausgewählten Schlagworten

Im vorliegenden Beispiel wird deutlich, dass die Beschreibung, wie man sich eine Teamzusammenarbeit vorstellt, überwiegend mit positiven Gefühlen beschrieben wird. Es ist also davon auszugehen, dass häufig positiv formuliert wird, also angegeben wird, wie man die Zusammenarbeit in einem Team erleben möchte. Im Zusammenhang mit Wertschätzung wird sogar ausschließlich positiv formuliert bzw. eine positive Stimmung erzeugt. Hinsichtlich des Schlagwortes Respekt wird im Vergleich zu den anderen Schlagworten öfter mit Negierungen in Form von „nicht“ oder „kein“ gearbeitet. Insgesamt sieben Mal ist eine Verneinung einem negativen Wort vorangestellt. Hier wird also auch beschrieben, was man nicht erleben möchte.

Sentiment-Analysen können auch genutzt werden, um Veränderungen der Stimmungen im Zeitablauf darzustellen. Auch können mit diesem Verfahren Unterschiede zwischen verschiedenen Autorengruppen oder anderen mit den Begriffen verbundenen Attributen visualisiert werden.

Eine dritte Analysemöglichkeit zur Auswertung unstrukturierter Textdaten bilden Netzwerkanalysen. Mit diesen können vielfältige Zusammenhänge zwischen Themen herausgearbeitet und visualisiert werden.

Zunächst ist zu überlegen, auf welcher Basis die Anordnung der Begriffe erfolgen soll. Spielen hierbei Eigenschaften, die zu den Begriffen gehören (beispielsweise inhaltliche Kategorien), eine Rolle oder soll eher ein Distanzmaß wie zum Beispiel die Häufigkeit gemeinsamen Vorkommens in Textsegmenten ausschlaggebend für die Anordnung sein?

Darüber hinaus sind weitere Optionen festzulegen:

  • Welche Inhalte sollen durch die Knoten repräsentiert werden? Soll es unterschiedliche Knoten für unterschiedliche Textsegmente (z.B. Kategorie, Schlagwort, Begriffe aus dem Textabschnitt) geben?
  • Sollen durch die Farbgebung von Knoten oder Texten weitere Eigenschaften oder Gruppenzugehörigkeiten verdeutlicht werden?
  • Durch die Textgröße oder die Knotengröße können Häufigkeiten der damit verbundenen Begriffe dargestellt werden. Somit kann für besonders bedeutungsvolle Begriffe eine höhere Aufmerksamkeit erzeugt werden.
  • Durch eine Variation der Stärke der Verbindungen kann die Intensität dargestellt werden, die die Verbindung der beiden Begriffe charakterisiert. So können Begriffe, die besonders stark zusammenhängen, durch stärkere Linien verbunden werden, als diejenigen, die nur einen eher schwachen inhaltlichen Zusammenhang aufweisen.

Abzuwägen ist hier stets zwischen der Menge an Information, die dargestellt werden kann und der Übersichtlichkeit der Grafik. Wichtig ist hierbei, dass die zentrale Botschaft, die aus der Analyse der Texte ableitbar ist, klar erkennbar wird und die technischen Visualisierungsmöglichkeiten sich an diesem Anspruch ausrichten.

Anhand des Beispiels zur Zusammenarbeit in Teams wurde die Ähnlichkeit der Begriffe durch ihr gemeinsames Vorkommen in Textsequenzen bestimmt und bildet damit die Basis der Anordnung der Begriffe. Die Größe der Knoten wird in der folgenden Abbildung durch die Häufigkeit der Begriffe determiniert. Die Verbindungen geben an, welche Worte miteinander in Textsequenzen vorgekommen sind. Dabei wurde die Linienstärke einheitlich festgelegt – unabhängig davon, wie häufig dieses gemeinsame Vorkommen zu beobachten war.

Abbildung 3: Zusammenhänge der ausgewählten Schlagworte zum Thema „Zusammenarbeit in Teams“ in den genutzten Diskussionsforen

Die Abbildung zeigt, dass in den Diskussionen das gemeinsame Vorgehen und das Miteinander eine sehr zentrale Rolle spielen. Team, Kunden und Miteinander werden sehr intensiv gemeinsam diskutiert, ebenso Arbeit und Entscheidungen. Es wird deutlich, dass Offenheit für die Mitarbeitenden eine hohe Bedeutung hat. Klare Kommunikation steht sowohl mit Aufgaben und Vorgesetzten als auch mit Strukturen im Zusammenhang.

Ein solches Beispiel könnte nun hinsichtlich der zeitlichen Entwicklung der Zusammenhänge, der Veränderung der Stimmungen oder auch hinsichtlich der Unterschiede zwischen verschiedenen Personengruppen weiter analysiert werden.

Deutlich wird, wie durch Textmining-Methoden umfangreiche Textquellen statistisch ausgewertet werden können, so dass zentrale Erkenntnisse daraus ableitbar werden und somit eine fundierte Basis für Entscheidungsfindungsprozesse erarbeitet werden kann.