Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP ) ist ein Trend in der Informatik, der darauf abzielt, dem Computer beizubringen, die menschliche Sprache direkt wahrzunehmen und zu erzeugen, ohne sie in Computeralgorithmen umzuwandeln.
In unserem letzten Artikel haben wir die grundlegenden Konzepte und Algorithmen des NLP und seinen möglichen Einsatz in der Wirtschaft beschrieben.
Die Verarbeitung natürlicher Sprache in Nachrichten öffnet die Tür für die Entwicklung der Medienindustrie. Sie befasst sich stündlich und sekündlich mit der menschlichen Sprache; die Fähigkeit des Computers, mit der menschlichen Sprache zu arbeiten, macht ihn in der Lage, Medienprozesse auf der ganzen Welt völlig zu verändern.
Computerintelligenz wird die Suche nach notwendigen Informationen, die Analyse relevanter Nachrichten und die Analyse und Systematisierung der Nachrichten nach vordefinierten Kriterien automatisieren.
In diesem Artikel analysieren wir die Zusammenhänge zwischen künstlicher Intelligenz und Medien und teilen unsere Erfahrungen mit dem Einsatz von NLP bei zwei Projekten in der Nachrichtenbranche – CityFalcon und SwipeNews.

Textverarbeitung bei NLP
NLP ist eine Reihe komplexer Algorithmen, mit denen der Computer darauf trainiert wird, menschliche Sprache zu verstehen. Im Wesentlichen geht es darum, den Text in kleinere Einheiten zu zerlegen und die Verbindungen zwischen ihnen zu analysieren. Weitere Informationen finden Sie in diesem Artikel.
Bei der Entwicklung von Nachrichten-Apps geht es jedoch nicht nur um das bloße Verstehen des Textes. Um NLP in diesem Bereich erfolgreich einzusetzen, müssen fortschrittliche Algorithmen entwickelt werden, die es dem Computer ermöglichen, die folgenden Aktionen durchzuführen:
- Systematisierung des Textinhalts
- Informationen zusammenfassen
- Analyse nur der relevanten Informationen
- Gruppierung der Nachrichten nach den von einem Benutzer definierten Kriterien
Dies ist möglich, weil es zwei Ebenen der Textwahrnehmung gibt: das Makro- und das Mikro-Verständnis.

Makro-Verständnis
Makro-Verständnis bedeutet ein allgemeines Verständnis des gesamten Inhalts und umfasst die folgenden Aspekte:
- Klassifizierung und Systematisierung von Texten nach den festgelegten Kriterien
- Abgleich verschiedener Arten von Datensätzen (z. B. Stellenbeschreibungen und Lebensläufe)
- allgemeine Analyse der Stimmung und der Semantik
- Extraktion von Themen, Schlüsselwörtern und Schlüsselbegriffen
- Erkennung von Duplikaten und Beinahe-Duplikaten
Typischerweise wird das Makro-Verständnis mit Hilfe von Apache Spark und Spark MLib Frameworks durchgeführt. Der Prozess des Makroverständnisses kann folgendermaßen dargestellt werden:

In diesem Beispiel laden die Nutzer Inhalte aus dem Internet herunter und senden sie mit Hilfe des Kafka-Stream-Processing-Systems weiter.
Spark Machine Learning Framework verarbeitet die Informationen mit Hilfe des NLP-Algorithmus, systematisiert sie und stellt sie als Datenbank dar. Die strukturierten Informationen werden an die interne Suchmaschine der Anwendung gesendet und an die Schnittstelle des Endbenutzers ausgegeben.
Mikro-Verständnis
Das Mikroverstehen bezieht sich auf die Fähigkeit, die Bedeutung jedes einzelnen Satzes und jeder einzelnen Wendung wahrzunehmen, um die kleinsten Details des Textes zu verstehen. Dies scheint eine komplexere Aufgabe zu sein und umfasst die folgenden Aspekte:
- Extraktion von Abkürzungen und deren Definitionen
- Extraktion von Entitäten (z. B. Personen, Unternehmen, Produkte, Geldbeträge, Standorte usw.)
- Extraktion von Verweisen auf andere Dokumente
- Extrahieren von emotional gefärbten Gefühlen (positive/negative Nachrichten und Referenzen)
- Extrahieren von Zitaten von Personen mit Bezug auf ihren Autor
- Extraktion von Vertragsbedingungen
Das Mikroverstehen beinhaltet die syntaktische Analyse des Textes, einschließlich der Analyse der Wortstellung und des Wortgebrauchs.

Trend zum Einsatz von NLP in der Nachrichtenbranche
Durch die Organisation einer effektiven Mensch-Computer-Kommunikation kann NLP verschiedene Bereiche der Wirtschaft automatisieren. Die Medienbranche hat stündlich und sekündlich mit menschlicher Sprache zu tun und verfügt über enorme Möglichkeiten, die NLP-Algorithmen in ihre tägliche Routine zu implementieren.
NLP-Roboter als Journalisten
Wie bereits erwähnt, entfällt durch die Fähigkeit der Maschine, die menschliche Sprache zu verstehen, die Notwendigkeit für den Menschen, die riesigen Datenmengen zu lesen und zu strukturieren.
Für Journalisten bedeutet dies, dass der Computeralgorithmus alle Informationen zu einem Thema verarbeiten und die wichtigsten Fakten, Zahlen und Statistiken ausgeben kann. Indem er den Teil der Recherche an einen Roboter delegiert, kann ein menschlicher Medienspezialist mehr Aufmerksamkeit auf Aspekte wie Analyse und Kreativität richten.
Die fortschrittlichen NLP-Algorithmen sind nicht nur in der Lage, die Informationen zu verarbeiten, sondern auch die Artikel für Nachrichtenaggregatoren oder Analyseressourcen zu erstellen.
Die Crawler-Bots sind in der Lage, die Informationen im Internet zu scannen, die relevanten Informationen herauszusuchen und eine Pressemitteilung oder einen Nachrichtenartikel zu erstellen.
Die Roboter-Journalisten können die Informationen für Sport-, Finanz-, Wirtschafts- und Kriminalnachrichten, Wettervorhersagen usw. erstellen. – d. h. die Art von Inhalten, die die formale Präsenz von Zahlen, Statistiken und die Formalität des Stils erfordern.
Die Erzeugung automatisierter Nachrichten wird von der Informationsagentur The Associated Press aktiv genutzt. Das System wurde 2015 eingeführt und war in der Lage, 3.000 Artikel pro 15 Minuten zu generieren.
Ein Jahr später erhöhte sich die Geschwindigkeit auf 2.000 Beiträge pro Sekunde. Die Associated Press ist nicht die einzige Medienagentur, die Journalistenroboter einsetzt – diese Technologie wurde auch in Medienunternehmen wie der New York Times, dem Guardian, Forbes, der Los Angeles Times und der BBC usw. eingesetzt .

Die wichtigsten Herausforderungen bei der Automatisierung der Nachrichtenbranche
Obwohl der Einsatz von NLP-basierter Software in der Medienbranche immer mehr im Trend liegt, stehen die Informationsagenturen bei der Automatisierung ihrer Arbeitsabläufe möglicherweise vor mehreren Herausforderungen.
- Menschliche Journalisten gegen Computer
Wenn die Nachrichtenindustrie automatisiert wird, werden die menschlichen Journalisten feststellen, dass die Maschine ihre Arbeit schneller und effizienter erledigen kann. Dies kann zu den üblichen Problemen führen, die bei der Automatisierung von Arbeit auftreten – die Ersetzung von menschlichen Mitarbeitern durch Maschinen.
Doch nicht alle Aspekte der Arbeit eines Journalisten können von Software übernommen werden – die analytische, recherchierende und kreative Arbeit sowie die journalistischen Recherchen erfordern menschliche Intelligenz und können kaum von einem Computer erledigt werden.
Auf diese Weise werden die Journalisten von langweiliger Routinearbeit befreit und können sich den anspruchsvolleren Aspekten ihrer Arbeit widmen.

- Freiheit der Rede
Die wichtigsten Grundsätze des modernen Journalismus sind Transparenz und Redefreiheit. Da die Maschine nicht über das menschliche Element des kritischen Denkens verfügt, wird es eine Herausforderung sein, sie darauf zu trainieren, vertrauenswürdige Informationen von gefälschten Informationen zu unterscheiden.
Um den Grundsätzen der Transparenz und der Meinungsfreiheit gerecht zu werden, werden die Medienunternehmen außerdem wahrscheinlich die Codes ihrer NLP-Systeme öffnen müssen.

- Ethische Fragen
In dieser Zeit der globalen Entwicklung der KI-Technologien bleibt der ethische Aspekt der Roboterarbeit unklar. Im Hinblick auf den Computerjournalismus stellt sich das Problem der Medienethik: Was sollten wir tun, um die Propaganda einer unsozialen Moral zu verhindern und zu stoppen? Dies ist die entscheidende Frage, die in naher Zukunft beantwortet werden muss.

Wie wir NLP-Algorithmen bei der Nachrichtenverarbeitung einsetzen
Spam-Erkennung bei CityFalcon

CityFalcon ist eine Nachrichtenaggregator-App, die die neuesten Finanznachrichten und Tweets zu einem bestimmten Thema analysiert und sie nach ihrer Relevanz bewertet, um Anlegern zu helfen, sich über die neuesten Trends in der Finanzwelt zu informieren. Die vollständige Fallstudie ist hier verfügbar.
Der Nutzer wählt die Themen aus, die er lesen möchte, und das System scannt die neuesten Finanzdaten. Die Ausgabe besteht aus 30 der am besten bewerteten, aktuellsten und relevantesten Nachrichten aus vertrauenswürdigen Quellen. Um die Qualität der ausgegebenen Informationen zu verbessern, hat die App Algorithmen implementiert, die es ermöglichen, irrelevante Informationen zu erkennen und aus dem Newsfeed zu entfernen, der dem Nutzer angezeigt wird.

Die größte Herausforderung
Bei der Entwicklung von Parsing-Algorithmen wurde die Befürchtung geäußert, dass die ausgegebenen Informationen Spam-/Werbenachrichten oder andere Arten von Informationen enthalten könnten, die für den Endnutzer nutzlos sind.
Unsere Lösungen
Um die relevantesten Informationen herauszufiltern, haben wir beschlossen, uns auf die Entwicklung von Algorithmen für das Mikroverständnis zu konzentrieren und einen Spamfilter für die Sortierung der Nachrichten zu erstellen. Durch die Analyse von Schlüsselwörtern und Symbolen wählt das System die wichtigen Details der jeweiligen Nachricht aus und entscheidet, ob sie es wert ist, den Nutzern präsentiert zu werden.

CityFALCON-Trending-News-Seite
Technische Umsetzung des Merkmals
Der von uns erstellte Spam-Filter basiert auf dem Naive-Bayes-Klassifikator – einem Algorithmus für maschinelles Lernen, der für die Klassifizierung der Einheiten in Abhängigkeit von den ausgewählten Kriterien verwendet wird.
Bei der Spam-Filterung sortiert der Naive-Bayes-Algorithmus die Inhalte in zwei Hauptklassen: Spam und relevante Informationen. Die Sortierung basiert auf den von einem Programm erlernten Merkmalen von Spam-Inhalten (das Vorhandensein bestimmter Wörter, die Häufigkeit der Verwendung) und wird wie folgt durchgeführt:
- Laden der Daten
Es werden zwei Ordner (Spam und Ham) erstellt, die für Spam und nützliche oder relevante Informationen stehen. Sie enthalten die Listen mit den Merkmalen der einzelnen Inhaltstypen.
- Vorverarbeitung der Daten
Um die Wörter in den Listen als Merkmale verwenden zu können, muss das System alle Texte in Kleinbuchstaben umwandeln und die verschiedenen Formen des Wortes als eine Einheit behandeln, d. h. die Daten standardisieren.
Dies wurde mit Hilfe von Tokenisierung und Lemmatisierung umgesetzt (weitere Informationen zu diesen Methoden finden Sie in dem kürzlich erschienenen Artikel ).
- Entfernen von Stoppwörtern
Bei der Vorverarbeitung des Textes haben wir die Wörter eliminiert, die uns nicht dabei helfen können, zu bestimmen, ob der Text als Spam eingestuft werden kann oder nicht. Sie werden als Stoppwörter bezeichnet und sind durch Artikel, Präpositionen, Konjunktionen usw. repräsentiert.
Wir haben den Stoppwortfilter durch die Einführung der Variablen list_of_words – stop_words implementiert, wobei die erste die allgemeine Anzahl der Wörter und die zweite eine öffentlich verfügbare Liste von Wörtern ist.
- Extrahieren der Merkmale
Nachdem wir alle oben genannten Aktionen durchgeführt haben, verfügen wir über aussagekräftige Wörter, anhand derer wir feststellen können, ob es sich bei den Inhalten um Spam handelt oder nicht. Um sie als Spam oder relevante Informationen zu klassifizieren, müssen wir Folgendes tun:
- Berechnen Sie, wie oft das Wort im Text vorkommt
- Oder einfach nur die Tatsache zu registrieren, dass das Wort in der E-Mail vorkommt
- Schulung der Klassifizierten
Nachdem wir die Daten in das richtige Format gebracht hatten, begannen wir, dem Algorithmus beizubringen, den Inhalt zu unterscheiden.
Wir erstellten 5 Klassifikatoren und luden etwa 100 Tausend verschiedene Datensätze hoch, so dass jeder von ihnen ein anderes Paket an Inhalten erhielt. Da die Klassifikatoren unterschiedliche Erfahrungen gemacht haben, konnten wir die Genauigkeit der Sortierung erhöhen.
- Testen der Leistung
Nach Abschluss aller oben genannten Schritte haben wir die Funktionsweise des Algorithmus bewertet. Die Genauigkeit der Trainingsphase zeigte uns, wie gut der Klassifikator die Informationen erlernt, und die Genauigkeit der Testphase zeigte die Fähigkeit der Maschine, das Wissen auf den neuen Inhalt anzuwenden.
Wir haben einen recht einfachen, aber effektiven NLP-basierten Algorithmus beschrieben, der Spam-Inhalte filtern kann. Er kann nicht nur bei der Entwicklung von NLP-Nachrichten-Apps verwendet werden, sondern auch als Spam-Filter für eine Mailbox oder einen Server eingesetzt werden.
Nachrichtenbündelung bei SwipeNews
SwipeNews ist eine Nachrichtenaggregator-Anwendung, die nicht nur einen maßgeschneiderten Newsfeed bietet, sondern auch die Berichterstattung über verschiedene Medien vergleicht und die Informationen so systematisiert, dass sich der Nutzer eine eigene Meinung zu einem bestimmten Thema bilden kann.
Dank der Nachrichten-Aggregatoren müssen Sie Ihre Zeit nicht mehr damit verschwenden, verschiedene Websites zu durchsuchen, um doppelte oder irrelevante Informationen zu sehen. Die Anwendung zeigt Ihnen die einzigartigen Artikel, die Ihren Interessen entsprechen.

Die größte Herausforderung
Dennoch gibt es ein Problem: Über die wichtigsten Ereignisse in der Welt wird in zahlreichen Medien berichtet, und Sie sind gefordert, zahlreiche Informationen zu lesen und zu vergleichen, sie zu systematisieren und die wichtigsten Details herauszuarbeiten, um sich eine eigene Meinung zu diesem Thema zu bilden.
Unsere Lösungen
Um die Arbeit mit Nachrichteninhalten für den Benutzer zu vereinfachen, haben wir einen Algorithmus zur Suche und Gruppierung der NLP-Nachrichten nach den ausgewählten Themen implementiert.

Technische Umsetzung des Merkmals
Der Clusteralgorithmus wurde durch die Einführung eines TF / IDF-Vektorisierers implementiert. Dabei handelt es sich um eine Text-Mining-Technik, die die Bedeutung eines Wortes in einem Dokument analysiert, indem sie berechnet, wie oft es im Text vorkommt. Um die Artikel zu clustern, müssen einige vorbereitende Schritte durchgeführt werden:
- Einstellung der Symbolgrenze, um die langen Artikel herauszufiltern
- Auswahl des Zentrums des Clusters (des Basisartikels für den Algorithmus, um einen ähnlichen Artikel zu finden). Der Algorithmus berechnet den Grad der Ähnlichkeit zwischen den Artikeln und filtert die Artikel mit der niedrigsten Bewertung heraus. Die Bewertung der Ähnlichkeit erfolgt durch Analyse der Häufigkeit der Verwendung der folgenden lexikalischen Elemente:
- getrennte Wörter (Groß- und Kleinschreibung wird nicht beachtet)
- Abkürzungen (die Eigennamen werden als Abkürzung betrachtet)
Die Abkürzungen werden als wichtiger angesehen als die Wörter und haben einen größeren Einfluss auf die endgültige Bewertung.
- Bestimmung der trendigen Wörter – nachdem die Häufigkeit der Verwendung jedes Wortes und jeder Abkürzung bestimmt wurde, berechnet der Algorithmus, welche die trendigen Wörter sind. Dies wird als Basisdaten für die weitere Analyse betrachtet.
- Gruppierung der Wörter – die trendigen lexikalischen Elemente werden zu Wortkombinationen zusammengefügt. Von da an analysiert der Algorithmus die Wortkombinationen anstelle der einzelnen Wörter.
- Definition der trendigen Wortkombinationen.
Nach Abschluss der Analyse erhält jeder Artikel seine Bewertung, und das Programm bildet den allgemeinen Ähnlichkeitsindex zwischen den Artikeln. Wir wählen den minimalen Ähnlichkeitsschwellenwert und der Inhalt mit der niedrigsten Bewertung wird herausgefiltert.
Die übrigen Daten werden als Diagramm dargestellt, das den Grad der Ähnlichkeit zwischen den analysierten Artikeln zeigt.
Die Clusterisierung von Textinformationen ist ein fortschrittlicher Algorithmus, der von Robotern zur Analyse bestehender Artikel und zur Generierung neuer Inhalte auf der Grundlage dieser Analyse verwendet werden kann. Diese Technik wurde bereits von den größten Medienunternehmen eingeführt – lesen Sie ruhig weiter, um mehr zu erfahren.
Schlussfolgerung
Jetzt kennen Sie die neuesten Trends in der Medienbranche und deren enge Verknüpfung mit der NLP-Technologie. Wenn Sie noch Fragen zum Einsatz von NLP in der Nachrichtenbranche haben, zögern Sie nicht, unser Team zu kontaktieren.
Unsere Spezialisten beraten Sie umfassend, sowohl in technischer als auch in betriebswirtschaftlicher Hinsicht, und unsere fachkundigen Entwickler erstellen die NLP-Algorithmen, die Ihrem Projekt schon jetzt die Zukunft bringen.