Wie NLP die Nachrichtenbranche im Jahr 2025 verändern wird

Table of Contents Hide

1 Textverarbeitung bei NLP

1.1 Makro-Verständnis

1.2 Mikro-Verständnis

2 Trend zum Einsatz von NLP in der Nachrichtenbranche

2.1 NLP-Roboter als Journalisten

2.2 Die wichtigsten Herausforderungen bei der Automatisierung der Nachrichtenbranche

3 Wie wir NLP-Algorithmen bei der Nachrichtenverarbeitung einsetzen

3.1 Spam-Erkennung bei CityFalcon

3.2 Nachrichtenbündelung bei SwipeNews

4 Schlussfolgerung

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP ) ist ein Trend in der Informatik, der darauf abzielt, dem Computer beizubringen, die menschliche Sprache direkt wahrzunehmen und zu erzeugen, ohne sie in Computeralgorithmen umzuwandeln.

In unserem letzten Artikel haben wir die grundlegenden Konzepte und Algorithmen des NLP und seinen möglichen Einsatz in der Wirtschaft beschrieben.

Die Verarbeitung natürlicher Sprache in Nachrichten öffnet die Tür für die Entwicklung der Medienindustrie. Sie befasst sich stündlich und sekündlich mit der menschlichen Sprache; die Fähigkeit des Computers, mit der menschlichen Sprache zu arbeiten, macht ihn in der Lage, Medienprozesse auf der ganzen Welt völlig zu verändern.

Computerintelligenz wird die Suche nach notwendigen Informationen, die Analyse relevanter Nachrichten und die Analyse und Systematisierung der Nachrichten nach vordefinierten Kriterien automatisieren.

In diesem Artikel analysieren wir die Zusammenhänge zwischen künstlicher Intelligenz und Medien und teilen unsere Erfahrungen mit dem Einsatz von NLP bei zwei Projekten in der Nachrichtenbranche – CityFalcon und SwipeNews.

Textverarbeitung bei NLP

NLP ist eine Reihe komplexer Algorithmen, mit denen der Computer darauf trainiert wird, menschliche Sprache zu verstehen. Im Wesentlichen geht es darum, den Text in kleinere Einheiten zu zerlegen und die Verbindungen zwischen ihnen zu analysieren. Weitere Informationen finden Sie in diesem Artikel.

Bei der Entwicklung von Nachrichten-Apps geht es jedoch nicht nur um das bloße Verstehen des Textes. Um NLP in diesem Bereich erfolgreich einzusetzen, müssen fortschrittliche Algorithmen entwickelt werden, die es dem Computer ermöglichen, die folgenden Aktionen durchzuführen:

Systematisierung des Textinhalts
Informationen zusammenfassen
Analyse nur der relevanten Informationen
Gruppierung der Nachrichten nach den von einem Benutzer definierten Kriterien

Dies ist möglich, weil es zwei Ebenen der Textwahrnehmung gibt: das Makro- und das Mikro-Verständnis.

Makro-Verständnis

Makro-Verständnis bedeutet ein allgemeines Verständnis des gesamten Inhalts und umfasst die folgenden Aspekte:

Klassifizierung und Systematisierung von Texten nach den festgelegten Kriterien
Abgleich verschiedener Arten von Datensätzen (z. B. Stellenbeschreibungen und Lebensläufe)
allgemeine Analyse der Stimmung und der Semantik
Extraktion von Themen, Schlüsselwörtern und Schlüsselbegriffen
Erkennung von Duplikaten und Beinahe-Duplikaten

Typischerweise wird das Makro-Verständnis mit Hilfe von Apache Spark und Spark MLib Frameworks durchgeführt. Der Prozess des Makroverständnisses kann folgendermaßen dargestellt werden:

In diesem Beispiel laden die Nutzer Inhalte aus dem Internet herunter und senden sie mit Hilfe des Kafka-Stream-Processing-Systems weiter.

Spark Machine Learning Framework verarbeitet die Informationen mit Hilfe des NLP-Algorithmus, systematisiert sie und stellt sie als Datenbank dar. Die strukturierten Informationen werden an die interne Suchmaschine der Anwendung gesendet und an die Schnittstelle des Endbenutzers ausgegeben.

Mikro-Verständnis

Das Mikroverstehen bezieht sich auf die Fähigkeit, die Bedeutung jedes einzelnen Satzes und jeder einzelnen Wendung wahrzunehmen, um die kleinsten Details des Textes zu verstehen. Dies scheint eine komplexere Aufgabe zu sein und umfasst die folgenden Aspekte:

Extraktion von Abkürzungen und deren Definitionen
Extraktion von Entitäten (z. B. Personen, Unternehmen, Produkte, Geldbeträge, Standorte usw.)
Extraktion von Verweisen auf andere Dokumente
Extrahieren von emotional gefärbten Gefühlen (positive/negative Nachrichten und Referenzen)
Extrahieren von Zitaten von Personen mit Bezug auf ihren Autor
Extraktion von Vertragsbedingungen

Das Mikroverstehen beinhaltet die syntaktische Analyse des Textes, einschließlich der Analyse der Wortstellung und des Wortgebrauchs.

Trend zum Einsatz von NLP in der Nachrichtenbranche

Durch die Organisation einer effektiven Mensch-Computer-Kommunikation kann NLP verschiedene Bereiche der Wirtschaft automatisieren. Die Medienbranche hat stündlich und sekündlich mit menschlicher Sprache zu tun und verfügt über enorme Möglichkeiten, die NLP-Algorithmen in ihre tägliche Routine zu implementieren.

NLP-Roboter als Journalisten

Wie bereits erwähnt, entfällt durch die Fähigkeit der Maschine, die menschliche Sprache zu verstehen, die Notwendigkeit für den Menschen, die riesigen Datenmengen zu lesen und zu strukturieren.

Für Journalisten bedeutet dies, dass der Computeralgorithmus alle Informationen zu einem Thema verarbeiten und die wichtigsten Fakten, Zahlen und Statistiken ausgeben kann. Indem er den Teil der Recherche an einen Roboter delegiert, kann ein menschlicher Medienspezialist mehr Aufmerksamkeit auf Aspekte wie Analyse und Kreativität richten.

Die fortschrittlichen NLP-Algorithmen sind nicht nur in der Lage, die Informationen zu verarbeiten, sondern auch die Artikel für Nachrichtenaggregatoren oder Analyseressourcen zu erstellen.

Die Crawler-Bots sind in der Lage, die Informationen im Internet zu scannen, die relevanten Informationen herauszusuchen und eine Pressemitteilung oder einen Nachrichtenartikel zu erstellen.

Die Roboter-Journalisten können die Informationen für Sport-, Finanz-, Wirtschafts- und Kriminalnachrichten, Wettervorhersagen usw. erstellen. – d. h. die Art von Inhalten, die die formale Präsenz von Zahlen, Statistiken und die Formalität des Stils erfordern.

Die Erzeugung automatisierter Nachrichten wird von der Informationsagentur The Associated Press aktiv genutzt. Das System wurde 2015 eingeführt und war in der Lage, 3.000 Artikel pro 15 Minuten zu generieren.

Ein Jahr später erhöhte sich die Geschwindigkeit auf 2.000 Beiträge pro Sekunde. Die Associated Press ist nicht die einzige Medienagentur, die Journalistenroboter einsetzt – diese Technologie wurde auch in Medienunternehmen wie der New York Times, dem Guardian, Forbes, der Los Angeles Times und der BBC usw. eingesetzt .

NLP Nachrichten: NLP-Roboter gegen Journalisten

Die wichtigsten Herausforderungen bei der Automatisierung der Nachrichtenbranche

Obwohl der Einsatz von NLP-basierter Software in der Medienbranche immer mehr im Trend liegt, stehen die Informationsagenturen bei der Automatisierung ihrer Arbeitsabläufe möglicherweise vor mehreren Herausforderungen.

Menschliche Journalisten gegen Computer

Wenn die Nachrichtenindustrie automatisiert wird, werden die menschlichen Journalisten feststellen, dass die Maschine ihre Arbeit schneller und effizienter erledigen kann. Dies kann zu den üblichen Problemen führen, die bei der Automatisierung von Arbeit auftreten – die Ersetzung von menschlichen Mitarbeitern durch Maschinen.

Doch nicht alle Aspekte der Arbeit eines Journalisten können von Software übernommen werden – die analytische, recherchierende und kreative Arbeit sowie die journalistischen Recherchen erfordern menschliche Intelligenz und können kaum von einem Computer erledigt werden.

Auf diese Weise werden die Journalisten von langweiliger Routinearbeit befreit und können sich den anspruchsvolleren Aspekten ihrer Arbeit widmen.

NLP Nachrichten: Menschliche Journalisten gegen Computer

Freiheit der Rede

Die wichtigsten Grundsätze des modernen Journalismus sind Transparenz und Redefreiheit. Da die Maschine nicht über das menschliche Element des kritischen Denkens verfügt, wird es eine Herausforderung sein, sie darauf zu trainieren, vertrauenswürdige Informationen von gefälschten Informationen zu unterscheiden.

Um den Grundsätzen der Transparenz und der Meinungsfreiheit gerecht zu werden, werden die Medienunternehmen außerdem wahrscheinlich die Codes ihrer NLP-Systeme öffnen müssen.

Ethische Fragen

In dieser Zeit der globalen Entwicklung der KI-Technologien bleibt der ethische Aspekt der Roboterarbeit unklar. Im Hinblick auf den Computerjournalismus stellt sich das Problem der Medienethik: Was sollten wir tun, um die Propaganda einer unsozialen Moral zu verhindern und zu stoppen? Dies ist die entscheidende Frage, die in naher Zukunft beantwortet werden muss.

Wie wir NLP-Algorithmen bei der Nachrichtenverarbeitung einsetzen

Spam-Erkennung bei CityFalcon

CityFalcon ist eine Nachrichtenaggregator-App, die die neuesten Finanznachrichten und Tweets zu einem bestimmten Thema analysiert und sie nach ihrer Relevanz bewertet, um Anlegern zu helfen, sich über die neuesten Trends in der Finanzwelt zu informieren. Die vollständige Fallstudie ist hier verfügbar.

Der Nutzer wählt die Themen aus, die er lesen möchte, und das System scannt die neuesten Finanzdaten. Die Ausgabe besteht aus 30 der am besten bewerteten, aktuellsten und relevantesten Nachrichten aus vertrauenswürdigen Quellen. Um die Qualität der ausgegebenen Informationen zu verbessern, hat die App Algorithmen implementiert, die es ermöglichen, irrelevante Informationen zu erkennen und aus dem Newsfeed zu entfernen, der dem Nutzer angezeigt wird.

Die größte Herausforderung

Bei der Entwicklung von Parsing-Algorithmen wurde die Befürchtung geäußert, dass die ausgegebenen Informationen Spam-/Werbenachrichten oder andere Arten von Informationen enthalten könnten, die für den Endnutzer nutzlos sind.

Unsere Lösungen

Um die relevantesten Informationen herauszufiltern, haben wir beschlossen, uns auf die Entwicklung von Algorithmen für das Mikroverständnis zu konzentrieren und einen Spamfilter für die Sortierung der Nachrichten zu erstellen. Durch die Analyse von Schlüsselwörtern und Symbolen wählt das System die wichtigen Details der jeweiligen Nachricht aus und entscheidet, ob sie es wert ist, den Nutzern präsentiert zu werden.

CityFALCON-Trending-News-Seite

Technische Umsetzung des Merkmals

Der von uns erstellte Spam-Filter basiert auf dem Naive-Bayes-Klassifikator – einem Algorithmus für maschinelles Lernen, der für die Klassifizierung der Einheiten in Abhängigkeit von den ausgewählten Kriterien verwendet wird.

Bei der Spam-Filterung sortiert der Naive-Bayes-Algorithmus die Inhalte in zwei Hauptklassen: Spam und relevante Informationen. Die Sortierung basiert auf den von einem Programm erlernten Merkmalen von Spam-Inhalten (das Vorhandensein bestimmter Wörter, die Häufigkeit der Verwendung) und wird wie folgt durchgeführt:

Laden der Daten

Es werden zwei Ordner (Spam und Ham) erstellt, die für Spam und nützliche oder relevante Informationen stehen. Sie enthalten die Listen mit den Merkmalen der einzelnen Inhaltstypen.

Vorverarbeitung der Daten

Um die Wörter in den Listen als Merkmale verwenden zu können, muss das System alle Texte in Kleinbuchstaben umwandeln und die verschiedenen Formen des Wortes als eine Einheit behandeln, d. h. die Daten standardisieren.

Dies wurde mit Hilfe von Tokenisierung und Lemmatisierung umgesetzt (weitere Informationen zu diesen Methoden finden Sie in dem kürzlich erschienenen Artikel ).

Entfernen von Stoppwörtern

Bei der Vorverarbeitung des Textes haben wir die Wörter eliminiert, die uns nicht dabei helfen können, zu bestimmen, ob der Text als Spam eingestuft werden kann oder nicht. Sie werden als Stoppwörter bezeichnet und sind durch Artikel, Präpositionen, Konjunktionen usw. repräsentiert.

Wir haben den Stoppwortfilter durch die Einführung der Variablen list_of_words – stop_words implementiert, wobei die erste die allgemeine Anzahl der Wörter und die zweite eine öffentlich verfügbare Liste von Wörtern ist.

Extrahieren der Merkmale

Nachdem wir alle oben genannten Aktionen durchgeführt haben, verfügen wir über aussagekräftige Wörter, anhand derer wir feststellen können, ob es sich bei den Inhalten um Spam handelt oder nicht. Um sie als Spam oder relevante Informationen zu klassifizieren, müssen wir Folgendes tun:

Berechnen Sie, wie oft das Wort im Text vorkommt
Oder einfach nur die Tatsache zu registrieren, dass das Wort in der E-Mail vorkommt

Schulung der Klassifizierten

Nachdem wir die Daten in das richtige Format gebracht hatten, begannen wir, dem Algorithmus beizubringen, den Inhalt zu unterscheiden.

Wir erstellten 5 Klassifikatoren und luden etwa 100 Tausend verschiedene Datensätze hoch, so dass jeder von ihnen ein anderes Paket an Inhalten erhielt. Da die Klassifikatoren unterschiedliche Erfahrungen gemacht haben, konnten wir die Genauigkeit der Sortierung erhöhen.

Testen der Leistung

Nach Abschluss aller oben genannten Schritte haben wir die Funktionsweise des Algorithmus bewertet. Die Genauigkeit der Trainingsphase zeigte uns, wie gut der Klassifikator die Informationen erlernt, und die Genauigkeit der Testphase zeigte die Fähigkeit der Maschine, das Wissen auf den neuen Inhalt anzuwenden.

Wir haben einen recht einfachen, aber effektiven NLP-basierten Algorithmus beschrieben, der Spam-Inhalte filtern kann. Er kann nicht nur bei der Entwicklung von NLP-Nachrichten-Apps verwendet werden, sondern auch als Spam-Filter für eine Mailbox oder einen Server eingesetzt werden.

Nachrichtenbündelung bei SwipeNews

SwipeNews ist eine Nachrichtenaggregator-Anwendung, die nicht nur einen maßgeschneiderten Newsfeed bietet, sondern auch die Berichterstattung über verschiedene Medien vergleicht und die Informationen so systematisiert, dass sich der Nutzer eine eigene Meinung zu einem bestimmten Thema bilden kann.

Dank der Nachrichten-Aggregatoren müssen Sie Ihre Zeit nicht mehr damit verschwenden, verschiedene Websites zu durchsuchen, um doppelte oder irrelevante Informationen zu sehen. Die Anwendung zeigt Ihnen die einzigartigen Artikel, die Ihren Interessen entsprechen.

Die größte Herausforderung

Dennoch gibt es ein Problem: Über die wichtigsten Ereignisse in der Welt wird in zahlreichen Medien berichtet, und Sie sind gefordert, zahlreiche Informationen zu lesen und zu vergleichen, sie zu systematisieren und die wichtigsten Details herauszuarbeiten, um sich eine eigene Meinung zu diesem Thema zu bilden.

Unsere Lösungen

Um die Arbeit mit Nachrichteninhalten für den Benutzer zu vereinfachen, haben wir einen Algorithmus zur Suche und Gruppierung der NLP-Nachrichten nach den ausgewählten Themen implementiert.

Technische Umsetzung des Merkmals

Der Clusteralgorithmus wurde durch die Einführung eines TF / IDF-Vektorisierers implementiert. Dabei handelt es sich um eine Text-Mining-Technik, die die Bedeutung eines Wortes in einem Dokument analysiert, indem sie berechnet, wie oft es im Text vorkommt. Um die Artikel zu clustern, müssen einige vorbereitende Schritte durchgeführt werden:

Einstellung der Symbolgrenze, um die langen Artikel herauszufiltern
Auswahl des Zentrums des Clusters (des Basisartikels für den Algorithmus, um einen ähnlichen Artikel zu finden). Der Algorithmus berechnet den Grad der Ähnlichkeit zwischen den Artikeln und filtert die Artikel mit der niedrigsten Bewertung heraus. Die Bewertung der Ähnlichkeit erfolgt durch Analyse der Häufigkeit der Verwendung der folgenden lexikalischen Elemente:

getrennte Wörter (Groß- und Kleinschreibung wird nicht beachtet)
Abkürzungen (die Eigennamen werden als Abkürzung betrachtet)

Die Abkürzungen werden als wichtiger angesehen als die Wörter und haben einen größeren Einfluss auf die endgültige Bewertung.

Bestimmung der trendigen Wörter – nachdem die Häufigkeit der Verwendung jedes Wortes und jeder Abkürzung bestimmt wurde, berechnet der Algorithmus, welche die trendigen Wörter sind. Dies wird als Basisdaten für die weitere Analyse betrachtet.
Gruppierung der Wörter – die trendigen lexikalischen Elemente werden zu Wortkombinationen zusammengefügt. Von da an analysiert der Algorithmus die Wortkombinationen anstelle der einzelnen Wörter.
Definition der trendigen Wortkombinationen.

Nach Abschluss der Analyse erhält jeder Artikel seine Bewertung, und das Programm bildet den allgemeinen Ähnlichkeitsindex zwischen den Artikeln. Wir wählen den minimalen Ähnlichkeitsschwellenwert und der Inhalt mit der niedrigsten Bewertung wird herausgefiltert.

Die übrigen Daten werden als Diagramm dargestellt, das den Grad der Ähnlichkeit zwischen den analysierten Artikeln zeigt.

Die Clusterisierung von Textinformationen ist ein fortschrittlicher Algorithmus, der von Robotern zur Analyse bestehender Artikel und zur Generierung neuer Inhalte auf der Grundlage dieser Analyse verwendet werden kann. Diese Technik wurde bereits von den größten Medienunternehmen eingeführt – lesen Sie ruhig weiter, um mehr zu erfahren.

Schlussfolgerung

Jetzt kennen Sie die neuesten Trends in der Medienbranche und deren enge Verknüpfung mit der NLP-Technologie. Wenn Sie noch Fragen zum Einsatz von NLP in der Nachrichtenbranche haben, zögern Sie nicht, unser Team zu kontaktieren.

Unsere Spezialisten beraten Sie umfassend, sowohl in technischer als auch in betriebswirtschaftlicher Hinsicht, und unsere fachkundigen Entwickler erstellen die NLP-Algorithmen, die Ihrem Projekt schon jetzt die Zukunft bringen.

0 Comments

Inline Feedbacks

View all comments

Wie NLP die Nachrichtenbranche verändert