Kontakt
#Tech #Unternehmertum | 10 min read | Posted: 4/2/2025

Wie wir eine Nachrichtenverarbeitungs-App entwickelt haben, die mit Big Data arbeitet

Posted: 4/2/2025
, Lead Ruby on Rails Developer
#Tech #Unternehmertum
10 min read

Das Internet ist ein riesiges Netzwerk, das viele Informationen enthält, und jede Minute wird eine große Menge davon erzeugt. Diese Daten werden als Big Data bezeichnet und bestehen aus Textdateien, Zahlen, Bildern, Tonspuren und Videos. Big Data ist in hohem Maße unstrukturiert und befindet sich in den verschiedensten Speichern. Diese unbegrenzten Informationen haben ein enormes Potenzial für die Entwicklung der modernen Wirtschaft und Wissenschaft.

Doch obwohl die Unternehmen Zugang zu riesigen Datenmengen haben, können die meisten von ihnen diese nicht analysieren. Big Data lässt sich mit herkömmlicher Software nicht verarbeiten und nicht in einer herkömmlichen Datenbank darstellen. Die Unternehmen verfügen einfach nicht über die notwendigen Werkzeuge, um die Zusammenhänge zwischen den Daten herauszufinden und aussagekräftige Schlussfolgerungen zu ziehen. Daraus ergibt sich die Notwendigkeit der Entwicklung von Big-Data-Analytics-Apps.

Die Big-Data-Analyse ist einer der beliebtesten und wichtigsten Zweige der Informatik. Die Automatisierung der Datenverarbeitung wird den Menschen einen unbegrenzten Zugang zu den Daten ermöglichen. Die Daten werden in der Wissenschaft, der Wirtschaft und anderen Branchen genutzt.

In diesem Artikel erfahren Sie, wie Big Data-Verarbeitung in der Medienbranche eingesetzt wird. Außerdem erklären wir Ihnen am Beispiel eines unserer Projekte, wie Sie eine App zur Nachrichtenverarbeitung entwickeln können.

Big Data in der modernen Welt

Der Begriff wurde erstmals 2008 vom Herausgeber der Zeitschrift Nature, Clifford Lynch, eingeführt. In seinem Artikel „Big Data: How do your data grow?“ stellte er das Konzept von Big Data vor und bezog sich dabei auf die zunehmende Menge der verfügbaren Informationen. Der Begriff richtete sich zunächst an Wissenschaftler, doch ein Jahr später wurde er in der Wirtschaft und sogar in der breiten Öffentlichkeit verwendet.

Das Phänomen der großen Datenmengen hatte einen starken Einfluss auf die Entwicklung der Informatik. Begriffe wie Big Data Analytics und Big Data Analysis gehen auf den von Clifford Lynch eingeführten Begriff zurück. Der Zweig der Informatik, der sich mit Big-Data-Problemen befasst, wird Data Science genannt. Sehen wir uns an, was diese Begriffe bedeuten:

  • Bei der Big-Data-Analyse werden die Informationen mit Hilfe mathematischer und statistischer Methoden logisch analysiert. Ihr Hauptziel ist es, die Muster und Korrelationen zwischen den Datensätzen zu bestimmen.
  • Big-Data-Analyse bedeutet, die Datensätze gründlich zu untersuchen, um die nützlichen Informationen herauszufinden und wichtige Schlussfolgerungen und Entscheidungen zu treffen.
  • Data Science ist eine interdisziplinäre Wissenschaft, die Statistik, Mathematik und Programmierung kombiniert. Sie setzt den wissenschaftlichen Ansatz bei der Datenverarbeitung um und ist für die Entwicklung der Tools und der Big-Data-Anwendungsarchitektur zuständig.

Die Algorithmen der Big-Data-Verarbeitung

Datenwissenschaft bedeutet die Entwicklung von Techniken zur Verarbeitung riesiger Mengen unstrukturierter Daten. Die Algorithmen sind einer der wichtigsten Aspekte in diesem Bereich. Einige von ihnen sind rein mathematisch, andere sind von der Arbeit der biologischen Systeme des menschlichen Organismus inspiriert. Lassen Sie uns mehr über sie erfahren.

  • Stochastische Algorithmen

Sie sind aus der Wahrscheinlichkeitstheorie abgeleitet. Stochastische Algorithmen werden unter Verwendung von Zufallsvariablen implementiert, um das Problem auf mehrere verschiedene Arten zu lösen, die zum gewünschten Ergebnis führen. In der Big-Data-Verarbeitung werden sie zur Optimierung der Verarbeitung eingesetzt, indem mehrere Ansätze für Aufgaben verwendet werden.

  • Evolutionäre Algorithmen

Sie sind von der Evolutionstheorie Darwins und dem Prozess der biologischen Evolution inspiriert. Die Algorithmen lösen die Aufgaben, und die optimalsten Lösungen werden für die weitere Arbeit verwendet. Dieser Prozess wiederholt sich, und die Genauigkeit der Ergebnisse nimmt jedes Mal zu.

  • Physikalische Algorithmen

Sie sind von physikalischen Prozessen inspiriert und befassen sich mit Berechnungen, die für normale Maschinen nicht geeignet sind. Da das Volumen von Big Data der physikalischen Größe ähnelt, sind diese Algorithmen eine gute Wahl für die Datenwissenschaft.

  • Probabilistische Algorithmen

Sie sind von der Wahrscheinlichkeitstheorie inspiriert. Sie sind in der Lage, die Wahrscheinlichkeit eines bestimmten Ereignisses zu berechnen. Auf der Grundlage dieser Informationen macht das System Vorhersagen und gibt die allgemeinen Statistiken aus.

  • Algorithmen der Schwarmintelligenz

Diese Art der Arbeit mit Big Data ist inspiriert von kollektiver Intelligenz, wie Ameisenkolonien, Vogelschwärmen usw. Dabei handelt es sich um eine dezentrale und selbstorganisierende Intelligenz, die für die Analyse von Informationen aus verschiedenen Quellen mit unterschiedlichen Erfahrungen und Kenntnissen genutzt werden kann. Dadurch können präzisere Vorhersagen getroffen werden.

  • Algorithmen für das Immunsystem

Diese Algorithmen sind von der Funktionsweise des menschlichen Immunsystems inspiriert. Sie sind in der Lage, Daten zu klassifizieren und zu gruppieren, Anomalien zu erkennen und die Such- und Optimierungssysteme zu modellieren.

  • Neuronale Algorithmen

Dies ist ein System künstlicher Neuronen – Mikroprozessoren, die die Arbeit menschlicher neuronaler Systeme imitieren. Wie menschliche Neuronen nehmen die Prozessoren die Signale auf und leiten sie an die anderen weiter. Je mehr Daten das Netz verarbeitet, desto intelligenter wird es. Das trainierte neuronale Netz ist in der Lage, schwierige Aufgaben zu lösen, die über die Leistungsfähigkeit der gewöhnlichen Algorithmen hinausgehen.

Die Verwendung der Textverarbeitung in den Medien

Die Textverarbeitung in der Nachrichtenbranche ist ein wichtiger Anwendungsfall für Big Data. Wie Sie bereits wissen, gibt es fünf Arten von Daten: Text, Zahlen, Bilder, Audio und Video. Da Text den größten Anteil an relevanten Informationen enthält, die in einem bestimmten Kontext präsentiert werden, hat sich die Textverarbeitung zu einem eigenen Zweig der Big-Data-Analyse entwickelt.

Warum nutzt die Nachrichtenbranche intensiv Anwendungen für Big Data-Analysen? Da menschliche Journalisten nicht in der Lage sind, die Informationen schnell zu analysieren, kann die Maschine dies effizienter bewältigen. Die modernen Algorithmen können nicht nur die Daten aus dem Text extrahieren, sondern auch den Inhalt verstehen, die Haltung des Autors gegenüber dem Ereignis definieren und den Inhalt nach vorher festgelegten Kriterien gruppieren. Wenn Sie mehr über den Einsatz künstlicher Intelligenz in den Medien erfahren möchten, lesen Sie bitte diesen Artikel.

Die Big-Data-Algorithmen sind in der Lage, die Textinformationen zu analysieren und die relevanten Informationen zu extrahieren, allgemeine Schlussfolgerungen zu ziehen usw. Sehen wir uns die Varianten der Verarbeitung von Big Data in der Medienbranche an:

  • Stimmungsanalyse

Hier geht es darum, die Einstellung des Autors zum Thema seines Inhalts zu definieren. In den Medien hilft die Stimmungsanalyse dabei, die Meinungen bestimmter Personengruppen zu definieren, sie zu verallgemeinern und den Trend zu bestimmen.

  • Modellierung von Themen

Dies hilft bei der Analyse der in einem Dokument verwendeten Wörter und der Definition des Themas eines jeden Dokuments. Anhand dieser Informationen kann der Algorithmus die populärsten Themen herausfinden, die Korrelationen definieren (z. B. Autor, Ort usw.) und die Dokumente nach den erforderlichen Kriterien gruppieren.

  • Begriffshäufigkeit – Umgekehrte Dokumenthäufigkeit

Damit wird die Häufigkeit der Verwendung eines bestimmten Begriffs bestimmt. Zunächst scannt das System jedes einzelne Dokument und bestimmt dann den durchschnittlichen Koeffizienten. Dies hilft dem System, die Bedeutung des Begriffs in einem bestimmten Text zu ermitteln und den Inhalt nach diesem Kriterium zu klassifizieren und einzustufen. In einem unserer Projekte haben wir die Funktion implementiert, mit der die Nachrichten mithilfe des TF/IDF-Vektorisierers in Cluster eingeteilt werden. Mehr dazu erfahren Sie in unserem aktuellen Artikel.

  • Erkennung von benannten Entitäten

Dies bedeutet die Erkennung von Substantiven und kann zur Extraktion von Namen von Personen, Organisationen und Orten verwendet werden. Bei der Analyse des Textes achten die NER-Algorithmen auf die Verwendung der notwendigen Wörter im Kontext, die Groß- und Kleinschreibung sowie die Zeichensetzung. Durch die Analyse der Groß- und Kleinschreibung ist NER in der Lage, Abkürzungen und Eigennamen zu unterscheiden und die Abkürzungen durch vollständige Begriffe zu ersetzen.

  • Ereignis-Extraktion

Dies ist ein fortschrittlicherer Algorithmus als NER. Die Ereignisextraktion ist nicht nur in der Lage, Substantive zu analysieren, sondern auch logische Beziehungen zwischen ihnen zu definieren und wichtige Schlussfolgerungen zu ziehen.

Unsere Erfahrung mit der Textverarbeitung mit Ruby

Stadt FALCON

City Falcon ist eine Big-Data-Analyseanwendung, die sich an die Mitglieder des Finanzsektors richtet – Geschäftsleute, professionelle und Amateurinvestoren, Händler usw. Der Dienst bietet einen personalisierten Newsfeed zu dem ausgewählten Thema, der auf den Interessen, der Suchhistorie und den Vorlieben des Nutzers basiert. Die App basiert auf Algorithmen des maschinellen Lernens, die bei jeder Nutzung des Dienstes relevantere Informationen liefern.

Ziel des Projekts ist es, den Anlegern Zeit zu sparen und den Entscheidungsprozess zu vereinfachen.

Der Prozess der Entwicklung

Nachdem wir das Projekt erhalten hatten, begannen wir mit einem ausgereiften MVP zu arbeiten. Um unsere Arbeit besser zu machen, mussten wir die Ziele des Kunden besser erforschen und die Geschäftslogik der Anwendung verstehen. Unsere Arbeit mit CityFALCON kann in vier Phasen unterteilt werden.

1. Anfängliche Phase

  • Analyse der Geschäftstätigkeit des Kunden

Wir haben uns eingehend mit dem Fintech-Sektor befasst und die neuesten Trends in diesem Bereich studiert. Dies half uns, uns vollständig an das Geschäft des Kunden anzupassen und nicht nur als Entwicklungsteam, sondern auch als Unternehmensberater zu agieren.

  • Planung der Architektur

In dieser Phase wurde die Logik der Dateninteraktionen entwickelt. Wir teilten die Quellen in verschiedene Typen ein und definierten das gemeinsame Merkmal in jedem Fall. Diese Entscheidung half uns, die verschiedenen Datenquellen zusammenzufassen und für jede Art von Daten die gleiche clientseitige Schnittstelle bereitzustellen.

2. Verbesserter MVP

  • Aufbau einer skalierbaren Architektur

Bei der Verbesserung der MVP-Leistung haben wir auch auf die Skalierbarkeit der Anwendung geachtet. Dies wird uns in Zukunft helfen, Probleme bei der Erweiterung der Architektur und dem Hinzufügen neuer Funktionen zu vermeiden.

  • Verarbeitung von Nachrichten

Entwicklung der Interaktion der App mit Textdaten: Definition des Autors des Artikels, des Veröffentlichungsdatums, Verständnis des Inhalts. Die Artikel werden nach den ausgewählten Kriterien formatiert und gefiltert.

  • Grundlegender Scoring-Algorithmus

Damit die Anwendung die relevantesten Informationen ausgibt, haben wir einen Algorithmus entwickelt, der den Rang der Artikel bestimmt und sie nach ihrer Bewertung und Relevanz für das Thema sortiert.

3. Private Beta

  • Unternehmens-API

Wir haben eine API integriert, die es Diensten von Drittanbietern ermöglicht, die Daten in großen Mengen auf eine für den Benutzer bequeme Weise herunterzuladen. Gleichzeitig beeinträchtigt das Massenladen nicht die Leistung der gesamten Anwendung.

  • Verbesserung des Scoring-Algorithmus

Es wurden fortschrittlichere Techniken zur Bewertung und Einstufung der Artikel eingeführt. Dadurch wurde die Qualität der im Newsfeed des Nutzers präsentierten Inhalte verbessert.

4. Öffentliche Beta

  • Aufbau einer skalierbaren Infrastruktur

Damit soll sichergestellt werden, dass die Stabilität der Leistung nicht vom Standort des Nutzers oder der zunehmenden Belastung der Anwendung abhängt. Wenn es notwendig ist, die Leistung der Anwendung zu erhöhen, werden die neuen Server an dem erforderlichen Standort eingeschaltet. Diese Praxis hat uns auch geholfen, die Antwortzeit der Anwendung zu senken.

  • Einführung von Sprachgeräten

Um die Informationen besser verbreiten zu können, haben wir die beliebtesten Sprachgeräte in die Anwendung integriert, wie Microsoft Cortana, Amazon Alexa und Google Phone. Die App ist nun in der Lage, Sprachbefehle zu verstehen und die Informationen auf das Gerät des Nutzers zu übertragen.

  • Erhöhung des Umfangs der Themenabdeckung

Die Anwendung ist in der Lage, mehr Informationen aus verschiedenen Quellen zu verarbeiten und eine größere Anzahl von Themen abzudecken.

Die Ergebnisse des Projekts

Die Entwicklungs- und Beratungsdienste, die CityFALCON von unserem Unternehmen angeboten wurden, halfen ihnen, sich auf die Werbung für ihr Produkt bei der Zielgruppe zu konzentrieren. Ihrem Team gelang es, den Twitter Hatch Wettbewerb und den Twitter Global Start-Up Wettbewerb 2015 zu gewinnen.

Ein Jahr später startete das CityFALCON-Team eine Crowdfunding-Kampagne und schaffte es, 150.000 Pfund von etwa 120 Investoren zu sammeln. Später waren sie Finalisten bei den Amazon Growing Business Awards und wurden für „Digital Business of the Year“ nominiert.

Nach der Markteinführung der Spracherkennungsgeräte im Jahr 2017 nahmen sie an der VivaTechnology teil – einer Pariser Konferenz für Start-ups, die von der Bank BNP Paribas veranstaltet wird. Im selben Jahr nahmen sie am Kickstart Accelerator in Zürich teil.

Jetzt wird die CityFALCON API von mehreren internationalen Banken genutzt.

Schlussfolgerung

Nach der Lektüre dieses Artikels haben Sie eine Menge über die Werkzeuge und Methoden der Datenwissenschaft und ihre praktische Umsetzung in der Nachrichtenbranche gelernt. Wenn Sie sich für den Einsatz von Big Data Analytics in den Medien begeistern können, lassen Sie uns gemeinsam Ihren Traum verwirklichen!

How useful was this post?

Click on a star to rate it!

Average rating / 5. Vote count:

No votes so far! Be the first to rate this post.

Share:

Abonnieren
Benachrichtige mich bei
guest

0 Comments
Inline Feedbacks
View all comments
Recommended articles
#Tech 8 min

Die Ausdehnung des digitalen Universums ist eines der bedeutendsten Ereignisse, mit denen die Menschheit konfrontiert wurde. Big Data ist auf dem Vormarsch. Es ist ein vielversprechender, aber gefährlicher IT-Bereich – wir haben gelernt, wie man…

Die Menschen haben sich schon immer für Nachrichten interessiert. Nachrichten beeinflussen unser Leben, unsere Arbeit, unsere Geschäfte, unsere Gesundheit und im Grunde alle anderen Lebensbereiche. Laut dem Digital News Report 2024 des Reuters Institute for…

Erweitern Sie Ihr Team
mit uns

Steigern Sie Ihr Geschäft mit unseren engagierten Entwicklern

    Alex, VP für Kundenengagement
    alex@sloboda-studio.com