Normalisierung von Nachrichten-Informationen Marc Ruef | 27.05.2013 Die Verteilung von Nachrichten ist ein zentraler Bestandteil der modernen Informationsgesellschaft. Dies geschieht über verschiedene Kanäle. Darunter fallen traditionelle Medien wie Zeitungen, Radio und Fernsehen. In multimedialer Weise spielt mittlerweile das Internet eine grosse Rolle, das über Nachrichtenportale, Twitter, RSS und andere Dienste bzw. Technologien zur Verbreitung von Neuigkeiten beiträgt. Klassischerweise werden dabei Informationen so aufbereitet, wie man sich dies seit Menschengedenken gewohnt ist. Eine Information wird in eine Aussage gepackt, die dann dem entsprechenden Medium gerecht weitergetragen wird. Eine solche Mitteilung könnte beispielsweise lauten: "Regierungskritischer Journalist wurde in Moskau verhaftet". Das Problem hierbei ist, dass diese Information sehr stark an die entsprechende Sprache gebunden ist. Sie ist in Deutsch gehalten und orientiert sich an den grammatikalischen und orthografischen Regeln dieser Sprache. Eine automatisierte Weiterverarbeitung ist nicht ohne erheblichen Aufwand möglich. Dies zeigt sich deutlich am Aufwand, der für eine Übersetzung betrieben werden müsste. Zwar stehen mittlerweile computergestützte Übersetzungen bereit. Diese können jedoch ohne menschliche Moderation in keinster Weise die gewünschte Qualität aufrecht erhalten. Aber auch eine im Kontext der Originalsprache angestrebte Weiterverarbeitung wird schwierig. Es gibt nur eine endliche Anzahl an Nachrichten, die durch verschiedene Nachrichtenstellen weiterverbreitet werden möchten. Zwangsweise müssen sie sich auf andere Stellen, im Idealfall natürlich die Primärquelle, beziehen. Schlussendlich wird aber immer stetig das Gleiche geschrieben, vielleicht ein bisschen angepasst und im besten Fall um eine eigene Einschätzung erweitert. Diese Einschränkungen können eliminiert und damit das Nachrichtenwesen massgeblich vorwärtsgetragen werden, wenn sich auf eine abstrahierte Form der Informationssammlung geeinigt wird. Anstelle ganzer Aussagen, wie die im Beispiel genannte, sollten die einzelnen Informationselemente gesondert dokumentiert werden. Hierzu kann eine baumähnliche Struktur zum Tragen kommen, um die einzelnen Objekte und ihre Eigenschaften zu charakterisieren: code{ "activity": "arrest", "subject": { "sex": "male", "occupation": "journalist", "attitude": "government-critical" } "location": { "country": "Russia", "city": "Moscow" } }/code Durch diese Notation wird es möglich, die Kerninformationen von Emotionen losgelöst und damit ohne weiteren Ballast zur Weiterverarbeitung bereitzustellen. Eine in dieser Art aufgemachte Quelle lässt sich ohne weiteres heranziehen und durch eigene Recherchen bereichern. Die gewünschte Nachricht lässt sich dann durch das Zusammenfügen der Elemente generieren: code{subject.attitude} {subject.occupation} wurde in {location.city} {activity}/code Ebenso werden Übersetzungen möglich, da die Kernelemente direkt übersetzt und in den Kontext der neuen Sprache eingebunden werden können (durch eine relationale Datenbank lässt sich dies sehr effizient realisieren). Traditionelle Übersetzungen bestehender Beiträge werden damit überflüssig.