Watson Speech to Text: präzise und schnelle Spracherkennung

Watson Speech to Text: Konvertieren von Sprache in Text mit KI-basierter Spracherkennung und Transkription©IBM Watson

Mit Watson Speech to Text hat der IT-Gigant IBM eine speziell auf die Bedürfnisse für den professionellen Einsatz in Unternehmen und Organisationen zugeschnittene, KI-gestützte Spracherkennungs- und Verarbeitungslösung entwickelt.

von

Swetlana K.

Inhalt

Spracherfassung in Unternehmen

Sprache lernt der Mensch normalerweise unbewusst durch Zuhören, Nachahmen und Wiedergeben. Im Alltag wird sie intuitiv verwendet. Wie komplex das Konstrukt Sprache ist, wird erst deutlich, wenn man sich mit ihr beschäftigt. Emotionen, Aussprache, Stimmlage und Fremdwörter können die Kommunikation sowohl erschweren als auch erleichtern.

Für Unternehmen ist eine effiziente und korrekte Spracherfassung gerade im Bereich des automatisierten Kundenservice von besonders großer Bedeutung und oft der Ausgangspunkt für ein erfolgreiches Serviceerlebnis. Auch im Bereich der Datenextraktion aus Audioaufnahmen ist sie unerlässlich. Je präziser und schneller die Sprache in Text umgewandelt werden kann, desto höher ist die Qualität des Sprachtranskripts.

Mit Watson Speech to Text hat der IT-Gigant IBM eine KI-gestützte, selbstlernende Lösung entwickelt, die speziell auf die Anforderungen im Corporate-Bereich zugeschnitten ist. Watson Speech to Text wird dabei als SaaS-Lösung (Software as a Service) angeboten. Das bedeutet, dass sie bei Kunden sofort einsatzbereit ist. Watson Speech to Text unterstützt dabei eine Vielzahl von Sprachen, ermöglicht die individuelle Anpassung an Unternehmen und lernt dabei aus jeder Anwendung.

Was Watson Speech to Text bietet

Die Grundfunktion der Watson Speech to Text-Technologie ist die Umwandlung von Sprache in Text. Dabei steht - ganz dem internationalen Ansatz der Lösung und der globalen Präsenz von IBM entsprechend - eine beeindruckende Auswahl an Sprachen samt regionaler Abwandlungen zur Verfügung:

Arabisch, Argentinisch, Chilenisch, Chinesisch (Mandarin), Deutsch, Englisch (USA, GB), Französisch, Italienisch, Japanisch, Kastilisch, Kolumbianisch, Koreanisch, Mexikanisch, Niederländisch, Peruanisch, Polnisch, Portugiesisch (Portugal, Brasilien), Russisch, Spanisch, Türkisch.

Die Sprachübertragung kann sowohl simultan als auch im Audioformat erfolgen. Audiosamples mit 16 kHz Breitband und 8 kHz Schmalband werden von der Software unterstützt. Es ist möglich, mit verschiedenen Audioformaten zu arbeiten.

Funktionen und Features

Watson Speech to Text ist mit mehreren Funktionen ausgestattet, die in verschiedenen Bereichen eines Unternehmens von großem Nutzen sein können. Diese Funktionen betreffen vor allem die Datenverarbeitung sowie die Arbeit mit der Sprache. Die Datenverarbeitung ist mit folgenden Features möglich:

Audioaufnahme
Formatierung (automatisch)
Spracherkennung
Sprachübertragung
Transkription (automatisch)
Volltextsuche

Präzises Arbeiten mit Audioaufnahmen wird durch Feinabstimmung ermöglicht. Bestimmte Phrasen, Inhalte, Listen, Wörter oder Zahlen können schnell identifiziert und bei Bedarf extrahiert werden. Die Filterung erfolgt mit Funktionen wie Keyword-Spotting und Profanity-Filter (nur Englisch). Die Erkennung und Verarbeitung natürlicher Sprache in Echtzeit ist mit Watson Speech to Text bei geringer Latenz möglich.

Transkriptionen können durch eine Audiodiagnose verfeinert werden. Diese Funktion identifiziert schwache Audiosignale vor der Transkription und macht Vorschläge zur Verbesserung. Darüber hinaus können vorläufige Transkriptionsergebnisse mithilfe der Sprachtranskription erstellt werden. Intelligente Formatierung der Transkriptionen hilft, die endgültigen Ergebnisse zu gestalten. Darüber hinaus ist die Software in der Lage, bis zu sechs Sprecher zu erkennen und abzubilden (Sprecherdiarisierung).

KI-gestützte individuelle Anpassung

Die KI hinter Watson Speech to Text ermöglicht die kundenspezifische Anpassung der Software. Damit passt sich die Technologie nicht nur an das jeweilige Unternehmen an, sondern auch an die Sprachen, für die sie eingesetzt wird. Die Adaption findet durch die Unterstützung der Künstlichen Intelligenz grundsätzlich automatisch statt.

Benutzer haben allerdings auch die Möglichkeit, selbst einzugreifen, wenn etwa für die Aufnahme von Namen eine sofortige Anpassung erforderlich ist. Der Nutzer von Watson Speech to Text kann die Individualisierung auf folgende Weise beeinflussen:

Sprachmodelltraining: Mithilfe von Korpora-Dateien kann die Spracherkennung verbessert werden. Firmenterminologie, Produktnamen oder Abkürzungen werden erfasst und schneller wiedergegeben.
Akustisches Modelltraining: Anhand von Audiobeispielen kann die Software für regionale Dialekte und gebietsspezifische Akustik sensibilisiert werden.
Sprachgrammatik: Zusätzliche Regeln und Befehle verfeinern das jeweilige Sprachmodell. Das können Phrasen, Wörter, Buchstabenkombinationen oder Zahlen sein.
Wortalternativen, Genauigkeit und Zeitstempel: Zu einem erkannten Hauptwort werden alternative, ähnlich klingende Varianten gespeichert. Sie werden in einer Antwort zusammen mit einem Verlässlichkeitsgrad und einem Zeitstempel wiedergegeben.

IBM bietet hier einen Online-Vergleich an, in dem die Funktionalität von Watson Speech to Text mit und ohne Training demonstriert wird.

Wie Watson Speech to Text eingesetzt werden kann

Watson Speech to Text ist auf die Bedürfnisse von Unternehmen zugeschnitten und sowohl für die C2B-Kommunikation, der Kommunikation zwischen Unternehmen und Kunden, die B2B-Kommunikation - der Kommunikation unter Geschäftspartnern - als auch die interne Kommunikation geeignet. Als SaaS-Lösung kann Watson Speech to Text dabei sowohl in kleinen als auch in großen Unternehmen eingesetzt werden.

Ein Einsatzbereich ist etwa in Callcentern, wo Gespräche und ihre Qualität dadurch verbessert werden können. Zum einen wird die Sprachbarriere zwischen Sprechern mit unterschiedlichen Sprachkenntnissen reduziert. Zum anderen entfallen Wartezeiten, was zu einer erhöhten Anrufkapazität führt. Mithilfe der Software ist es möglich, verschiedene Funktionen wie die Beantwortung von Fragen, die Durchführung von Transaktionen oder die Hilfeleistung auszuführen. Das Gleiche gilt übrigens auch für Chatboots.

Die Leistung von Call-Centern kann durch eingehende Analysen erheblich verbessert werden. Gesprächsprotokolle können auf Stimmung, Beschwerden oder bestimmte Ausdrücke ausgewertet werden. Dies bietet Raum für Verbesserungen, Automatisierung und gezieltere Interaktion mit Kunden.

In internationalen Unternehmen kann Watson Speech to Text auch genutzt werden, um die Kommunikation zwischen Mitarbeitern aus verschiedenen Ländern zu verbessern. Sie können gemeinsam an Projekten, Problemen oder Aufgaben zur gleichen Zeit arbeiten.

Voraussetzungen für den Einsatz in Unternehmen

Als SaaS kann Watson Speech to Text Unternehmen aller Art auf globaler Ebene unterstützen. Durch die Nutzung der Cloud ist die Software einfach zu implementieren und zu nutzen. Dadurch ist eine öffentliche, private, hybride oder lokale Nutzung möglich. Für eine optimale Nutzung ist eine stabile Internetverbindung erforderlich.

Das Einrichten eines Kontos ermöglicht den Zugriff auf die Software. Die Details zur Eröffnung eines Kontos finden Sie hier.

Modelle und Kosten

Watson Speech to Text von IBM wird in verschiedenen Preisstufen angeboten. Jede Tarifstufe entspricht einer Reihe von Funktionen, die dafür freigeschaltet sind. Je nach Tarif ist die Nutzung der Software auch zeitlich pro Monat begrenzt.

Modell	Preis	Nutzungsdauer	Details
Lite	kostenlos	500 Minuten/Monat	Lite-Plan-Services werden nach 30 Tagen ohne Nutzung gelöscht
Plus	0,016866 € EUR/Minute	Maximal 100 gleichzeitige Transkriptionen	Zugriff auf alle Basissprachmodelle, praxisorientierte Schulungsfunktionen und Transkriptionsfunktionen.
Premium	Preis auf Anfrage	Bis zu 500 gleichzeitige Transkriptionen und die Option für zusätzliche Transkriptionen sowie 150.000 kostenfreie Minuten	Features wie der Plus-Plan, erweiterte Sicherheitsfeatures, End-to-End-Verschlüsselung, Umsetzung der HIPAA-Vorgaben.

Fazit: einfach und professionell

Das Anwendungsspektrum der Software ist sehr breit. Von der einfachen Übersetzungsarbeit bis zur individualisierten Spracherkennung ist fast alles möglich. Das Potenzial der Technologie ist vor allem für international ausgerichtete Unternehmen nützlich. Aber auch lokale und kleine Unternehmen können von vielen Funktionen der Software profitieren. Besonders gut funktioniert sie im Bereich des Kundenservice. Warteschlangen werden verkürzt und Kunden werden schneller bedient. In Call Centern oder Customer Service Bereichen können damit auch Gespräche zur späteren Kontrolle oder Verbesserung des Angebots aufgezeichnet und transkribiert werden.

Mehr zum Thema

Sprachsteuerung und Spracherkennung:
Die besten Lösungen im Vergleich

Speech-Tools

Über die Autoren