Genial abgehört: Digitale Doppelconference
Wilfried Schaffner, CTO von Philips Speech, hat ein Mikrofon entwickelt, das einen Dialog in zwei separate Gesprächsprotokolle verwandelt. Warum mit dieser Innovation einige Berufsgruppen sehr viel Freude haben werden, und das eine Weltneuheit „Made in Austria“ ist, erzählt der Erfinder.
Wilfried Schaffner, CTO von Philips Speech.
trend:
Sie haben einem Mikrofon „beigebracht“, das Gespräch von zwei Personen so aufzunehmen, dass es danach von einer Software automatisiert in zwei separate Transkripte verwandelt werden kann. Wer braucht so etwas?
Wilfried Schaffner:
Ärzte, Anwälte, Polizisten, Geschäftspartner, die eine Verhandlung dokumentieren wollen. Ich könnte Ihnen endlos Beispiele aufzählen. Aus unserer jahrzehntelangen Erfahrung mit Sprachtechnologie kennen wir die Sorgen und Wünsche der Anwender ziemlich gut, glauben Sie mir. Und aus einer Gesprächssituation zwei Schriftstücke oder Protokolle zu machen, und das auch noch automatisiert, ist ein ziemlicher Quantensprung.
Sie sprechen von einer Weltneuheit. Was macht Sie da so sicher?
Sie haben schon recht, eine hundertprozentige Garantie gibt es nicht. Der Markt der Spracherkennung ist ein großer. Mittlerweile ist ein Riesenhype in dem Markt drinnen. Den direkten Anwendermarkt, der Spracherkennungssysteme nutzt – Mediziner, Anwälte, Versicherungen – da kennen wir die relevanten Player. Deswegen trauen wir uns zu, das zu beurteilen.
Können Sie laienverständlich erklären, wie Ihnen das gelungen ist?
In der Vergangenheit war die Qualität eines Mikrofons mehr oder weniger allein entscheidend. Mit unserem SmartMike gehen wir einen Schritt weiter. Unser Algorithmus in der Spracherkennung trennt die Sprecher, auch wenn sie überlappend sprechen. Mit Beamforming können wir die Position der Sprecher so exakt bestimmen, dass der Algorithmus sie auseinander dividieren kann. Hard- und Software sind dabei optimal aufeinander abgestimmt.
Die wahre Intelligenz steckt in der Software.
Was mit zwei Sprechern geht, müsste auch mit drei oder vier funktionieren?
Wenn wir die Hardware darauf abstimmen, wird auch das gehen. Bei zwei Sprechern haben wir ein Gerät in der Mitte. Vier Leute müssten exakt in einem 90 Grad Winkel zum Mikro sitzen, damit das klappt. Damit das auch lockerer klappt, ohne den 90 Grad Winkel, daran arbeiten wir als nächstes.

Hört doppelt genau zu und kann Sprecher identifizieren: Das "SmartMike Duo" von Philips Speech.
Wie lange hat die Entwicklung gedauert?
Effektiv waren es zwei Jahre (Anm. Schaffner ist vor zwei Jahren ins Unternehmen gekommen). Mit gewissen Ideen geht man aber schon viel früher schwanger.
Wie darf man sich so ein Sprachlabor wie das Ihre vorstellen?
Natürlich haben wir eine Reihe von Messgeräten, Ozilloskopen, 3D-Druckern für schnelle Prototypen. Es gibt schon etwas zu sehen. Die wahre Intelligenz steckt allerdings in der Software.
Derzeit wird SmartMike in Wiener Spitälern getestet: Wann ist es kommerziell verfügbar?
Für Integratoren ist das Produkt bereits fertig, für einzelne Kunden allerdings noch nicht. Bis wir die dazugehörige Serviceplattform aufgebaut haben, wird es wohl noch bis ins erste Quartal 2021 dauern.
„Made in Austria“ sorgt für positive Aufmerksamkeit gegenüber "Made in China".
95 Prozent der Umsätze gehen in den Export. Verkauft das Label „Made in Austria“ mit oder streichelt das nur das österreichische Ego?
Das „Made in Austria“ sorgt schon für positive Aufmerksamkeit. Ingenieursleistungen aus dem deutschsprachigen Raum genießen noch immer weltweit Renommée, und das fällt in Zeiten, wo so viel „Made in China“ ist, schon wieder auf.
Ich möchte Sie als Experten etwas anderes fragen: Immer wieder kommt an die Öffentlichkeit, dass Konzerne wie Apple oder Amazon unerlaubt Audiofiles von Siri- und Alexa-Nutzern mitschneiden und transkribieren lassen. Abgesehen davon, dass das ein schweres Privacy-Foul ist, machen sie das aus „Trainingsgründen“?
Ich weiß es natürlich nicht, aber ich gehe davon aus, dass das der Hintergrund ist. Natürlich ist Training das Wichtigste für Künstliche Intelligenz. Wenn ein „T“ unsauber ausgesprochen wird, muss ich der Software beibringen, diese Aussprachen als richtige zu erkennen, und sie immer wieder mit verifizierten Mustern füttern. Eines ist mir wichtig: Wir würden die Dateien unserer Kunden nie in diesem Sinne angreifen. Das verbieten uns Ethos und Datenschutz.