Anzeige

Am Puls von Microsoft

Anzeige

Die Probleme der Sprachassistenten - und eine mögliche Gelegenheit für Microsoft

DrWindows

Redaktion
Sprachassistenten sind allgegenwärtig geworden, zumindest innerhalb der Technik-Blase, in der wir uns bewegen. Tatsächlich hat dieser Markt eine Durchdringung von ein bis zwei Prozent, der eigentliche Start steht uns also erst noch bevor. Google und Amazon haben das Feld im...

Klicke hier, um den Artikel zu lesen
 
Anzeige
Naja - Google kann davon schon gut leben...
Ihr sprecht zum Beispiel am Esstisch von irgendwelchen geplanten Käufen und Google kann das auf Google-Recherche eines am Tisch sitzenden zurückführen - zack geht einer von denen in seiner Stadt lokal in den Laden und zahlt per Google Pay - zack Google verdient sein entsprechendes Werbegeld.
Dass Google Pay Werbeauswertungs-mäßig genutzt wird ist bekannt und dass die Hotword-Erkennung ziemlich frei Gesprächsfetzen aufnimmt ist auch bekannt...

Es KANN von der bestehenden Datenstruktur nur Google und Amazon profitieren, das ist das Problem...

Und mit den Werbekunden geht Google ziemlich harsch vor - a la "entweder ihr zahlt für Aspekt XY jetzt Werbeprovision oder ich sorge dafür dass euer Umsatz sinkt..." - gleiches könnte Amazon im gleichen Stil fahren...

--- Kann man den Beitrag jetzt als Seitenwink an Nuance verstehen? Diese hat Google selbst bereits übertroffen - das habe ich letztens getestet. 180 km/h auf der Autobahn, beide vorderen Fenster offen - Google versteht haargenau, Nuance eher schlecht. - über ein integriertes Smartphone-Microfon bei leicht lauterer Sprache als würdest du dich in der Situation eben mit dem Beifahrer unterhalten.
Wenn also einer so ein System lizenzieren könnte, dann Google - und Google ist alles andere als Lizenzfreudig.
 
@Martin:
Stimmt. Absolut. Eigentlich erfindet da keiner "das Rad neu"...
Aber es gibt halt kleine Funktionsunterschiede:
- Individueller Aktivierungsname bei BMW,
- Skill-Erweiterung bei Alexa (ok, hat Google ja dann auch kopiert),
usw.
Trotzdem könnte man das doch "as a Service" anbieten? Und jeder Hersteller klatscht seine individuelle Note halt "im Nachhinein" drauf. Dennoch sollten sich die "digitalen Damen" miteinander verstehen. Ich will keinen Zickenkrieg. Schon gar nicht digital.

Im Endeffekt wird jeder Anbieter eines digitalen Assistenten diesen individualisieren wollen. Denn irgendwo müssen sich ja beispielsweise die Assistenz von BMW, von der von Mercedes unterscheiden.
Und übrigens BMWs neuer Assistent kommt vom Start weg in 23 verschiedene Länder, darunter auch in die DACH-Region. Respekt!

@paradonym:
Nuance hat - aktuell - in der Tat schon eine Sprachsteuerung mit Diktierfunktion für SMS bzw. E-Mails entwickelt und an verschiedene Autobauer lizenziert. Diese ist aber einzig und allein im Auto nutzbar.
 
Hätte ja eigentlich gedacht, dass so etwas ähnliches schon der Fall wäre, als ich den BMW Artikel sah.
Würfe auf jeden Fall Sinn ergeben.
 
koflor schrieb:
Hätte ja eigentlich gedacht, dass so etwas ähnliches schon der Fall wäre, als ich den BMW Artikel sah.
Würfe auf jeden Fall Sinn ergeben.

Nuance hat die aktuelle Sprachsteuerung "NLU" - Natural Language Understanding - entwickelt. Diese kann von verschiedenen Firmen eingebaut werden.
Unter anderem bei BMW/MINI.

Aber: Die Nuance-Sprachsteuerung ist nicht so umfangreich, wie z.B. Amazon Alexa. Und genau so viele Funktionen wollen die Hersteller zukünftig haben. Daher hat BMW nun für nächstes Jahr eine eigene Sprachsteuerung entwickelt mit "Hey BMW".
 
Genau das habe ich mich auch schon gefragt weshalb da jeder selbst noch einmal bei Null anfängt. Nur fällt es mir bei Microsoft schwer ihren Kram in eher "kritischeren" Szenarien wie Autos wiederzufinden, insbesondere außerhalb der USA. Wenn eine Frau in England sich von Cortana mit der Polizei verbinden lassen will und Cortana ruft bei einer Polizeistation in den USA an, oder ich sage Cortana "Erinnere mich in einhundert-zwanzig Minuten" und sie macht "10020 Minuten" daraus dann weiß ich wirklich nicht ob das alles überhaupt für die Welt außerhalb EN-US taugt...
 
Baloonicorn schrieb:
Genau das habe ich mich auch schon gefragt weshalb da jeder selbst noch einmal bei Null anfängt. Nur fällt es mir bei Microsoft schwer ihren Kram in eher "kritischeren" Szenarien wie Autos wiederzufinden, insbesondere außerhalb der USA. Wenn eine Frau in England sich von Cortana mit der Polizei verbinden lassen will und Cortana ruft bei einer Polizeistation in den USA an, oder ich sage Cortana "Erinnere mich in einhundert-zwanzig Minuten" und sie macht "10020 Minuten" daraus dann weiß ich wirklich nicht ob das alles überhaupt für die Welt außerhalb EN-US taugt...

Aber google oder Amazon muss man auch nicht im Auto haben. Google allein deswegen nicht weil die genug wissen. Amazon ist zum einkaufen daheim und bissl mehr vielleicht gut aber das wars dann auch schon. Alle beide haben ihre vor und nachteile. Ich fände Cortana im Hintergrund aufs wesentliche konzentriert viel interessanter auch wenn das so schnell nicht passieren wird. Ansonsten will ich nach wie vor kein google oder Amazon Sprachassistenten. Zum glück hab ich noch kein Androiden ?
 
Ab und zu nutze ich Cortana, nur auf dem Windows Smartphone, um Termine zu diktieren, die in den Outlook-Kalender eingetragen werden, oder ich lasse mir Witze erzählen. Spaßig und unterhaltsam. Hoffe sehr, dass Cortana weiter ausgebaut wird. Aber da hat man leider schon viel Enttäuschendes gehört. Ob das nun unter neuer Führung langsam besser wird? Bin gespannt.
 
Ich frage mich allerdings auch, was wohl Javier Soltero so macht, der im März seinen Dienst als neuer Cortana-Chef angetreten hat. Seit seinem Antritt scheint es eine Art Nachrichtensperre zu geben, über Cortana wird seitdem überhaupt nicht mehr gesprochen. Warum ist das so? Bei all der berechtigten Kritik am desolaten Zustand von Cortana: Man tauscht nicht die Führung aus, damit diese nichts tut. Darum bin ich überzeugt, dass wir früher oder später wieder von Cortana bzw. der zugehörigen Technologie hören werden. Aber wohl erst, wenn es auch etwas zu erzählen gibt.[/url]

Ja, an der Denkweise, dass man die Führung eines Teams austauscht um durch einen Neustart einen großen Fortschritt zu erzielen, ist zwar grundsätzlich etwas dran. Und Soltero ist sicher ein „cleverer Kerl“. Allerdings ist nichts über seine Kompetenz in für Sprachassistenten relevanten Wissensbereichen bekannt. Und jeder Chef, egal wie gut er selber ist, ist auf die Sachkompetenz seines Teams angewiesen (außer man ist ein „Ein Mann“-Team). Leider lässt mich der bisherige Stand bei Cortana heftigst daran zweifeln, dass in diesem Team irgendeine nennenswerten Sachkompetenz vorhanden wäre. Von daher befürchte ich, dass deine These (so sehr ich mir wünsche sie träfe zu) leider Wunschdenken bleibt.
Vielleicht ist es deshalb so still um Cortana, damit niemand bemerkt wenn Soltero seinen eigentlich bei Microsoft geplanten Abgang nachholt.
 
Ich vermute, abgesehen von Bedenken im Hinblick auf "der Hersteller weiß alles" gibt es eine Hemmschwelle wie bei Mikrophonen oder eine Höflichkeit gegenüber anderen in der Umgebung, mit seiner Gerätschaft zu sprechen.

Im Auto, eigenen Büro oder Arbeitszimmer gibt es reichlich Nutzungsmöglichkeiten. Aber daheim mit Frau und Kindern im Haushalt, im Büro mit Kollegen oder im öffentlichen Raum? Wo andere statt meiner etwas lostreten können? Eher nicht.
 
Martin Geuß schrieb:
Es wäre doch sehr viel sinnvoller, wenn ein Plattformanbieter genau diese Basis legt und diese dann an wen auch immer als Service lizenziert. Ein Dienst, der natürliche Sprache versteht und auch ansonsten alle technischen Voraussetzungen für den Betrieb eines Sprachassistenten mitbringt, und den der Lizenznehmer dann ganz für eigene Zwecke verwenden - und, ganz wichtig: Mit einem eigenen Branding versehen kann.

Genau das gibt es doch schon und Microsoft ist da als Plattformanbieter auch durchaus unter den führenden! Der Dienst nennt sich Language Understanding Intelligent Service (LUIS) und gehört zu den Azure Cognitive Services, die als AI as a Service (AIaaS) genau das zum Ziel haben: modularer Service der für Bot Technologien genutzt werden kann - idealerweise gleich mit dem Microsoft Bot Framework, auch wenn LUIS mit anderen Frameworks oder Szenarien verwendet werden kann: https://azure.microsoft.com/en-us/s...s/language-understanding-intelligent-service/

Es gibt einige Chatbot und Assistent-Lösungen im Enterprisebereich, die auf LUIS setzen und wo das außer den Architekten und Azure-Admins niemand weiß, weil der entsprechende Bot als User Interface sein ganz eigene Branding hat.

Insofern, Martin, ist das von dir gewünschte Szenario bereits Wirklichkeit...
 
Während Alexa wie eine Dose nach vorgefertigten Antworten greift und mir dann einen Kauf aufschwatzen will empfinde ich Google als sehr wortgewandt. Google Assistent versteht vieles überraschend gut und kann dann auch noch folge fragen korrekt zuordnen. Das sind innerhalb eines begrenzten Rahmens schon Konversationen.

Ganz Ehrlich am ende interessiert es niemanden wer da hinter steckt. Der der den Besten Service anbietet wird auf Dauer genutzt. Da kann dann noch so oft geschrieben werden "I will Google aber nicht da haben". Sind Sie die besten wird's genutzt. Der Markt wird sich bestimmt erst so in 5 Jahren konsolidieren. Wenn überhaut ein echter Markt daraus entsteht.
 
@Krischan1981 da gebe ich Dir absolut Recht. Die Datenschutz-Diskussion ist hier auch eine Scheindebatte, die von den drei Leuten im Internet geführt wird, die sich dafür interessieren und die tatsächlich bereit wären, ihr Kaufverhalten danach auszurichten. Die große Masse der Leute interessiert es nicht. Wer die meisten Daten über die Nutzer sammelt, wird das beste Produkt machen und das beste Produkt wird gekauft. So einfach funktioniert das.
 
Wenn man sich vergegenwärtigt wie schwierig sprachliche Kommunikation im alltäglichen Leben sein kann dann ist doch klar, daß KI auf einige Zeit hinaus nur begrenzt einsatzfähig ist.

Einen Termin im Kalender eintragen lassen ist relativ einfach, aber wie klar müssen die Anweisungen und wie gut muß die KI sein, daß die KI unverzüglich warnt, daß Termin "C" in Ort "b" zeitlich gesehen nicht durchführbar ist wegen der Distanz zu Ort "a"?

Microsoft hat zweifellos Potenzial entscheidend bei der Weiterentwicklung beizutragen, aber daß für so ein Projekt andere Partner mit ins Boot müssen, ist, denke ich, Grundvoraussetzung.
 
Krischan1981 schrieb:
Während Alexa wie eine Dose nach vorgefertigten Antworten greift und mir dann einen Kauf aufschwatzen will empfinde ich Google als sehr wortgewandt. Google Assistent versteht vieles überraschend gut und kann dann auch noch folge fragen korrekt zuordnen. Das sind innerhalb eines begrenzten Rahmens schon Konversationen.

Ganz Ehrlich am ende interessiert es niemanden wer da hinter steckt. Der der den Besten Service anbietet wird auf Dauer genutzt. Da kann dann noch so oft geschrieben werden "I will Google aber nicht da haben". Sind Sie die besten wird\\\'s genutzt. Der Markt wird sich bestimmt erst so in 5 Jahren konsolidieren. Wenn überhaut ein echter Markt daraus entsteht.

Wir haben eine Alexa auf der Fensterbank stehen und mir geht das Ding sowas auf den Senkel! "Alexa spiel FFH"- Antwort Alexa: FFH von Tune... "Alexa mach dies und jenes" .... Alexa? Alexaaaaa! (Manchmal hört sie nicht)
Ich stelle es mir gerade im Auto vor, wenn man eh schon vom Verkehr genervt ist :D

Wenn das unser Leben bestimmen soll, dann gute Nacht! Wie verblödet muss man noch werden? Wäre die Alexa nicht das Eigentum meiner Freundin, dann hätte ich Alexa mit dem Hammer auf den Kopf gehauen.
 
Ich persönlich hätte gar nichts dagegen ein paar Befehle auswendig zu lernen. Leider ist es nur so, dass viele Befehle einfach nicht existieren, also der jeweilige App-Hersteller keine entsprechenden Befehle eingebaut hat.
"Musik im Auto starten" könnte zum aktivieren von Bluetooth und dem Start meiner Musik-App führen. Sowas lässt sich dann aber nur mit Apps von Drittherstellern realisieren. "Starte Jogging" könnte meinen Tracker starten und aufzeichnen. Und selbst wenn Befehle vernünftig erkannt werden "Spiele Musik von xy" kommt (zumindest bei Android) eine langsam gesprochene Rückmeldung "Spiele Musik von xy auf Spotify" und dann wird erst die App geöffnet. Mach einfach. Red nicht, tu es.
"Neuer Termin am Mittwoch um drei Uhr, Betreff Arzttermin" und schon steht im Kalender für drei Uhr Nachts der Eintrag "Betreff Arzttermin". Bei Cortana ging das sogar noch besser als bei Google.
Man könnte ewig über das wenige Mitdenken von AI reden, Spracherkennung, Autokorrektur. Da ist noch so viel Luft nach oben...
 
Anzeige
Oben