Sprachassistenten: Zwei essentielle Faktoren für den Durchbruch

Es gibt derzeit gleich mehrere Technologien, denen man zutraut, „The next big thing“ zu werden. Neben den verschiedenen Ausprägungen der virtuellen Realität gehören auch die digitalen Assistenten dazu, die vornehmlich per Sprache bedient werden. Amazon, Apple, Google und Microsoft sind bereits am Start, weitere werden folgen. Neben ihrer wichtigsten Aufgabe – nämlich der, tatsächlich nützlich zu sein und das zu tun, womit man sie beauftragt, gibt es für mich zwei weitere wichtige Eigenschaften, die darüber entscheiden werden, ob ein solcher Sprachassistent bei den Nutzern erfolgreich ankommt oder nicht.

In der letzten Woche habe ich Microsofts Cortana eher bescheidene Erfolgsaussichten attestiert, und einer der beiden Punkte hat damit auch ganz direkt zu tun. Aber der Reihe nach:

Benutzer-Authentifizierung und Mehrbenutzerfähigkeit
Wir kennen die Geschichten von dem Nachrichtensprecher, der zu Hause das Licht ausschaltet und von Kindern, die das Vermögen ihrer Eltern bei Amazon ausgeben. Kuriose und amüsante Fälle, die aber ein ernsthaftes Problem zum Vorschein bringen: Es muss sichergestellt werden, dass Derjenige, der eine Aktion durchführt oder eine vertrauliche Information abruft, und sei es nur der persönliche Kalender, auch tatsächlich dazu berechtigt ist. So lange der Assistent noch in einem Smartphone „wohnt“, welches in der Regel nur seinem rechtmäßigen Besitzer zugänglich ist, mag das noch eine einfache Aufgabe sein. Wenn wir aber an Geräte wie Amazons Echo denken, die darauf ausgelegt sind, irgendwo im Raum zu stehen, wird eine solche sichere Authentifizierung zur Pflichtaufgabe. Im Idealfall geschieht das auf natürliche Art und Weise durch eine zuverlässige Erkennung anhand der Stimme

In diesem Punkt sehe ich Microsoft in einer guten Position: Sichere Authentifizierung und Mehrbenutzerfähigkeit stecken tief in der DNA alle Produkte, Windows 10 als der Unterbau für alle Geräteklassen bringt diese Fähigkeit mit, und eine Technologie wie Windows Hello schreit geradezu danach, durch eine biometrische Authentifizerung mittels Sprache erweitert zu werden.

Natürliche Sprache
Der zweite Punkt ist noch sehr viel wichtiger. Ich bin sogar der Überzeugung, dass er wichtiger ist als alle anderen Eigenschaften zusammen. Nicht die Sicherheit oder der Funktionsumfang werden am Ende entscheidend sein – der Weg in den Olymp der Sprachassistenten führt über die natürliche Erkennung der Sprache. Egal ob Alexa, Siri, Cortana oder Google Assistant – all diese Sprachassistenten können ihre volle Leistungsfähigkeit erst ausspielen, wenn der Benutzer weiß, wie er sie zu bedienen hat. Man muss die verfügbaren Befehle kennen und wissen, wie man diese formulieren muss, damit man das gewünschte Ergebnis bekommt. Man muss lernen, seinen Assistenten zu verstehen, obwohl es genau anders herum sein sollte.

Natürliche Sprache ist DAS Killerfeature. Ich muss mit meinem digitalen Assistenten sprechen können, wie mir der Schnabel gewachsen ist und ohne mir irgendwelche Gedanken machen zu müssen, ob ich die richtigen Schlagworte in der korrekten Reihenfolge angegeben habe. Der Assistent, der am menschlichsten wirkt, wird die Sympathie der Nutzer bekommen. Und diese Sympathie wird die Menschen sogar über funktionale Defizite gegenüber Konkurrenzprodukten hinwegsehen lassen. Nicht der intelligenteste und umfangreichste, sondern der menschlichste Assistent wird ganz vorne sein. Und das ist eben genau der Punkt, in dem Microsoft mit seiner eher suboptimalen Lokalisierung die größte Gefahr droht, international aufs Abstellgleis zu geraten. Der Rückstand ist allerdings nicht so groß, wie er auf den ersten Blick erscheint – auch deshalb, weil man diese Fähigkeit nicht einprogrammieren kann. Die künstlichen Intelligenzen müssen sich das sozusagen selbst beibringen und genau das ist ein Bereich, in den Microsoft massiv investiert. Die Kapazitäten sind also vorhanden, sie müssen nur auf das richtige Ziel ausgerichtet werden.

Über den Autor
Martin Geuß
  • Martin Geuß auf Facebook
  • Martin Geuß auf Twitter
Ich bin Martin Geuß, und wie unschwer zu erkennen ist, fühle ich mich in der Windows-Welt zu Hause. Seit mehr als zwölf Jahren lasse ich die Welt an dem teilhaben, was mir zu Windows und anderen Microsoft-Produkten durch den Kopf geht, und manchmal ist das sogar interessant. Das wichtigste Motto meiner Arbeit lautet: Von mir - für Euch!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.



Kommentare
  1. Cortana hechelt ja momentan hier in D den anderen Diensten noch ganz schön hinterher :-( ein Grund warum ich sie so gut wie nie benutze. Mit ok Google kam ich wesentlich besser zurecht, da bekam ich wenigstens auf Fragen auch ne Antwort und nicht wie bei C. irgendwelche Bing Vorschläge...aber, das ist nur ein Beispiel, andere Sachen kannse auch nich. Na ja, viell. wird's ja noch mal was :-)
    Aber was nützt diese tolle Technik wenn sich damit kein Geld verdienen lässt. Bei den Handys habe ich oft gelesen das die Displays zu klein sind um die Werbung dort anzeigen zu lassen ohne das Sie zu sehr stört. Hier sehe ich das es gar kein Display gibt. Auch stelle ich es mir schwierig vor wenn nach meiner Frage erst ein Radiowerbespot kommt bevor mir Cortana das Wikipedia Ergebnis vorließt.
    Ja das mit der natürlichen Sprache ist für mich auch der Kritikpunkt wieso ich Cortana, ok Google, Siri und Alex einfach nicht nutze...
    Ich spreche doch nicht mit einem Roboter, sondern möchte meiner Assistentin reden wie mit einem normalen Menschen. Zumindest so natürlich wie möglich!
    Cortana nutze ich für Erinnerungen und diese Tippe ich auch ein, weil das Sprechen so unnatürlich ist...
    Wenn ich zu Cortana sage ich brauche eine Erinnerung für morgen um 16 Uhr bezüglich den und den anrufen dann kommt bisher so auf die Art: "Aha er möchte eine Erinnerung erstellen" und das wars. Zeiten, der Grund der Erinnerung etc. muss ich alles entweder nochmal sagen oder manuell eintragen :/ Das ist unnatürlich und daher nutze ich das auch einfach nicht!
    Edit:
    Auch sollte Cortana doch eigentlich aus den E-Mails von Outlook oder der Mail App die Sendenummer von der DHL z.b. ziehen und mir in den Kalender das eintragen, das hat noch nie geklappt oder muss ich das wo einstellen?
    Selber lesen ist besser für die Aufnahme von Wissen - von daher....mag zwar gut für Sportergebnisse sein und für Sehbehinderte eine richtige Bereicherung, aber ein Assistent benötigt einfach auch die visuelle Darstellung wenn es über die "leichte Kost" hinausgehen soll.
    @Martin hattest du nicht kürzlich über ein Win10 Display fürs smarte Haus berichtet? - finde es gerade nicht. Darin sehe ich eigentlich eher einen Sinn - Cortana benötigt m.E. zum ausspielen ihrer Stärken ein Display. Auch für die Haussteuerung - eine graffische Darstellung macht da schon Sinn.
    Bin ganz Deiner Meinung Martin. Ein Assistent MUSS den normalen Sprachstil beherrschen. Denn dann spare ich mir auch Zeit eine Sache zu organisieren. Wenn der Assistent fünf Mal sagt, das er das nicht verstanden habe, dann schnapp ich mir mein Handy und mach es manuell. Wer das als erstes schafft, der wird auch den Markt schnell erobern.
    Für mich sieht die ganze Sprachsteuerungsgeschichte wie ein gigantischer Flop aus.
    Wer will und kann sowas im Job einsetzen? Im Büro sicher nicht.
    Im Alltag, auf der Straße, in der Bahn, bestimmt keiner.
    Zuhause, wo man seine Ruhe will? Ich nicht.
    Das einzige mal, wo ich jemanden mit "hey Siri" gehört hab, war im Biergarten und das auch nur aus Jux.
    Kann ich Martin nur voll und ganz zustimmen.
    Der Assistent oder die Assistentin =) die als erste/r dazu in der Lage ist mich zu verstehen egal ob ich 8 Bier intus hab (voll trunken muss er mich net mehr verstehen ;) ), gerade erst aufgestanden bin, im Stress bin oder viel zeit hab, ob ich mir gerade mühe gebe und Hochdeutsch spreche oder ob ich in tiefstes Hessisch oder Pfälzer platt verfalle.
    Das System werde ich nutzen.
    Da ist mir dann ein stückweit auch dann die Sicherheit nicht ganz so wichtig.
    Was bringt es mir wenn ich ein System hab das zwar super sicher ist aber das nur 10% von dem was ich Sage auch kapiert (ich mein klar auch ein stück Sicherheit wenn die einfach nix versteht *sfg*)
    @Krischan: das mit dem Geldverdienen wird gehen. Google verdient auch nicht nur mit "Werbung" Geld ;) So Sachen wie X Dollar zahlen um vor anderen auf zu tauchen, X Dollar zahlen um überhaupt aufzutauchen, X% bekommen wenn über die Seite was gekauft wurde, Verbraucherverhalten aufzeichnen und verkaufen (Payback z.b.), Datenhandel allgemein usw. Da gibt es jede menge Möglichkeiten.
    Das wird von heute auf morgen nichts - das ist eine Sache von Generationen und wie man damit aufwächst /hineinwächst. Für den "Altgedienten" ist es nicht einfach sich zu überwinden, die "Anfängergeneration" tut sich da wesentlich einfacher. Kinder agieren wesentlich selbstverständlicher.
    Der Part mit der natürlichen Sprache ist auch für mich der entscheidende Faktor. Ich bin von jedem dieser Sprachassistenten bislang einfach nur genervt und daher benutze ich die auch nicht.
    Jedes Mal muss man überlegen was man sagen kann um ein gewisses Ziel zu erreichen und in 90% der Fälle bin ich schneller, wenn ich gleich irgendwo in ein Smartphone oder einen PC tippe.
    Und dann finde ich gibt es noch einen ganz anderen Aspekt der meiner Ansicht nach zu sehr in der Argumentation vernachlässigt wird. Das ist auch was ich bei dem "Hype" um Youtube nicht verstehe. Ich persönlich finde in vielen Fällen ein Video oder eine Sprachausgabe einfach nur störend: Es bindet mich für einen gewissen Zeitraum mit wenig sinnvollen Möglichkeiten zu pausieren.
    Einen Text kann man einfach lesen, unterbrechen, weiterlesen, irgendwo wieder einsteigen usw. Das ist bei Audio und Video einfach relativ unpraktisch. Alles was einmal wiedergegeben wurde muss "umständlich" wieder gefunden werden. Das wird z.B. bei einem längerem Tutorial sehr auffällig. Auch wenn die Generation Youtube sich von früh bis abend dort "informiert" und "meisterhaft" die Sprachassistenten bedient, halte ich das bis auf weiteres für wenig fortschrittlich.
    Wenn ich Cortana nutze, dann im Auto zum Vorlesen und Verfassen von SMS. Dabei legt mir C. die Sprachbefehle quasi in den Mund indem sie mögliche Kommandos abfragt. So macht es mein Navi auch. Das ist für mich eigentlich ganz ok. Wenn man allerdings die Fülle möglicher Anweisungen zu Beginn einer Nutzung am PC oder Phone bedenkt, ist zumindest der Einstieg am PC oder Phone ein Thema.
    Ich nutze zwar Cortana täglich, aber ich spreche so gut wie nie zu ihr.
    Und bei Text Eingabe empfinde ich etwas kryptische Aufforderungen auch besser als eine natürliche Sprache. Sie muss einfach beides beherrschen.
    Wichtig ist, dass MS möglichst schnell die Qualität der US Cortana überall auf dem Globus, oder zumindest den großen, wichtigen Märkten bringt.
    Denn gerade wir Europäer sind bei so neuen Diensten erst mal zurückhaltend. Noch ist hier Alexa und Google Assistent nicht so verbreitet, als das MS in eine Windows Phone Situation kommen könnte.
    Das mit der natürlichen Sprache oder Lernfähigkeit bzgl des Nutzers ist in der Tat ein wesentlicher Aspekt.
    Aber es muss auch grundsätzlich funktionieren. Auf meinem PC findet Cortana keine Kalendereinträge für den nächsten Tag. Cortana auf dem Handy schon. Ich habe doch als Nutzer jetzt keine Lust zu suchen, wo das Problem liegt. Also lasse ich die Nutzung und schmeiße Cortana kurzerhand per Richtlinie raus.
    Ich denke der Nutzen und vor allem der Bedarf von solchen Helferlein wird völlig überschätzt.
    Aber was nützt diese tolle Technik wenn sich damit kein Geld verdienen lässt. Bei den Handys habe ich oft gelesen das die Displays zu klein sind um die Werbung dort anzeigen zu lassen ohne das Sie zu sehr stört. Hier sehe ich das es gar kein Display gibt. Auch stelle ich es mir schwierig vor wenn nach meiner Frage erst ein Radiowerbespot kommt bevor mir Cortana das Wikipedia Ergebnis vorließt.

    Geld wird durch die Auswertung des gesprochenen wortes verdient.
    Sprachassistenten funktionieren doch nur, wenn die Daten der getätigten Such-Anfragen zu den Servern des jeweiligen Diensteanbieters gelangen und verarbeitet werden konnten. Soweit bin ich noch lange nicht beim Fortschrittsglauben und in Sachen Bequemlichkeit. Insoweit verzichte ich wegen des Datenschutzes bislang auf digitale Assistenten und lebe rückständig! ;)
    Sprachassistenten funktionieren doch nur, wenn die Daten der getätigten Such-Anfragen zu den Servern des jeweiligen Diensteanbieters gelangen und verarbeitet werden konnten. Soweit bin ich noch lange nicht beim Fortschrittsglauben und in Sachen Bequemlichkeit. Insoweit verzichte ich wegen des Datenschutzes bislang auf digitale Assistenten und lebe rückständig! ;)

    und wie funktionieren Suchmaschinen?
    Das mit der "natürlichen" Sprache scheitert spätestens, wenn jemand aus Sachsen oder der Oberpfalz das ernst nimmt. Ohne eine recht gute hochdeutsche Artikulation dürfte das lustig werden und sollte in jedem Fall automatisch irgend wo veröffentlicht werden.
    Das wäre ein prima Anwendungsfall, mit dem man endlich mal Sway vorführen könnte.
    :lol:lol:D
    Ich denke der Nutzen und vor allem der Bedarf von solchen Helferlein wird völlig überschätzt.

    Ja, so ist es ...
    Ein richtig funktionierender Schalter für die sofortige KomplettAbschaltung wär schon schön, aber andererseits, die Antwort auf "nix" hat schon was, irgendwas tut sich da, in fünf Jahren weiß man, warums noch länger immer wieder weitere 5 Jahre dauert ;-) ...
    Sicherheit, ok
    Sprachqualität, schön
    Mir ist der Funktionsumfang und die Lernfähigkeit viel wichtiger.
    Es kann doch nicht so schwer sein, Cortana statt immer Bing zu starten auch mal nachfragen zu lassen, was ich denn wollte und es sich für die Zukunft zu merken.
    Ich bin gern bereit, dem System beim Lernen zu helfen, wenn es dann auch die Funktionen so kann, wie ich sie nutzen will.
    Stefan
    und wie funktionieren Suchmaschinen?

    Denke, dass Browser-Anfragen an Suchmaschinen viel unproblematischer sind, als digitale Assistenten, die ins Betriebssystem integriert sind. Bei Browser-Anfragen, z.B. über die Suchmaschine DuckDuckGo, kann man nämlich anonym über einen VPN operieren, oder über's Tor-Netzwerk, mit wechselnden IPs. Beim digitalen Assistenten wie Cortana oder Siri ist das Gerät doch fest mit seiner ID und dem individuellen Nutzer-Account mit dem Dienstleister, also Microsoft, Apple oder Google verbunden. Sehe da große, unvergleichliche Unterschiede.
    Zum Erfolg gehören m.M.n. noch ein paar Dinge.
    1.) Es muss normal werden, in den leeren Raum zu sprechen oder mit einem kleinen schwarzen Kasten zu reden.
    2.) Die Erkennung muss besser werden und der Mehrwert darf sich nicht nur auf ein paar Funktionen beschränken.
    3.) Noch wichtiger ist meinen Augen aber die Sicherheit. Ob das in einigen Jahren die Nutzer auch so sehen, weiß ich nicht.
    Wer heute mit offenem FB surft oder wer heute eingeloggt alle Google Dienste nutzt, der ist ja schon relativ gläsern. Wenn aber in ein paar Jahren das gesamt Privatleben analysiert oder mitgeschnitten wird, dann wird das nichts gegen heute sein.
    Das Problem wird auch nicht der kleine Verkäufer sein, der für die großen Firmen völlig unrelevant ist. Informationen über Entscheidungsträger sind schon wertvoller.
    Heute ist ja schon viel konzentriert, bei der Sprachsuche läuft aber alles über die Server von nur 3 Firmen.
    VG
    FZ61
    Ich denke der Nutzen und vor allem der Bedarf von solchen Helferlein wird völlig überschätzt.

    Das würde ich unterscheiben. Die Sprachassistenten sind in einigen Fällen sicherlich ganz nützlich, etwa wenn man aus Grund XY gerade nicht mit dem Handy / PC / etc. interagieren kann / will (etwa bei der Autofahrt). Da sehe ich das durchaus Potential für die Helfer, um mal eben kurz die Musik zu wechseln, einen Telefonanruf zu starten, etc.
    Aber davon ab ist es doch primär eine Spielerei. Das sieht lustig und futuristisch aus, aber wirklich alltagtauglich (in der Form, dass es viele tagtäglich und freiwillig so machen) erscheint es in vielen Anwendungszwecken nicht. Weil vieles eben doch etwas komplexer, als das, was dann in PR-Videos gezeigt wird und die Interaktion mit auf dem Bildschirm angezeigten Infos in vielen Fällen sehr viel bequemer und einfacher ist.
    Was meiner Meinung nach zu wenig im Artikel berücksichtigt wird zeigt sich im Aufmacherbild. Ein digitaler Assistent benötigt auch ein ansprechendes Äußeres. Die "klassische" Cortanahülle ist entweder ein dahinsichendes Smartphone Ökosystem oder die berühmte graue Kiste unterm Schreibtisch. Sie muss in eine schicke Uhr oder in einen formschönen Monolit wie ihre Konkurrenz-Schwestern.
    Wie immer im Leben täuscht das Äußere nur kurzzeitig über die Defizite im Inneren hinweg, aber was bringen mir die tollsten Fähigkeiten, wenn ich davon nix erfahre.
    OK, wenn man mich hier wörtlich nimmt, dann klingt es schon sehr oberflächlich... aber ich denke der Punkt wird klar :lol
    Ich sehe vor allem die Zeitersparnis als Faktor für einen möglichen Durchbruch dieser Technik. Wenn Aufgaben länger dauern als per Hand oder nicht präzise genug sind, dann wird es schwer bis unmöglich. Gerade mit Blick auf anspruchsvollere Aufgaben und nicht nur kurz das Wetter abfragen.
    Zusätzlich beim smarten Home sind mir die Sachen noch zu teuer. Ich würde mir z.B. gerne das hier alles mit dem Eierphone einrichten. https://www.youtube.com/watch?v=4nbhfrQfRRE aber erstens bin ich nicht Krösus und ich wohne noch zur Miete. Da kann ich leider recht wenig in der Wohnung verändern bzw. lohnt es nicht, wenn man dann wieder auszieht. In der aktuellen Bude wohne ich sicherlich nicht bis zur Rente :D
    Aber alleine die Lichtgestaltung würde schon einiges kosten. Das fällt für mich aktuell noch zu sehr unter Luxus. Sicherlich mit ein Grund dafür, warum das Ganze noch nicht so verbreitet ist.
    Und wo ist das Problem ?
    Zumindest bei der Google Assistentin (Google Assistant hat eine weibliche Stimme),
    kann man die Erkennungsphrase individualisieren.Und auch andere Phrasen, als
    "OK Google" trainieren.
    Assistenten wie Alexa seh ich nur als Spielerei an. Da fehlt einfach eine visuelle Komponente. Ein Radiosender anmachen und das Licht steuern sind jetzt nicht gerade sooo tolle Features. Am Smartphone macht das noch eher Sinn aber auch das haben ja alle schon integriert und fast niemand spricht mit seinem Handy. Ganz einfach weil es die Leute neben mir nichts angeht was ich mir ansehe oder wem ich schreibe. Ich denke daran scheitern einfach alle Assistenten. Egal welche. Fand Cortana genauso gut wie Google now. Beide haben mir schon prima Apotheken im Umkreis gesucht und das Navi angemacht. Aber für mehr hab ich es auch noch nie genutzt. Und mobil ist die schlechte Netzabdeckung auch noch ein ko Kriterium. Das ganze Hightechgedöns nützt nur was wenn man nicht oft in ein Funkloch rauscht. Und da gibt es mehr als genug in Deutschland. Da bleibt dann das tolle autonome Auto wohl stehen und auch kein Assistent reagiert mehr. Und an so einem Punkt denke ich endet die ganze Träumerei.
    Jaja, ich bin mir solcher berühmten Fehlprognosen wie "Es gibt einen Weltmarkt für vielleicht 5 Computer" oder "mehr als 640kb Speicher braucht kein Mensch" durchaus bewusst, sehe mich nichtsdestotrotz als fortschrittsoffenen Menschen - aber Sprachsteuerung für sensible Funktionen halte ich für absolut unmöglich!
    Ich bin zwar kein Sprachwissenschaftler, aber ich wage trotzdem die Aussage, dass die menschliche Sprache in all ihren Ausprägungen und Facetten einfach nicht erfassbar ist, auch, wenn dieses Argument eigentlich paradox wirken mag. Natürlich ist gerade die Komplexität einer Sache das entscheidende Merkmal für Funktion einer Identifizierungsmassnahme, das Problem bei der Sprache aber ist, dass die Schwankungsbreite bei jedem einzelnen Menschen enorm ist.
    Ein Mensch klingt morgens anders als abends. Er klingt anders, wenn er getresst ist, als wenn er entspannt ist - und er klingt anders, wenn er erkältet ist, als wenn er gesund ist. Diese Reihe liesse sich noch beinahe beliebig lang weiterführen und dieser Umstand macht es aus meiner Sicht unmöglich, Spracherkennung ausreichend zu personalisieren, denn wenn wenn einmal alle (oder auch nur die zig notwendigsten) Ausprägungen der individuellen Sprachmodulation erfasst sind, gibt es wohl immens viele Überschneidungen - und dabei meine ich noch nicht einmal die "Gefahr" der Stimmimitatoren. Heiser klingen einfach verdammt viele Menschen gleich...
    Man mag jetzt als Argument anführen, dass eine Spracherkennung ja vielleicht kleinste Unterschiede erkennen könnte - aber das wäre ja mit den oben angeführten Argumenten ad absurdum geführt. Entweder decke ich die grosse Schwankungsbreite EINES Menschen ab oder ich isoliere seine Stimme von jener anderer Menschen - aber dann wird ersterer nicht mehr erkannt, sobald er sich einmal minimal ausserhalb seiner Sprachnorm bewegt. Die Kombination mit lokalen Dialekten (Argument "natürliche Sprache") macht das noch schlimmer. NOCH mehr Kombinationen, die sich von NOCH viel mehr Kombinationan unterscheiden muss und trotzdem all die umstandsbedingten Abweichungen tolerieren muss - unmöglich. An dieser Stelle erwähne ich nochmal die vielen recht begabten Stimmimitatoren. Nochmal: unmöglich.
    Den Punkt, dass es kaum möglich ist, Spracherkennung zu verwenden, sobald mehr als 2 sprechende Personen in der Nähe sind, möchte ich hiermit nur kurz anschneiden...
    Fazit meines wieder einmal viel zu langen Textes: Ich glaube, dass sich Spracherkennung nie in sensiblen Bereichen einsetzen, geschweige denn durchsetzen lässt. Für Spielereien wie Licht einschalten oder Fernsehsender ändern, ja... vielleicht. Für mehr nicht.
    Wenn z.Z. über Assistenten und KI geredet wird, liegt mir das Augenmerk zu sehr auf der Spracherkennung, d.h. auf der Befehlserteilung über 's gesprochene Wort. Ich glaube in ein paar Jahren werden wir uns keine Gedanken mehr darüber machen, ob Spracherkennung funktioniert, sie wird eine normale Eingabemethode sein. Viel interessanter ist doch, wie gut sind die zukünftigen Assistenten in der Lage, ohne viel zu reden, nutzbringenden Mehrwert in unseren Alltag zu bringen, und dabei sich weitestgehend in meinem privaten Kommunikationskosmos einzukapseln. D.h. wenn mein Assistent mir nach dreistündiger Winterwanderung schon mal mein Badewasser vorbereitet, geht es in Australien niemanden etwas an, dass es genau 39,3°C hat und mit Tannennadelschaumbad versetzt ist. Und es bedarf auch keiner Nachfrage, da ich das immer so mache, gefragt sollte höchstens werden, ob 's Milchkaffee oder heiße Schokolade geben soll, da es ja schon 18:30 ist. Falls der Assistent die fasche Musik aufgelegt hat ist ein kurzes Stöhnen wahrscheinlich schon ausreichend, um den Fauxpas zu korrigieren.
    Ich hoffe ich habe mich verständlich ausgedrückt, es geht nicht um eine Form der Befehlsübermittlung, sondern um gute Verknüpfung aller in meinem Kommunikationsuniversum vorhandenen Geräte, und die Fähigkeit sich meinen Gewohnheiten anzupassen. Das alles ist für mich übrigens auch Grund genug nicht zu Glauben, dass Windows mobile tot ist, es wird gebraucht, nur wahrscheinlich nicht mehr zum Telefonieren, dazu wird irgendwann sowieso ein Ohrring reichen.
    Das klingt ja alles gut und schoen, aber wir koennen froh sein, dass die Spracherkennung und semantische Interpretation ueberhaupt schon so gut ist. Wir haben in den letzten Jahren da ja riesige Schritte gemacht, aber das sind mal richtig harte Probleme die man nicht mit "ich will aber" loesen kann. Erkennung der Stimme zur Authorisierung ist meiner Ansicht nach nicht kurzfristig drin, aber warum nicht im Zusammenspiel mit dem Smartphone?
    Fuer mich ist das im Moment unterhaltsamer Spielkram und manchmal auch praktisch wenn man mit vollen Haenden beim rausgehen "Alexa Shutdown" ruft und die macht die Musik (und das Licht) aus.
    Dass ich die aber fragen kann (wieso sind die eigentlich alle weiblich?) "Wie hiess noch mal der Film, den ich damals mit meiner Freundin gesehen habe wo der Typ im See mit ihr die Hebefigur macht"? wird's wohl noch dauern.
    Ich bin zwar ein Windows FAN. Aber Siri ist für mich der beste Sprachassistent. Funktioniert einfach und könnte auch auf männlich umgestellt werden.
    JackRussel
    Zum Erfolg gehören m.M.n. noch ein paar Dinge.
    1.) Es muss normal werden, in den leeren Raum zu sprechen oder mit einem kleinen schwarzen Kasten zu reden.
    2.) Die Erkennung muss besser werden und der Mehrwert darf sich nicht nur auf ein paar Funktionen beschränken.
    3.) Noch wichtiger ist meinen Augen aber die Sicherheit. Ob das in einigen Jahren die Nutzer auch so sehen, weiß ich nicht.
    Wer heute mit offenem FB surft oder wer heute eingeloggt alle Google Dienste nutzt, der ist ja schon relativ gläsern. Wenn aber in ein paar Jahren das gesamt Privatleben analysiert oder mitgeschnitten wird, dann wird das nichts gegen heute sein.
    Das Problem wird auch nicht der kleine Verkäufer sein, der für die großen Firmen völlig unrelevant ist. Informationen über Entscheidungsträger sind schon wertvoller.
    Heute ist ja schon viel konzentriert, bei der Sprachsuche läuft aber alles über die Server von nur 3 Firmen.
    VG

    Punkt 3) Ist aus meiner Sicht entscheidend. Gebe ich Datenschutz & Vertraulichkeit für Komfort auf? Solange Assistenzsysteme nicht Datenschutz & Vertraulichkeit garantieren können, im rechtlichen Sinne, sind sie nur Spielerei und finden keinen Einzug ins tägliche Leben, vorausgesetzt, die Nutzer sind sich der Gefahren bewusst.
    Vorschläge wie dass Suchmaschienen besser sind oder so sind meiner Meinung nach hier fehl am Platz. Ein Beispiel wie eine/r Sprachassistent/in funktionieren könnte kann man sich in der Fernsehserie Eureka ansehen. Ich finde die zeigen ganz gut wie es funktionieren sollte. Ich kenne viele Leute die sich aus Bequemlichkeit, Unkenntniss o.ä. nicht mit neueren Techniken auseinander setzen, schade eigentlich. Beispiel: Ein entfernter Bekannter hat sich neulich Amazon Echo gekauft und nach dem ersten Einschlalten das Gerät verflucht weil es nicht sein Wohzimmerlicht und den Fernseher angeschaltet hat. Ich stimme Martin zu bei den Kriterien und würde mir wünschen dass auch die Werbung für diese Assistenten besser (Genauer beschrieben wie was funktioniert) wird. Und..... Datenschutz, Sicherheit usw. sollten aus Gründen der Bequemlichkeit nicht einfach über Bord gekippt werden.
Nach oben