Künstliche Interaktionen mit Embodied Conversational Agents. Eine Betrachtung aus Sicht der interpretativen Soziologie

Schwerpunkt: Parasoziale Beziehungen mit pseudointelligenten Softwareagenten und Robotern

Künstliche Interaktionen mit Embodied Conversational Agents

Eine Betrachtung aus Sicht der interpretativen Soziologie

von Antonia Krummheuer, Alpen-Adria-Universität

Embodied Conversational Agents sollen ihren Entwicklern zufolge ein menschenähnliches Interaktionsverhalten aufweisen. Dies fordert die Soziologie heraus und es stellt sich die Frage nach der Art des Austauschs, der zwischen Agent und Nutzer stattfindet. Der Artikel geht vor dem Hintergrund der interpretativen Soziologie und einer empirischen Studie zum „Agenten Max“ den situativen und kommunikativen Besonderheiten des Austauschs nach. Die Analyse von Videoaufnahmen verdeutlicht den hybriden Charakter des Austauschs, der zeitweise als künstliche Interaktion beschrieben werden kann. Von menschenähnlicher Interaktion zu sprechen, erscheint kontraproduktiv, da dies Erwartungen weckt, die in der Praxis leicht enttäuscht werden können. Noch hängt der Erfolg des Austauschs häufig gerade davon ab, dass es den Nutzern gelingt, die Programmstrukturen des Agenten zu erkennen und sich diesen anzupassen.

1 Einleitung

Der Computer ist aus unserem Alltag kaum noch wegzudenken. Die Bestellung von Büchern oder Flugtickets und auch Bankgeschäfte werden zunehmend online erledigt und der vormals menschliche Gesprächspartner ist durch ein Dialogsystem ersetzt worden. Aktuelle Forschungsprojekte der Informatik versuchen diese Entwicklung weiterzutreiben und die computerbasierten Technologien stärker in zahlreiche Alltagskontexte zu integrieren. Die typische Nutzung des Computers mittels Maus, Tastatur und Bildschirm soll durch „natürlichere“ Bedienungsformen ersetzt werden. Eine Forschungsrichtung zielt dabei auf die Entwicklung menschenähnlicher Ansprechpartner, sog. „Embodied Conversational Agents” (ECAs) (Cassell et al. 2000). ECAs werden als interaktive und intelligente Softwareprogramme beschrieben, die dem Nutzer als „livelike characters“ gegenübertreten (Lester 2001, S. 13). Die Bezeichnung „conversational“ betont, dass diese Agenten in der Lage sein sollen, eine menschenähnliche Face-to-Face-Interaktion zu führen, „embodied“ hebt hervor, dass die Agenten im Gegensatz zu herkömmlichen Dialogsystemen einen virtuellen Körper haben. Entsprechend werden dem Agenten auch Gestik und Mimik als kommunikative Ausdrucksmittel modelliert. Die verbalen und nonverbalen Ausdrucksmöglichkeiten sollen die Kommunikation mit computerbasierten Technologien vereinfachen, da sich der Mensch nicht mehr der „Sprache“ des Computers anpassen müsse. Gleichzeitig wird die Benutzerschnittstelle personifiziert und der Agent zum Gesprächspartner. Einsatzfeld und Funktion der ECAs sind noch offen.

Während die Informatiker den kommunikativen Austausch zwischen Menschen und Agenten als „Interaktion“ bezeichnen, beschreibt die Soziologie nur zwischenmenschliche Face-to-Face-Kommunikationen als solche. Goffman definiert Interaktion als die wechselseitige Kommunikation von zwei körperlich anwesenden Personen, die wahrnehmen, dass sie wahrgenommen werden, und einen gemeinsamen Aufmerksamkeitsfokus teilen (Goffmann 1983, S. 2). Die dazu notwendigen Fähigkeiten, wie z. B. die der bewussten und wechselseitigen Wahrnehmung des anderen und der Ausbildung von Erwartungen, werden allein dem Menschen zugeschrieben. Die Interaktivität virtueller Agenten fordert daher die Soziologie heraus. Unter welchen Umständen kann die Soziologie von einer „Interaktion mit virtuellen Agenten“ sprechen?

Vor dem Hintergrund des interpretativen Paradigmas der Soziologie wird in diesem Beitrag den Besonderheiten dieser „Interaktionen“ nachgegangen und nach ihren sozialen und kommunikativen Konsequenzen gefragt. Da der Begriff der Interaktion auf dem Prüfstand steht, wird zunächst der des „hybriden Austauschs“ (Krummheuer 2010, S. 105) verwendet, der noch offen lässt, ob der Austausch als Kommunikation oder Interaktion qualifiziert werden kann. Im Folgenden wird zunächst die Diskussion um die Handlungsträgerschaft von Technik aus Sicht der interpretativen Soziologie skizziert und anschließend anhand eines empirischen Beispiels der hybride Charakter von Austauschprozessen zwischen Menschen und virtuellen Agenten exemplifiziert. Abschließend wird der Begriff des hybriden Austauschs diskutiert.

2 Technische Handlungsträgerschaft – eine soziologische Debatte

Die Frage nach der Handlungsträgerschaft von Technik hat eine kontroverse Debatte in der Soziologie und Philosophie ausgelöst. Traditionell wird Technik und Soziales ontologisch differenziert. Während der Mensch handeln kann, ist Technik Objekt menschlichen Handelns. In der aktuellen Diskussion um die Handlungsträgerschaft von Technik wird diese Differenzierung kritisiert (Bijker 1992; Collins, Kusch 1998; Fohler 2003; Latour 2005; Pickering 1995; Rammert, Schulz-Schaeffer 2002a). Während Latour und die Akteur-Netzwerk-Theorie Handlungsträgerschaft an die Fähigkeit binden, einen bestehenden Zustand zu verändern, und dabei menschlichen und nicht-menschlichen Entitäten Handlungsträgerschaft zusprichen (Latour 2005, S. 52f.), differenzieren andere Ansätze verschiedene Arten von Handlungsträgerschaft (Collins, Kusch 1998; Rammert, Schulz-Schaeffer 2002b).

Der in diesem Aufsatz vertretene Ansatz basiert auf dem interpretativen Paradigma der Soziologie, das einen Perspektivwechsel hinsichtlich der Handlungsträgerschaft von Technik vollzieht: Statt den Status von menschlichen und nicht-menschlichen Akteuren definitorisch festzulegen, werden die Zuschreibungsprozesse der Teilnehmer selbst untersucht. Nicht der Wissenschaftler definiert somit die Beziehung zwischen Mensch und Technik, sondern die Alltagsteilnehmer, die durch ihre Handlungen sich und anderen Handlungsträgerschaft zu- oder absprechen.

3 Das interpretative Paradigma der Soziologie

Das interpretative Paradigma der Soziologie geht davon aus, dass soziale Ordnung ein Produkt menschlichen Handelns ist. Die Produktion sozialer Ordnung ist beobachtbar und zwar nicht nur für die Alltagsteilnehmer, sondern auch für den Wissenschaftler (Schütz 1971, S. 6f.). Ethnomethodologische Studien zeigen, dass Alltagsteilnehmer in der Produktion ihrer Handlungen und der Interpretation der Handlungen anderer methodisch vorgehen. Handelnde orientieren sich daran, dass andere ihre Handlungen beobachten und deuten. Durch die Art und Weise, wie Handelnde ihre Handlungen gestalten, geben sie ihrem Gegenüber Interpretationshinweise. Die Handlung wird „accountable“ (Garfinkel 1967, S. vii). Eine Besonderheit menschlicher Handlungen ist ihre Indexikalität, d. h. dass ihre Bedeutung je nach Situation variiert, sowie ihre Reflexivität, die sich darauf bezieht, dass Kontext und Handlung sich wechselseitig Sinn zuschreiben. Für ein gemeinsames Verstehen ist zudem eine „specific vagueness of references“ (ders. 1972, S. 6) notwendig, die retrospektive Sinnzuschreibungen ermöglicht. Gerade eine detaillierte Explikation dessen, was man gerade warum tut, würde den Handlungsablauf stilllegen. Sinn und Bedeutung einer Handlung sind somit nicht vorgeschrieben, sondern immer Produkt eines situativen und wechselseitigen Interpretationsprozesses, der sich in Interaktionen beobachten lässt.

Dem detaillierten Ablauf situativer und interaktiver Sinnkonstruktion gehen die Studien der Konversationsanalyse nach. Auf der Grundlage von Video- oder Tonaufnahmen ungestellter, d. h. nicht fiktiver Gespräche werden Transkripte erstellt, welche das Geschehen sozusagen „einfrieren“. Der Gesprächsablauf kann so im Detail analysiert werden. Die Interaktionen werden auf die Organisation und Verteilung von „Redezügen“ (turn bzw. turn-taking) untersucht. Spezielles Augenmerk liegt auf der sequenziellen Verknüpfung der einzelnen Redezüge. So weisen einzelne Redezüge meist eine „three-part structure“ (Sacks et al. 1974, S. 722) auf, d. h. sie erstellen, erstens, einen Bezug zum vorherigen Beitrag, bringen, zweitens, einen eigenen Beitrag und stellen, drittens, eine Erwartungsstruktur für den folgenden Beitrag auf. Zudem sind Redezüge untereinander sequentiell verknüpft. Dieser sequentiellen Verknüpfung wohnt eine Verstehenssicherung inne, die als „next-turn proof procedure“ bezeichnet wird (Hutchby, Wooffitt 1998, S. 15; Sacks et al. 1974, S. 728f.). So enthält jeder nächste Redebeitrag eine Interpretation der vorherigen Äußerung. Die Gesprächsteilnehmer können somit in der jeweiligen Anschlusshandlung des Gegenübers prüfen, wie ihre vorherige Äußerung verstanden wurde, und sie im darauffolgenden (dritten) Redezug annehmen oder korrigieren.

4 Studien zur Mensch-Maschine-„Interaktion“

Ethnomethodologische und konversationsanalytische Arbeiten haben sich für die Analyse von Mensch-Maschine-„Interaktionen“ bewährt, da sie durch ihre situationsbezogene und genaue Analyse die Bruchstellen des Austauschs sozusagen „punktgenau“ fassen und erklären können. Als Klassiker gilt Lucy Suchmans Studie „Plans and Situated Actions“ zum Umgang mit einem interaktiven Fotokopierer (Suchmann 1987 und dies. 2007). Sie unterscheidet verschiedene Situationen, in denen sich Nutzer und Maschine befinden, sowie differente Interaktionsannahmen, auf denen Mensch und Maschine ihre Aktivitäten aufbauen. Suchman veranschaulicht, dass die Aktivitäten des einen dem anderen nur bedingt zugänglich sind. So kann der Kopierer z. B. Sprechhandlungen nicht wahrnehmen, sondern nur die Tätigkeiten, die an ihm ausgeführt werden. Dem Nutzer hingegen sind die programminternen Auswahlschritte der Maschine nicht ersichtlich. Entsprechend werden die „situation of the user“ und die „situation of the machine“ unterschieden, die im interaktiven Austausch kombiniert werden müssen (dies., S. 119).

Mensch und Maschine sind jedoch nicht nur in unterschiedliche Situationen eingebunden. Sie verwenden auch unterschiedliche Interaktionsannahmen bei der Interpretation der Handlungen des anderen. Den oben beschriebenen interpretativen und situativen Situationsdeutungen und Zuschreibungsprozessen stehen auf Seiten der Maschine planbasierte „Sinnzuschreibungen“ gegenüber. Das Dialogsystem der Maschine beruht traditioneller Weise auf dem „planning model“, das aus den Kognitionswissenschaften übernommen wurde (dies., S. 28). Handlungen werden als ausgeführte Pläne verstanden, mittels derer ein Handelnder ein vorgefasstes Ziel verfolgt. Ausgehend von der aktuellen Situation muss der Handelnde Bedingungen, Handlungen und Konsequenzen abwägen, um sein Ziel zu erreichen. Das Gegenüber schließt aufgrund von Merkmalen der Handlung auf den dahinterliegenden Plan und somit auf den Sinn der Handlung. Der Sinn einer Handlung geht dieser somit immer voraus und ist nicht Produkt eines situativen Aushandlungsprozesses.

Innerhalb der Informatik hat sich das planning model dahingehend bewährt, Ziele und Handlungspläne sowie antizipierte Bedingungen in Programmstrukturen festzulegen, um so das Verhalten von virtuellen Agenten steuern zu können. Suchmans Studie verdeutlicht jedoch, dass die von den Entwicklern antizipierten Handlungsabläufe nicht immer mit den situativen Interpretationen der Nutzer zusammenpassen und zu unlösbaren Problemen führen können.

Wegweisend für die Frage nach der Interaktivität virtueller Agenten ist die ebenfalls empirische Studie von Holger Braun-Thürmann, die vor einem interpretativen Hintergrund den Begriff der „künstlichen Interaktion“ entwickelt (Braun-Thürmann 2002, S. 15). Es handelt sich dabei um „jene Interaktionen, an denen technische Dinge in einer Weise teilnehmen, dass sie von menschlichen BeobachterInnen als Subjekte einer sozialen Interaktion wahrgenommen werden können“ (ebd.). Konstitutiv für eine künstliche Interaktion sind ein virtueller Raum, ein virtueller Agent sowie die „Mechanismen der Interaktivität“ (ders., S. 117). Am Beispiel des Agenten Hamilton im Architekturprojekt VIENA (VIrtual ENvironments and Agents) zeigt Braun-Thürmann, welche interaktiven Möglichkeiten dem Agenten und seiner virtuellen Umwelt implementiert wurden. Die Interaktivität des Agenten ist dabei technisch bestimmt, gleichzeitig weist sie aber auch eine Orientierung an sozialen Mustern zwischenmenschlicher Interaktionen auf. Im begrenzten Maß ermöglichen diese Mechanismen die „Erfahrung von einer gemeinsamen Welt“, durch die der Eindruck entsteht, dass Agent und Nutzer in einem „intersubjektiven Verhältnis zueinander stünden“ (ders., S. 145). Den virtuellen Agenten bezeichnet Braun-Thürmann als „Schwellen-Objekt zwischen zwei Welten“, das „weder Ding noch Mensch“ ist (ders., S. 133). Als Ansprechpartner motiviere der Agent dazu, in eine Art Dialog mit der Technik zu treten.

5 Hybrider Austausch

Die situative Entfaltung solcher künstlichen Interaktionen untersucht Krummheuer (2010) aus Sicht der interpretativen Soziologie in einer Studie zur „Interaktion mit virtuellen Agenten?“. Da der Begriff der Interaktion systematisch geprüft werden soll, wird zunächst unspezifischer angesetzt und von hybriden Austauschprozessen gesprochen. Darunter ist metaphorisch gesprochen „die wechselseitige technisch vermittelte Koordination von Aktivitäten zwischen zwei Welten und zwei Wesen“ (dies., S. 105) zu verstehen, die sich selbst, ihre Gegenüber und ihre jeweiligen Aktivitäten als andersartig behandeln. Die Hybridität ist somit Produkt des Austauschs selbst.

Krummheuer zeigt, dass der hybride Austausch nur zeitweise als künstliche Interaktion beschrieben werden kann. Dies gilt v. a. für Phasen, in denen planbasierte Handlungsstrukturen des Agenten mit den situativen Erwartungsstrukturen der Nutzer übereinstimmen und der Eindruck eines gemeinsam ausgehandelten Verstehens entsteht. Dieser Eindruck kann aber jederzeit durch Phasen gebrochen werden, in denen Nutzer und Agent keine gemeinsame „Interaktionsbasis“ finden. Nicht immer sind dem Nutzer die programmbasierten Vorgaben ersichtlich. Mitunter fordern Nutzer diese programmbasierten Vorlagen auch absichtlich heraus. Der Erfolg des hybriden Austauschs basiert somit v. a. auf der Anpassungsleistung des Nutzers. Dies wird im Folgenden veranschaulicht.

5.1 Der Agent Max, Datenmaterial und Feld

Die folgenden Beispiele zeigen Austauschprozesse mit dem Embodied Conversational Agent Max.[1] Max wurde in der Arbeitsgruppe „Wissensbasierte Systeme“ an der Technischen Fakultät der Universität Bielefeld entwickelt (Kopp et al. 2005). Es gibt verschiedene Versionen und Szenarien, in denen Max eingesetzt wird und seine Entwicklung ist noch nicht abgeschlossen.[2]

Der Austausch mit Max wurden 2004 im Rahmen des Events „Campus:City“ erhoben: An einem verkaufsoffenen Samstag wurden verschiedene wissenschaftliche Projekte der Universität Bielefeld in der Bielefelder Innenstadt präsentiert. Passanten wurden so mit wissenschaftlichen Projekten in ihrem Alltag konfrontiert und hatten z. B. die Gelegenheit, mit dem virtuellen Agenten Max zu kommunizieren. Der virtuelle Agent Max war in der Lage, Auskunft über sich selbst, seine Arbeitsgruppe und virtuelle Agenten im Allgemeinen zu geben, und über den Event zu informieren. Des Weiteren konnte Max ein Ratespiel und ein Gespräch z. B. über Hobbies und das Wetter anbieten.

Das Geschehen wurde mit zwei Kameras aufgenommen, die den Agenten und den Nutzer filmten. Das Datenmaterial umfasst zweimal sieben Stunden. Die Analyse fokussiert sich auf 29 Austauschprozesse von erwachsenen Nutzern mit Max. Die Daten wurden nach den Prinzipien der ethnomethodologischen Konversationsanalyse ausgewertet.

5.2 Zweiweltlichkeit des Austauschs

Der hybride Charakter des Austauschs zeigt sich schon im interaktiven Arrangement. Max tritt dem Nutzer auf einem großen Bildschirm gegenüber, der den Agenten als menschenähnliches, männliches und „lebensgroßes“ Gegenüber zeigt. Trotz der menschenähnlichen Gestalt ist der Agent eindeutig als nicht-menschliche, künstliche Figur zu erkennen (s. Abb. 1). Der künstliche Charakter zeigt sich auch in Max’ teils ruckartigen Bewegungen sowie der synthetischen Stimme. Der Agent vereint somit menschliche und künstliche Züge. Er kann als „Schwellen-Objekt“ im Sinne von Braun-Thürmann bezeichnet werden.

Abb. 1: Videoaufnahmen vom hybriden Austausch. Rosmarie hört Max zu.

Abb. 1: Videoaufnahmen vom hybriden Austausch. Rosmarie hört Max zu.

Hinter dem Agenten ist eine Fotografie der Universität Bielefeld zu sehen. Der Agent befindet sich somit visuell in einem anderen Raum als der Nutzer. Um mit dem Agenten zu kommunizieren, kann der Nutzer dem System Textnachrichten über eine bereitgestellte Tastatur schicken. Das Dialogsystem des Agenten analysiert diese Nachrichten und wählt abhängig von seinen Programmstrukturen eine Anschlusshandlung aus, die von Max sprachlich geäußert wird und durch mimische, gestische und körperliche Bewegungen begleitet wird. Während der Nutzer dem Agenten vor einem Publikum gegenüber tritt, – das häufig auch in den Austausch mit Max integriert wird – tritt Max dem Nutzer allein gegenüber.[3] Der Agent kann das Publikum nicht „wahrnehmen“. Das Dialogsystem fokussiert allein auf die Textnachrichten des Nutzers. Nutzer und Agent nehmen somit unterschiedliche Situationen wahr, es treffen sozusagen zwei Welten aufeinander.

5.3 Die Möglichkeit künstlicher Interaktion

Das folgende Beispiel veranschaulicht das Zusammenspiel planbasierter Kommunikationsvorgaben auf Seiten des Rechners mit den situativen Erwartungsstrukturen des Nutzers. Das Transkript zeigt, wie der Agent Max und die Nutzerin Rosmarie scheinbar wechselseitig einen gemeinsamen Interaktionsfokus aushandeln.[4] Kurz zuvor haben Max und Rosmarie den Austausch begonnen, sich begrüßt und vorgestellt. Nun „schlägt“ Max mögliche Interaktionsthemen vor.

Beispiel 1: Agent Max und die Nutzerin Rosmarie
01 Max:⋅⋅Ich kann dir verschiedenes erklären
02 ⋅⋅⋅⋅⋅⋅⋅⋅oder einfach ein bisschen mit dir plaudern.
03 Rosm:⋅((tippt))
04 Text:⋅erklär mir was
05 Max:⋅⋅ich kann dir was über die folgenden drei Themen
06 ⋅⋅⋅⋅⋅⋅⋅⋅erklären: künstliche Intelligenz, über mich und
07 ⋅⋅⋅⋅⋅⋅⋅⋅die Hochschulstadt Bielefeld. (Abb. 1)
08 Rosm:⋅((tippt))
09 Text:⋅ki
10 Max:⋅⋅Okay, dann geht’s los. Du kannst mich jederzeit
11 ⋅⋅⋅⋅⋅⋅⋅⋅unterbrechen, um Fragen zu stellen oder wenn ich
12 ⋅⋅⋅⋅⋅⋅⋅⋅etwas wiederholen soll.
13 Rosm:⋅((legt ihre Hände auf den Tisch))
14 Max:⋅⋅Ich bin eine künstliche Intelligenz....

Im obigen Beispiel äußert Max, dass er etwas erklären oder mit Rosmarie plaudern könne (Z. 1–2). Rosmarie deutet diese Äußerung als ein Angebot, denn sie wählt eine der Möglichkeiten aus: Sie möchte gern etwas erklärt bekommen (Z. 3–4). Max geht auf die Auswahl der Nutzerin ein und bietet nun verschiedene Themen an, über die er sprechen könnte (Z. 5–7). Auch diese Äußerung wird von der Nutzerin als Angebot verstanden, aus dem sie das Thema Künstliche Intelligenz (KI) auswählt (Z. 8–9). Max erklärt, dass es nun los geht, und ergänzt, dass Rosmarie ihn jederzeit unterbrechen dürfe, um Fragen zu stellen oder wenn er etwas wiederholen soll. Dann beginnt er eine Art Vortrag (Z. 10–14).

Das Beispiel zeigt, dass ein interaktionsähnlicher Austausch zwischen Nutzerin und Agent möglich ist. Ähnlich wie in zwischenmenschlichen Interaktionen werden über drei Redezüge hinweg Themen vorgeschlagen, ausgewählt und bestätigt. Nutzer und Agent zeigen damit eine Orientierung an sozialen Interaktionsroutinen und es entsteht der Eindruck einer wechselseitigen Themenauswahl und eines gemeinsamen Verstehens. Der Austausch kann somit als künstliche Interaktion im Sinne von Braun-Thürmann beschrieben werden.

Gleichzeitig verdeutlicht das Beispiel den technischen Charakter des Austauschs. So verweisen Max’ Auswahloptionen auf die Handlungspläne, die dem Agenten zugrunde liegen. In Zeile 1 und den Zeilen 5–7 listet Max jeweils Themenoptionen auf, aus denen die Nutzerin auswählen kann. Der technische Charakter des Austauschs zeigt sich auch darin, dass Max Rosmarie erklärt, wie sie an seinen nun folgenden Ausführungen teilnehmen kann (Z. 10–12). Diese Äußerung erscheint wie eine Bedienungsanleitung, die darauf verweist, dass Max ein technisches Gegenüber ist, das nach bestimmten Mechanismen funktioniert und entsprechend zu benutzen ist. Zudem bezeichnet sich Max selbst als künstliche Intelligenz (Z. 13). Der Agent stellt sich somit als ein technisches, programmgesteuertes Gegenüber dar, das an sozialen Interaktionsroutinen orientiert ist.

Die Konstruktion des Agenten als technisches Gegenüber zeigt sich auch in den relativ kurzen Textnachrichten der Nutzerin. Dabei wiederholt sie jeweils Teile von Max’ Äußerung. Die Textnachrichten wirken fast wie Steuerbefehle, mittels derer sich die Nutzer an den Vorgaben von Max orientieren. Sie behandelt ihn damit als programmbasiertes, technisches Gegenüber. Insgesamt zeigt sich der hybride Charakter des Austauschs, insofern Agent und Nutzer dem Austausch sowie dem Agenten sowohl technische als auch soziale Eigenschaften attribuieren.

5.4 Grenzen künstlicher Interaktion

Solange sich die Nutzer an diesen Programmstrukturen „entlang hangeln“, ist ein relativ problemloser Austausch möglich. Probleme entstehen in dem Moment, in dem die Programmstrukturen des Agenten verlassen werden, z. B. weil dem Nutzer die zugrundeliegenden Programmstrukturen nicht ersichtlich sind. In diesen Fällen kann der Anschein eines gemeinsamen Verstehens häufig nicht mehr aufrechterhalten werden. Der Austausch wird brüchig und teilweise sogar abgebrochen.

Beispiel 2: Agent Max und die Nutzerin Tanja
01 Tanja:⋅((tippt))
02 Text:⋅⋅⋅Hast Du studiert?
03 Max:⋅⋅⋅⋅Das darf ich leider nicht verraten.
04 Tanja:⋅((nach einer Pause von ca. 1 Sek tippt Tanja))
05 Text:⋅⋅⋅Hast Du viele Geheimnisse?
06 Max:⋅⋅⋅⋅Das ist eine gute Frage.
07 Tanja:⋅((zuckt mit den Schultern, äußert ein „hm“
08 ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅dreht sich zu ihrem Freund um, dann wieder zu
09 ⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅Max öffnet und schließt mehrmals die Hand, tippt))
10 Text:⋅⋅⋅Dann antworte doch einfach!

In Beispiel 2 fragt Tanja, ob Max studiert habe (Z. 2). Max erwidert, dass er dies nicht verraten dürfe (Z. 3). Es entsteht eine kurze Pause, in der Tanja vermutlich überlegt, wie sie den Austausch weiter gestalten soll (Z. 4). Schließlich fragt sie, ob Max viele Geheimnisse habe (Z. 5). Max erklärt, dass dies eine gute Frage sei (Z. 6). Tanja zeigt sich ratlos. Sie zuckt mit den Schultern, blickt sich scheinbar hilfesuchend zu ihrem Freund um, der hinter ihr im Publikum steht, und tippt, nach einigen zögernden Bewegungen mit der Hand, die Aufforderung, dass Max doch einfach antworten solle (Z. 7–10).

Das Beispiel zeigt, dass die zugrundeliegenden Programmstrukturen des Agenten nicht immer sinnvoll von den Nutzern in den situativen Verlauf des Austauschs eingebettet werden können. Dies stellt die Nutzer vor das Problem, wie sie den Austausch weitergestalten können. Auf Tanjas Fragen reagiert Max jeweils mit Äußerungen, die zwar einen minimalen Anschluss an die vorherige Textnachricht aufweisen, das Thema aber gewissermaßen beenden. Max’ Äußerungen stellen jeweils mit dem Wort „das“ einen grammatikalischen Bezug zur vorherigen Nachricht der Nutzerin her. Sie geben auch einen eigenen Beitrag, insofern Max erklärt, dass er etwas nicht verraten dürfe bzw. Tanja eine gute Frage gestellt habe (Z. 3 und 6). Die Äußerungen von Max stellen jedoch keinen Bezugsrahmen für einen folgenden Redebeitrag auf. Ihnen fehlt somit der dritte Teil der oben beschriebenen Dreiteilung eines Redezugs. Diese „schiefen Anschlüsse“ haben somit einen terminierenden Charakter und wirken Tanjas Versuchen, ein Interaktionsthema zu etablieren, entgegen (Krummheuer 2010, S. 218f.). Der Agent überlässt der Nutzerin die Verantwortung für das Interaktionsthema, ohne dabei zu kooperieren. Die Nutzerin zeigt sich entsprechend irritiert und fordert schließlich seine Kooperation ein.

6 Diskussion

Die beiden Beispiele verdeutlichen, dass die „interaktiven“ Routinen im Austausch mit virtuellen Agenten noch im gesellschaftlichen Verhandlungsprozess sind. Ähnlich wie bei anderen neuen Technologien (z. B. SMS, Email) müssen sich noch kommunikative Routinen ausbilden. Diese werden durch die Vorstellungen der Entwickler, die technischen Vorgaben sowie die tatsächlichen Nutzungsformen in der Anwendung geprägt. Der Begriff des hybriden Austauschs wird dabei als Arbeitsbegriff verstanden, der den „unentschiedenen“ Status des Austauschs provisorisch überbrückt. Während der Begriff der künstlichen Interaktion den Austausch schon als Quasi-Interaktion beschreibt, zeigt die obige Analyse, dass diese Unterstellung nur zeitweise zutrifft. Wenn sich in Zukunft stabilere Formen des Austauschs ausbilden, in denen über längere Zeiträume eine Art Zuschreibung gemeinsamen Verstehens beobachtet werden kann, wird der Begriff der künstlichen Interaktion treffender und auch sprachlich eingängiger sein. Eventuell wird bis dahin aber auch das Feld selbst eigene Begriffe gefunden haben. Innerhalb der Informatik wird der Austausch derzeit als Interaktion bezeichnet. Diese Redeweise birgt das Problem, dass der Agent vermenschlicht wird. Damit werden beim Nutzer Erwartungen geweckt, die der Agent im Austausch häufig nicht erfüllen kann, was Enttäuschungen nach sich ziehen kann. Es erscheint daher sinnvoll, sprachliche Mittel zu finden, die den technischen Charakter des Austauschs weiterhin verdeutlichen, ohne dabei die Interaktivität des Agenten zu über- oder zu untertreiben. Hinweise darauf, wie die Technik funktioniert (z. B. durch Erläuterungen des Agenten), können den Austausch erleichtern, da die Programmstrukturen des Agenten dem Nutzer verdeutlicht werden und er sich so besser an sein Gegenüber anpassen kann. Solche Erläuterungen bergen jedoch das Problem, dass sie im Austausch mit einem geübten Nutzer zu Redundanzen führen. In diesem Fall sollte der Agent in der Lage sein, sich dem Kenntnisstand des Nutzers anzupassen.

Anmerkungen

[1] Siehe auch Krummheuer 2010.

[2] Über aktuelle Entwicklungen informiert die Website des Projekts unter: http://www.techfak.uni-bielefeld.de/~skopp/max.html.

[3] Die Frau im Hintergrund ist fotografiert und spielt im Austausch mit dem Nutzer keine Rolle.

[4] Die Transkripte wurden nach konversationsanalytischen Maximen erstellt. Um eine bessere Lesbarkeit zu gewähren, wurden sie für diese Veröffentlichung jedoch stark vereinfacht.

Literatur

Bijker, W.E. (Hg.), 1992: Shaping Technology, Building Society: Studies in Sociotechnical Change. Cambridge, MA

Braun-Thürmann, H., 2002: Künstliche Interaktion. Wie Technik zur Teilnehmerin sozialer Wirklichkeit wird. Wiesbaden

Cassell, J.; Sullivan, J.; Prevost, S.; Churchill, E. (Hg.), 2000: Embodied Conversational Agents. Cambridge, MA

Collins, H.M.; Kusch, M., 1998: The Shape of Actions. What Humans and Machines Can Do. Cambridge, MA

Fohler, S., 2003: Techniktheorien. Der Platz der Dinge in der Welt des Menschen. München

Garfinkel, H., 1967: Studies in Ethnomethodology. Englewood Cliffs

Garfinkel, H., 1972: Studies of the Routine Grounds of Everyday Activities. In: D. Sudnow (Hg.): Studies in Social Interaction. New York, S. 1–30

Goffman, E., 1983: The Interaction Order. In: American Sociological Review 48 (1983), S. 1–17

Hutchby, I.; Wooffitt, R., 1998: Conversation Analysis: Principles, Practices and Applications. Cambridge, MA

Kopp, S.; Gesellensetter, L.; Krämer, N. C.; Wachsmuth, I., 2005: A Conversational Agent as Museum Guide – Design and Evaluation of a Real-World Application. In: Panayiotopoulos, T. ; Gratch, J. ; Aylett, R. et al. (Hg.): Intelligent Virtual Agents. Proceedings of the 5th International Working Conference IVA 2005 in Kos, Greece. Berlin, S. 329–343

Krummheuer, A., 2010: Interaktion mit virtuellen Agenten? Zur Aneignung eines ungewohnten Artefakts. Stuttgart

Latour, B., 2005: Reassembling the Social. An Introduction to Actor-Network-Theory. Oxford

Lester, J., 2001: Introduction to the Special Issue on Intelligent User Interfaces. In: AI Magazine. Special Issue: Intelligent User Interfaces 22/4 (2001), S. 13

Pickering, A., 1995: The Mangle of Practice. Time, Agency, and Science. Chicago

Rammert, W.; Schulz-Schaeffer, I. (Hg.), 2002a: Können Maschinen handeln? Soziologische Beiträge zum Verhältnis von Mensch und Technik. Frankfurt a. M.

Rammert, W.; Schulz-Schaeffer, I., 2002b: Technik und Handeln. Wenn soziales Handeln sich auf menschliches Verhalten und technische Abläufe verteilt. In: dies. (Hg.): Können Maschinen handeln? Soziologische Beiträge zum Verhältnis von Mensch und Technik. Frankfurt a. M., S. 11–64

Sacks, H.; Schegloff, E.A.; Jefferson, G., 1974: A Simplest Systematics for the Organization of Turn-Taking for Conversation. In: Language 50/4 (1974), S. 696–735

Schütz, A., 1971: Wissenschaftliche Interpretation und Alltagsverständnis menschlichen Handelns. In: ders. (Hg.): Gesammelte Aufsätze. Band 1: Das Problem der sozialen Wirklichkeit. Den Haag, S. 3–54

Suchman, L., 1987: Plans and Situated Actions: The Problem of Human-Machine Communication. Cambridge, MA

Suchman, L., 2007: Human-Machine Reconfigurations. Plans and Situated Actions. 2nd Edition. Cambridge, UK

Kontakt

Dr. Antonia Krummheuer
Fakultät für Kulturwissenschaften
Alpen-Adria-Universität
Universitätsstr. 65-67, 9020 Klagenfurt, Österreich
E-Mail: antonia.krummheuer∂uni-klu.ac.at