Der vom gleichnamigen Computer-Pionier mit Vornamen Alan entwickelte Turing-Test beurteilt die Fähigkeit einer Maschine zu einem intelligenten Verhalten, das nicht von dem eines Menschen unterscheidbar ist. Der Test besteht klassischerweise darin, dass ein Mensch beurteilt, ob erhaltene Antworten von einer Maschine oder von einem Menschen stammen. Die Frage ist, ob das nicht eine Maschine genauso gut beurteilen und eine andere Maschine demaskieren kann.

Der originale Vorschlag von Alan Turing läuft darauf hinaus, dass ein textbasierter Dialog zwischen einem Menschen und etwas Unbekanntem mit Hilfe von Tastatur und Bildschirm stattfindet, wobei diese sich in getrennten Räumen befinden. Heutzutage machen Chatbots genau das und versuchen, sich als Menschen auszugeben.
Firmen wie Apple und Amazon treiben viel Aufwand, damit ihr Chatbot möglichst überzeugend menschlich klingt. Sie werden dabei massiv von menschlichen Teams evaluiert, um den kommunikativen Austausch zu analysieren und zu verbessern, doch das ist sehr teuer und zäh. Könnte man diesen Prozess daher nicht beschleunigen, indem man die Evaluation der Dialoge Maschinen überträgt?
Forscher der McGill University in Montreal (Kanada) haben hierfür ein ADEM (Automatic Dialogue Evaluation Model) entwickelt. Beim Test dieses Modells zeigte sich, dass es die gleichen Rankings wie evaluierende Menschen erzielt.
Das Team plant, das Modell als Open Source zu veröffentlichen.