Optimal search strategies for speech understanding control
Abstract
This paper describes two algorithms for finding the optimal interpretation of an unknown utterance in a continuous speech understanding system. These methods guarantee that the first complete interpretation found will be the best scoring interpretation possible. Moreover, unlike other optimal strategies, they do not make finite-state assumptions about the nature of the grammar for the language being recognized. One of the methods, the density method, is especially interesting because it is not an instance of the ‘optimal’ algorithm of Hart, Nilsson, and Raphael, and appears to be superior to it in the domains in which it is applicable. The other method, the shortfall method, is an instance of the algorithm using a particular heuristic function. Proofs of the guaranteed discovery of the best interpretation and some empirical comparisons of the methods are given. The relationship of these methods to strategies used in existing speech understanding systems is also discussed. Although presented in the speech context, the algorithms are applicable to a general class of optimization and heuristic search problems.
References (16)
- L.R. Bahl et al.
Automatic recognition of continuously spoken sentences from a finite state grammar
- L.R. Bahl et al.
Preliminary results on the performance of a system for the automatic recognition of continuous speech
- J.K. Baker
The DRAGON system—An overview
IEEE Trans. Acoust. Speech and Signal Process
(1975) - L.D. Erman et al.
The Hearsay-II speech-understanding system: Integrating knowledge to resolve uncertainty
Comput. Surveys
(1980) - P. Hart et al.
A formal basis for the heuristic determination of minimum cost paths
IEEE Trans. Systems Sci. Cybernet.
(1968) - F Hayes-Roth et al.
Focus of attention in a distributed-logic speech understanding system
- F. Hayes-Roth et al.
Focus of attention in the Hearsay-II speech understanding system
- W. Lea
Cited by (30)
Bidirectional context-free grammar parsing for natural language processing
1994, Artificial IntelligenceWhile natural language is usually analyzed from left to right, bidirectional parsing is very attractive for both theoretical and practical reasons. In this paper, we describe a formal framework for bidirectional tabular parsing of general context-free languages, and some applications to natural language processing are studied. The framework is general and permits a comparison between known approaches and the algorithms outlined here. A detailed analysis of the redundancy problem is given and a technique for improving the performance of bidirectional tabular parsers, whilst maintaining the flexibility of bidirectional strategies, is described. An algorithm for head-driven parsing and a general algorithm for island-driven parsing are studied. The former allows analyses of each constituent to be triggered by some fixed immediately dominated element, chosen on the basis of its information content. The latter permits analyses to start from any dynamically chosen positions within the input sentence, combining bottom-up and top-down processing without redundancy.
Improving speech understanding performance through feedback verification
1992, Speech CommunicationA parser for continuous speech has to deal with lattices where the word hypotheses of the correct sentence are not usually perfectly aligned and short function words may be missing. To cope with these problems, a two-way interaction between the recognition module and the parser, called feedback verification procedure (FVP), has been investigated. The parser generates many solutions, that are fed back to the recognizer which realigns them against the acoustical data, finds the missing function words among the given candidates, and attributes them a new score. The best scoring solution is finally selected by the parser. Results on a 787-word, speaker-independent, telephone-bandwidth continuous speech recognition task are presented.
Ein Parser für kontinuierlich gesprochene Sprache arbeitet mit Worthypotesen-Gittern, in denen die Worthypothesen des richtigen Satzes normalerweise nicht genau aneinanderstoβen und kurze Funktionswörter fehlen können. Um mit diesen Problemen fertigzuwerden, wurde eine bidirektionale Interaktion zwischen dem Erkennungsmodul und dem Parser untersucht, die Rückkopplungs-Bestätigungsprozedur (feedbackverificationprocedure, FVP) genannt wird. Der Parser generiert viele Lösungen, die an den Erkenner zurückgegeben werden, der sie erneut mit dem Signal abgleicht, die fehlenden Funktionswörter unter den vorgegebenen Kandidaten findet und den Satzhypothesen neue Bewertungen gibt. Die am besten bewertete Lösung wird schlieβlich vom Parser ausgewählt. Die Ergebnisse für die sprecherunabhängige Erkennung kontinuierlich gesprochener Sprache in Telefon-Bandbreite mit einem Wortschatz von 787 Wörtern werden vorgestellt.
Un analyseur grammatical pour la parole continue traite des treillis lexicaux où les mots hypothèses des phrases correctes ne sont généralement pas alignés de façon parfaite, et où les mots fonctionnels courts peuvent manquer. Afin de résoudre ces problèmes, nous avons mis au point une intéraction bidirectionnelle entre le module de reconnaissance et l'analyseur grammatical. Nous avons nommé ce mécanisme “procédure de vérification en retour” (feedback verification procedure, FVP). Selon cette approche, l'analyseur grammatical produit un grand nombre de solutions qui sont envoyées au reconnaisseur. Ce dernier les réaligne sur les données acoustiques. Il trouve, parmi les candidats que l'analyseur grammatical lui propose, les mots fonctionnels manquants, et produit un nouveau score. La solution possédant le meilleur score est choisie par l'analyseur grammatical. Nous présentons des résultats obtenus pour des essais de reconnaissance de parole continue indépendant du locuteur à travers le téléphone. Ces résultats concernent un échantillon de 787 mots.
A unification-based, integrated natural language processing system
1992, Computers and Mathematics with ApplicationsThis paper presents a natural language processing (NLP) system called LINK. LINK is unification-based, and incorporates and extends many features which have been emerging from other NLP research in recent years. In particular, the notions of autonomous syntax and compositional semantics long staples of NLP systems, have been replaced by a grammar which is much more complex, semantics-oriented, and more reliant on idiomatic constructions; and a semantics which is noncompositional. Processing, also, has been changed from the traditional syntax-driven approach, to an approach which relies much more heavily on semantics and domain knowledge, presented in a semantic net. As a result, LINK is able to efficiently process ungrammatical sentences, as well as nonliteral constructions such as methphor and metonymy. These tasks have been difficult for more traditional NLP systems.
Representation of acoustic and phonetic knowledge for speaker-independent recognition of small vocabularies
1991, Speech CommunicationWe present an environment and methodology for the representation and processing of acoustic, phonetic and lexical knowledge for speech recognition. The tools suggested enable the encoding and processing of numerical data (signals, parameters, shapes, etc.) and symbolic informations (words, phonemes, syllables, features, cues, etc.) to be carried out in a uniform, uninterrupted and dynamic manner. The application of this methodology is described with reference to a task involving the multi-speaker recognition of the names of the 26 letters of the alphabet given in French. Despite the widely acknowledged difficulty of this vocabulary, the results attained provide a clear validation of the approach, particularly in the case of acoustically very similar words.
Wir stellen eine Softwareumgebung sowie Techniken vor welch entwickelt wurden um akustische, phonetische und lexikalische Daten im Rahmen der automatischen Spracherkennung darzustellen und zu verarbeiten. Die vorgerstellten Methoden erlauben eine gleichförme, kontinuierliche und dynamische Kodierung und Verarbeitung von numerischen Daten (Signal, Parameter, Formen, usw.) sowie von Informationen symbolischer Natur (Wörter, Phoneme, Silben, Merkmale, Kennzeichen, usw.). Die Anwendung dieser Methoden wird beschrieben anhand der Erkennung der 26 französischen Wörtern welche den Buchstaben des Alphabets entsprechen und welche von mehreren Sprechern gesprochen wurden. Die Resultate mit welche diesem schwierigen Vokabular erhalten wurden, bestätigen die Gültigkeit dieses Verfahrens, besonders im Falle von akustisch sich ähnelnden Wörtern.
Nous présentons un environnement et des techniques élaborées pour la représentation et le traitement de connaisances acoustiques, phonétiques et lexicales pour la reconnaissance de la parole. Les outils proposés permettent d'effectuer de manière uniforme, continue et dynamique le codage et le traitement de données de type numérique (signal, paramètres, formes, etc.) et d'informations de nature symbolique (mots, phonèmes, syllables, traits, indices, etc.). La mise en oeuvre de ces méthodes est décrite à partir d'une application concernant la reconnaissance multi-locuteur des 26 mots correspondant aux lettres de l'alphabet énoncées en français. Malgré la difficulté bien connue de ce vocabulaire, les résultats obtenus valident parfaitement cette approche du problème, particulièrement dans le cas des mots acoustiquement très proches.
Bidirectional charts: a potential technique for parsing spoken natural language sentences
1989, Computer Speech and LanguageThe use of “high level” knowledge sources in recognizing continuous speech is aimed at reducing the hypothesis space generated by acoustic-phonetic analysis. In this, a sentence parser can be a basic resource, provided that it can deal with the ambiguity of the input and with the fact that fragments may have been recognized even hypothetically. One of the most successful techniques for parsing natural language is chart parsing. Chart parsing is directional in the sense that it works from a starting point (usually the beginning of the sentence) and usually proceeds to the right. We describe the concept of a chart that works outward from islands (reliably recognized fragments), makes sense of as much of the sentence as possible, and then goes on to make predictions about missing fragments.
A system for man-machine communication using speech
1985, Speech CommunicationKEAL is a continuous speech recognition system developed at the CNET laboratory in Lannion (France). Part of the laboratory's current work aims at extending it in the direction of a speech-understanding and man-machine dialog system. A question-answer-type dialog is set in motion in order to provide the user with information (the current application consists in simulating a directory inquiries service). This paper describes how syntactic, semantic and pragmatic knowledge is used for implementing such a dialog, and the main advantages and drawbacks of the methods chosen are discussed. Sentence recognition is performed by a left-to-right bottom-up parser by means of a semantic context-free grammar. Using a method analogous to that of semantic attributes, the parse-tree is then interpreted in order to obtain a semantic structure which represents the information relevant to the subsequent dialog. The dialog manager uses the semantic structure for instantiating a model graph, which represents the state of the dialog at any instant; it indicates the next message to be sent to the user, and how to analyse his answer.An example derived from the directory inquiries service is described.
KEAL ist ein am CNET (Centre National d'Etudes des Télécommunications. Lannion/Bretagne) entwickeltes Erkennungssystem für fortlaufende Rede. Gegenstand der aktuellen Ausbauphase ist die Entwicklung eines Verständnis- und Mensch-Maschine-Dialog-Systems. Ein Frage-Antwort-Dialog soll dem spateren Benutzer die Möglichkeit geben, differenzierte Auskünfte einzuholen (Anwendungsmöglichkeiten werden augenblicklich im Rahmen der Simulation eines telefonischen Auskunftzentrums untersucht). In diesem Artikel wird gezeigt, wie syntaktische, semantische und pragmatische Informationen für einen solchen Dialog zu nutzen sind. Die wichtigsten Vor- und Nachteile der verwendeten Methoden werden besprochen. Ein von links nach rechts steigender syntaktischer Analysator führt die Satzerkennung mit Hilfe einer semantischen kontextfreien Grammatik aus. Um eine semantische Struktur zu erhalten, die alle nützlichen Informationen für die Fortsetzung des Dialogs repräsentiert, wird der syntaktische Baum sodann nach einer Methode ausgelegt, die der der semantischen Attribute ähnlich ist. Das Modul für die Dialogführung benutzt die semantische Struktur zur Erstellung eines Graphmodells, das fortlaufend über den Stand des Dialogs informiert. Es legt die nächste Durchsage an den Benutzer fest und trifft Entscheidungen über die Art der Analyse der Benutzerantwort. Ein Anwendungsbeispiel wird am Fall einer automatischen Telefonauskunft gegeben.
KEAL est un système de reconnaissance de la parole continue développé au CNET à Lannion. L'une des extensions en cours consiste à en faire un système de compréhension et de dialogue homme-machine. Un dialogue de type question-réponse est mis en oeuvre en vue de fournir un renseignement à l'utilisateur (l'application actuellement étudiée est la simulation d'un centre de renseignements téléphoniques). Cet article montre comment les connaissances syntaxiques, sémantiques et pragmatiques sont utilisées pour réaliser un tel dialogue, et discute des principaux avantages et inconvénients des méthodes retenues. La reconnaissance des phrases est effectuée par un analyseur syntaxique ascendant de gauche à droite, à l'aide d'une grammaire sémantique hors-contexte. On interprète ensuite l'arbre syntaxique, par une méthode analogue à celle des attributs sémantiques, afin d'obtenir une structure sémantique qui représente les informations utiles pour la suite du dialogue. Le module de gestion de dialogue utilise la structure sémantique pour instancier un graphe-modèle qui représente à tout instant l'état du dialogue; il indique le prochain message à envoyer à l'utilisateur et la manière d'analyser la réponse de celui-ci. On décrit un exemple tiré du centre de renseignements téléphoniques.