Google XXL: 7 moteurs de recherche en langage naturel
Google XXL

7 moteurs de recherche en langage naturel

Requête en langage naturel dans Google

Google est-il le meilleur moteur en langage naturel ?


J'ai eu envie de tester les performances des moteurs de recherche quand on leur pose une requête en langage naturelle à la lecture de cet article d'Edgard Pisani annonçant la disponibilité prochaine d'un moteur appelé Wolfram Alpha. Un commentateur (avisé) signalait alors l'existence d'un moteur que je ne connaissais pas : Start (SynTactic Analysis using Reversible Transformations). Start est rien de moins que le premier moteur de recherche basé sur des questions-réponses et développé, à partir de 1993, par Boris Katz et le groupe InfoLab du " MIT Computer Science and Artificial Intelligence Laboratory".
Voici une sélection de 10 questions qu'il est possible de poser à ce moteur de recherche et ce en langage naturel :
Show me a map of France
List some large cities in France
When was einstein born?
What movies has Alain Delon been in?
Give me the GDP of China
How many languages are spoken in Pakistan?
Who was the eighth president of the United States?
How many ethnic groups exist in cameroon?
What is TCP/IP?
How hot will it be in Paris tomorrow?
Pour ce test, j'ai repris les syntaxes utilisées en modifiant simplement les noms propres qui étaient affichées en exemple.
Voyons maintenant ce que font les autres moteurs de recherche anglophones et, surtout, quelles sont les requêtes qui renvoient, soit un résultat de type "OneBox", soit dans le premier lien trouvé, vers un site particulièrement pertinent… Certaines requêtes ne fonctionnant pas en l'état, j'ai dû les adapter (de manière plus ou moins efficace). Signalons que nous avons déjà publié un article sur les requêtes en langage naturel dans Google France et que les possibilités, même si elles sont moins importantes que celles qu'offrent la version internationale, permettent déjà beaucoup de choses. Les requêtes qui, quelque soit la méthode utilisée, ne renvoient pas vers des résultats probants ont été supprimées…

Google (10/10) :
À partir de la page d'accueil de Google, cliquez sur le lien Google.com in English.
map of France (Recherche universelle)
major cities France
When was einstein born? (OneBox)
Alain Delon movie (OneBox)
GDP of China (OneBox)
How many languages are spoken in Pakistan?
Who was the eighth president of the United States?
ethnic groups cameroon
What is TCP/IP? (OneBox)
weather Paris (OneBox)

Live Search
Live Search (8/10) :
Notez qu'il faut cliquer sur les liens France puis États-Unis (anglais).
When was einstein born? (résultat dédié)
Alain Delon filmography ou Alain Delon movie (résultat dédié)
GDP of China (résultat dédié)
pakistan language
Who was the eighth president of the United States? (résultat dédié)
How many ethnic groups exist in cameroon?
What is TCP/IP?
weather Paris (résultat dédié)

Yahoo! Shortcut
Yahoo! (http://www.yahoo.com) (9/10) :
map of France (Yahoo! Shortcut)
list of major cities in france
When was einstein born? (Yahoo! Shortcut)
alain delon biography
GDP of China (Yahoo! Shortcut)
languages in Pakistan (Yahoo! Shortcut)
ethnic groups in cameroon (Yahoo! Shortcut)
What is TCP/IP?
weather Paris (Yahoo! Shortcut)

Ask
Ask (http://www.ask.com/?o=312) (10/10) :
Show me a map of France (Recherche universelle)
large cities in France
When was einstein born? (Ask Answer)
Alain Delon filmography
Give me the GDP of China (Ask Answer)
languages Pakistan (Ask Answer)
Who was the eighth president of the United States? (Ask Answer)
ethnic groups cameroon (Ask Answer)
What is TCP/IP?
paris weather (Ask Answer)

Powerset
Powerset (http://www.powerset.com) (5/10) :
When was einstein born?
How many languages are spoken in Pakistan?
Who was the eighth president of the United States?
How many ethnic groups exist in cameroon?
What is TCP/IP?

Hakia
Hakia (http://www.hakia.com) (8/10) :
Show me a map of France (Recherche universelle)
major cities France
When was einstein born? (Résultat dédié)
What movies has Alain Delon been in?
GDP of China
How many languages are spoken in Pakistan?
Who was the eighth president of the United States?
ethnic groups cameroon (Résultat dédié)

TrueKnowledge
TrueKnowledge (http://www.trueknowledge.com) (9/10) :
Show me a map of France (lien externe)
When was einstein born?
What movies has Alain Delon been in?
Give me the GDP of China
How many languages are spoken in Pakistan? (la réponse n'a pas été trouvée mais la question parfaitement comprise)
Who was the eighth president of the United States?
number of ethnic groups in cameroon (la réponse n'a pas été trouvée mais la question parfaitement comprise)
What is TCP/IP?
Weather paris (lien externe)
Notez que vous devez ouvrir un compte gratuit sur ce moteur.

J'ai réellement eu l'impression que j'avais loupé quelque chose concernant Powerset. Mais, d'après mes critères, c'est le plus mauvais élève de la classe. Par contre, certains des résutats renvoyés par TrueKnowledge m'ont particulièrement impressionné. Vient ensuite ce trio : Ask (mon autre préféré), Yahoo! et Google (très proches en qualité).
Bien entendu, la plupart des moteurs rentrent bredouilles quand on se met en tête de vouloir leur donner des ordres comme "affiche-moi la carte de France". Certaines questions doivent être reformulées pour être parfaitement comprises par les moteurs. De fait, on doit alors utiliser un langage de type télégraphique (à l'image des fonctions de la Calculatrice Google) pour obtenir une réponse "qui fuse" ou qui propose un Snippet suffisamment complet pour qu'il ne soit pas besoin d'accéder au site correspondant.
On fait tout de suite la différence entre les moteurs qui vont puiser dans toutes sortes de bases de données après avoir "simplifié" votre recherche afin de la débarrasser de ses scories forcément trop humaines et un moteur comme TrueKnowledge qui cherche à interpréter votre question (ce qui ne le rend pas d'un maniement très commode) dans une sorte de dialogue en temps réel avec l'internaute.
Enfin et malgré le fort pourcentage de requêtes qui sont saisies en langage naturel (il suffit de s'amuser avec Google Suggest pour s'en rendre compte), je ne suis pas sûr que ce soit le futur eldorado des moteurs et ce pour différentes raisons :
Tant que l'on se limite à des requêtes de type factuel, il est assez simple d'aller piocher dans des bases de données structurées pour cela et resservir la bonne réponse comme par enchantement. La seule difficulté est de savoir extraire cette information et de pouvoir la présenter de manière conviviale. Reste la question de savoir quels sont les codes que l'internaute doit employer pour obtenir des résultats de type "question-réponse". Et c'est là qu'intervient la connaissance que l'utilisateur, à force de pianoter sur son moteur de recherche, aquiert forcément. La seule réelle difficulté, pour ce dernier, est de rationaliser les méthodes offertes afin que l'on sache comment s'y prendre et que l'internaute soit gagnant à tous les coups.
C'est tout autre chose que de répondre correctement à une requête du genre "Comment contacter Paris Hilton" ou "Je souhaite trouver l'adresse d'un bon restaurant près de chez moi". Elles impliquent une connaissance de l'environnement de l'apprenti-chercheur, de sa Weltanschaung, de ses codes culturels et de quantités d'autres paramètres que l'on pourra qualifier de subjectif.
J'ajoute que les questions "naturelles" sont forcément plus longues à saisir. De fait, pourquoi ne pas utiliser la recherche "carte Paris" plutôt que celle-ci : "montre-moi une carte de Paris" ?
Pourquoi aussi choisir un outil en particulier alors que les moteurs de recherche de type "généraliste" savent piocher dans toutes sortes d'expérimentations afin de vous présenter des résultats qui, à défaut d'être transcendants, sont toujours "dans la moyenne" ? En bref, plutôt que d'utiliser une application spécialisée, adressez-vous directement aux moteurs de recherche et à la multitude de technologiques qu'ils proposent.
C'est toute la différence entre des laboratoires qui développent des idées et des sociétés qui développent des services. Dans le meilleur des cas, les premiers sont toujours rachetés par les seconds.

15 commentaires:

  Mathieu

15 mars 2009 à 07:49

Il y a Chacha aussi, qui a une fonctionnalité propre et intéressante : on peut converser avec un internaute qui va faire les recherches pour nous (et il est rémunéré) "ask a guide"

http://www.chacha.com/

http://www.chacha.com/ask/

Mais objectivement ce moteur malgré son originalité n'est pas très performant... !

  Jean-Noël Anderruthy

15 mars 2009 à 11:28

Chacha est plutôt un moteur de recherche sociale. Il ne permet pas de poser des questions en langage naturel. Il y en a des quantités dans cette catégorie mais qu'il est difficile d'utiliser si vous ne vivez pas aux USA.
Cela dit , la liste que je dresse n'est pas exhaustive...

  Mathieu

15 mars 2009 à 15:05

D'accord !
Merci de la réponse !

  Camille Roux

15 mars 2009 à 23:38

Bonjour,

Article intéressant, tellement intéressant que j'en ai parlé dans article que j'ai publié aujourd'hui sur l'avenir du référencement.
C'est passionnant de voir à quelle vitesse les moteurs de recherches font des progrès et d'essayer de voir comment on peut en tirer profit.

Bravo,
Camille Roux

  Jean-Noël Anderruthy

16 mars 2009 à 09:51

Merci Camille pour votre commentaire :-) Les moteurs évoluent parce que aussi, les langages évoluent. La venue du HTML 5 impliquera de nombreux changements...

  communication

16 mars 2009 à 17:26

HTML 5 ? Pour quand svp ? :)

  Jean-Noël Anderruthy

16 mars 2009 à 17:54

Pour dans 3 ans d'après les dernières nouvelles mais sûrement plus d'après les mauvaises langues.

  Anonyme

16 mars 2009 à 18:44

Et en France vous connaissez "Besoin d'infos ?", c'est en version Beta, mais assez intéressant non ?

  Jean-Noël Anderruthy

16 mars 2009 à 22:47

C'est vrai que c'est un moteur intéressant mais le truc qui me dérange c'est que j'ai l'impression d'avoir plus affaire à une vitrine pour des solutions professionnelles qu'à un service grand public. Néanmoins, merci pour le lien :-)

  thomas renaudin

25 juin 2009 à 11:38

Très bon article!Merci pour ces tests! Je me suis moi même penché surlangage naturel et je vous propose, si le langage naturel vous intéresse, ce petit blog qui explique bien cette technologie:http://www.langage-naturel.fr

  Jean-Noël Anderruthy

25 juin 2009 à 16:24

Merci Thomas ! Effectivement, votre blog offre plein de perspectives intéressantes sur le sujet :-)

  avatazor

3 juillet 2009 à 20:29

Les résultats de Google sont pour la plupart assez pertinents, mais il ne faut pas oublier qu'il ne fait pas dans l'analyse morpho-syntaxique et que les requêtes qu'il reçoit sont avant tout traitées par réduction occurrencielle.

En gros les résultats d'une requêtes en langage dit naturel sur les moteurs generalistes ne sont que fiction.
même si ils solutionnent souvent ne problèmes.

ma remarque peut sembler prétentieuse mais il faut se baser sur des éléments technique pour s'en apercevoir.

  Dash

4 juillet 2009 à 01:15

Dans une catégorie supplémentaire, je crois que l'on peut rajouter GREPER
un tout jeune moteur de recherche communautaire de question/réponse
fonctionnant sur le principe du QQOQCCP (qu est ce que/quand/ou/qui/comment/combien/pourquoi)

www.greper.com

l'algo du moteur s'appuie sur une analyse morpho-syntaxique et permet aux utilisateurs d'effectuer des recherche en langage dit "naturel"

le but de Greper est de fournir à chaque question, une réponse unique modifiable par les contributeurs (les Grep Members) et les Anonymes
facilitant ainsi la recherche et réduisant le temps passé à trouver des réponses sur les moteurs généralistes.

Le moteur propose à ses membres (devenir contributeur ne requière qu'une inscription) de figurer sur un classement des 100 meilleurs contributeurs (le Grep Awards) ou ces derniers seront classés par ordre de pertinence sur les réponses apportées au moteur.
(il y a d'autres critères mais ils faut y jeter un œil pour comprendre)

Alors pour le petit test qui s'est révélé pertinent malgré le faible poids de la base de données à l'heure actuelle, du fait de la jeunesse du projet
(à peine un mois) :

Ma question, << Pourquoi ce nom Greper ? >>
Réponse << Aucun utilisateur n'a encore répondu >>

Je dépose alors mon adresse mail sur la question pour être prévenu
lors d'une réponse.
Quelques heures plus tard je reçois un mail m'informant qu'un Grep Member venait de répondre à la question

en voici le lien
Pourquoi ce nom Greper ?


Bon sur le coup je suis resté compréhensif vu l'age du moteur
puis apres reflexion ben je me suis dis que la prochaine personne qui poserait la question obtiendrait sa réponse.

Ensuite pour faire une comparaison rapide avec un moteur classique
tel que google j'ai lancer une recherche sur google
<< comment devenir navigateur sous marinier >> (bon parce que j'ai un ami qui compte en faire sa spécialité)
Et bien on ne trouve pas tant de résultats que ça, ou bien il faut creuser
sur les premiers sites donnés et encore en changeant les mots clés.

Sur Greper ce genre de requêtes ne pose aucun problème du moment qu'un contributeur est passé avant vous.
Vous avez un accès direct à la solution.

En conclusion pour mon avis personnel :
Plus il y a de contributeurs (sérieux), plus la mine se remplit d'or
La preuve concrète avec l'exemple de Wikipédia.

  Jean-Noël Anderruthy

4 juillet 2009 à 10:56

Merci Avatazor pour cette excellente synthèse qui résume de manière parfaite ce que je voulais dire (de manière très imparfaite).

  Jean-Noël Anderruthy

4 juillet 2009 à 11:02

Mais je ne crois pas que Grepper soit réellement très sérieux : interface tristounette, pauvreté des réponses, fautes d'orthographe (Pour optimiser vos recherches, et par réspect de la langue française, il vous est
fortement recommandé d'employer une orthographe est une grammaire corrète !). Il existe plein de moteurs de questions-réponses qui me paraissent plus aboutis.