Expérimentation stratégique : Observer les autres pour adapter son propre comportement

Dinah Rosenberg, Professeur d'Economie - Sciences de la Décision et Nicolas Vieille, Professeur d'Economie - Sciences de la Décision - 15 janvier 2011
team, strategy, innovation; qualités d'une bonne équipe - Expérimentation stratégique

Comment l’information libérée par un agent économique influence-t-elle le comportement des autres agents qui l’observent ? C’est à cette question que s’intéressent Dinah Rosenberg et Nicolas Vieille qui, avec un modèle de type two-armed-bandit, montrent qu’un signal positif envoyé par l’environnement augmente le niveau de confiance du joueur et modifie son comportement par rapport à une situation où il serait seul. 

Dinah Rosenberg ©HEC Paris

Dinah Rosenberg est ancienne élève de l’ENS et docteur en mathématiques de l’université de Paris 10- Nanterre. Elle a rejoint HEC Paris au Département Economie et Sciences de la (...)

Voir le CV
Nicolas Vieille ©HEC Paris

Nicolas Vieille est ancien élève de le l’ENS et docteur en mathématiques de l’université Paris VI. Il a rejoint HEC Paris au Département Economie et Sciences de la Décision en (...)

Voir le CV

Pour illustrer leur recherche, Dinah Rosenberg et Nicolas Vieille prennent l’exemple de deux entreprises de l’industrie pharmaceutique engagées dans un processus de R&D visant à tester l’efficacité de deux molécules distinctes: “Imaginons deux laboratoires concurrents qui travaillent chacun sur une molécule, mais dont les résultats sont potentiellement liés. Comment chaque laboratoire peut-il décider d’adapter sa propre stratégie d’investissement en fonction du comportement qu’il observe chez son concurrent?” Issus de la théorie des jeux, les modèles d’expérimentation stratégique sur lesquels s’appuient les chercheurs visent à comprendre comment extraire optimalement une information pertinente mais dont l’obtention est couteuse et comment la présence d’un environnement stratégique (c’est-à-dire comprenant plusieurs agents) modifie ce comportement optimal d’expérimentation.


COMMENT L’INFORMATION DISPONIBLE INFLUENCE LES COMPORTEMENTS

“Dans le cas d’un laboratoire pharmaceutique qui testerait une molécule, si au bout d’un certain temps aucun résultat concluant ne peut être observé, les dirigeants deviendront plus pessimistes et ils prendront la décision d’arrêter les investissements. Au contraire, si les résultats s’avèrent prometteurs, ils continueront à investir dans la même direction”, expliquent Dinah Rosenberg et Nicolas Vieille. Comment ce choix d’arrêter ou de poursuivre peut-il alors influencer un laboratoire concurrent? Deux facteurs entrent en compte selon eux:

• Le niveau d’observabilité : l’information libérée par le concurrent doit être disponible et interprétable (par exemple, si le laboratoire communique publiquement sur ses recherches) ;

• Le degré de corrélation : si les recherches des deux laboratoires n’ont aucun rapport les unes avec les autres, aucune raison d’adapter sa stratégie en fonction des résultats de l’autre.


NATURE DE L’EXPÉRIMENTATION

Dinah Rosenberg et Nicolas Vieille cherchent à évaluer l’influence de ces deux variables sur le comportement des joueurs. Dans un premier temps, ils font varier le niveau d’observabilité : d’abord, chaque joueur peut à la fois observer le comportement de l’autre (par exemple dans le cas de notre laboratoire : s’il continue à investir où s’il arrête) et le résultat produit (si ces investissements sont fructueux ou non). Ensuite, le joueur observe le comportement de l’autre mais pas les résultats. Ainsi, dans cette situation, si l’un des acteurs continue à jouer l’autre ne sait pas s’il a des résultats encourageants, s’il est simplement très téméraire ou s’il expérimente, influencé par le comportement de son concurrent. Pour ces deux scénarios, les chercheurs proposent ensuite deux niveaux de corrélation : positive ou négative. Dans le cas de nos laboratoires, une corrélation positive correspond à des travaux sur des molécules proches. La corrélation négative peut, quant à elle, être illustrée par deux laboratoires qui testeraient des molécules concurrentes.


INFORMATION DISPONIBLE: BONNE OU MAUVAISE NOUVELLE?

Les chercheurs mettent à jour le lien entre la structure de l’information sous-jacente et l’interprétation du comportement de l’autre. Dans le cas d’une observabilité totale du comportement et des résultats de l’autre, il n’y a aucune asymétrie d’information et le joueur est confronté à deux situations:

• Corrélation positive : si les deux laboratoires travaillent sur des projets semblables, l’absence de résultats chez l’un va augmenter le pessimisme de l’autre. Un résultat favorable obtenu par l’autre laboratoire constitue au contraire une bonne nouvelle et rend l’entreprise plus optimiste sur ses chances de succès avec sa propre molécule, ce qui peut l’inciter à poursuivre sa recherche plus longtemps que s’il était seul.

• Corrélation négative : si les molécules investiguées correspondent à des théories opposées, l’absence de résultats chez l’un constitue pour l’autre un résultat positif (bonne nouvelle) qui l’incite à prolonger ses investissements. Inversement, si le premier laboratoire obtient un résultat probant, le second devient plus pessimiste et est incité à abandonner sa ligne de recherche. Dans le cas d’une observabilité réduite au comportement de l’autre joueur (pas d’information sur ses résultats), l’information disponible est limitée. Seule une situation dans laquelle l’autre joueur arrête d’investir constitue un événement observable et peut donner lieu à des interprétations fiables car il est évident que ses investissements ne lui paraissent alors pas fructueux. L’effet de la corrélation entre la qualité des molécules est inverse par rapport au scénario précédent : si la corrélation est positive un événement observé (l’arrêt des recherches du concurrent) renvoie un signal négatif alors que si la corrélation est négative, l’observation (arrêt de l’expérimentation) renvoie un signal positif.


QUAND LA NATURE DE L’INFORMATION MODIFIE LE SEUIL DE CONFIANCE

Dinah Rosenberg et Nicolas Vieille montrent que c’est en fait la nature du signal (bonne ou mauvaise nouvelle) envoyé à l’autre acteur par un événement observé qui influence son comportement. Quand le signal est négatif, le seuil de confiance à partir duquel un joueur choisit d’abandonner est le même que s’il était seul. L’observation de l’autre ne modifie pas la quantité d’information nécessaire à la poursuite de l’investissement et n’a aucun impact sur le niveau global de la recherche. Au contraire, quand le signal est positif, le joueur est systématiquement encouragé par le comportement de l’autre à continuer ses investissements, et le niveau global de la recherche augmente.


D’après un entretien avec Dinah Rosenberg et Nicolas Vieille et l’article “On Games of Strategic Experimentation” (Games and Economic Behavior , November 2013, vol. 82, pp. 31-51 in coll. with A. SALOMON, Nicolas VIEILLE).. Cet article est un follow-up de “Social Learning in One-Arm Bandit Problems” (Econometrica , 75, 1591-1611, 2007) 

APPLICATIONS PRATIQUES
APPLICATIONS PRATIQUES

Si, comme le précisent Dinah Rosenberg et Nicolas Vieille, “ces travaux sont très théoriques et il faut demeurer prudents quant aux enseignements pratiques qu’on peut en tirer”, ils ouvrent néanmoins la voie à l’approfondissement de la recherche en matière d’économie de l’innovation où une question telle que la protection de la propriété intellectuelle entrerait en jeu. Nicolas Vieille précise en effet qu’une des limites de cette recherche est de ne pas tenir compte de la concurrence sur le marché des médicaments et de l’impact sur les profits d’une découverte. Par ailleurs, le fait qu’un laboratoire qui ferait une découverte importante puisse bloquer la R&D de ses concurrents en déposant un brevet n’est également pas pris en compte. Mais faisant abstraction de ces questions, les chercheurs estiment que dans le cas d’une corrélation positive entre les travaux de différents laboratoires de R&D, “une diffusion ouverte de l’information (résultats rendus publics) permettrait notamment de favoriser l’émission de signaux positifs et pourrait ainsi stimuler la recherche”. 

MÉTHODOLOGIE
MÉTHODOLOGIE

La théorie des jeux étudie des modèles généraux d’interaction entre des agents où les choix stratégiques de tous impactent les bénéfices de chacun. Les modèles d’apprentissage mettent quant à eux de côté cette concurrence pour se concentrer sur la question de l’acquisition et de l’utilisation de l’information dans un environnement stratégique. Pour étudier comment l’acquisition et l’utilisation de l’information influence le comportement des acteurs, les auteurs utilisent un modèle de type two-armed-bandit (machine à sous à deux bras).