Die robots.txt Datei definiert Verzeichnisse und Dokumente einer Domain, die von der Suchmaschine nicht indexiert werden sollen. Standardmäßig werden alle Dokumente indexiert. Auf diese Weise können etwa doppelte Inhalte zur Indexierung ausgeschlossen werden. Die Indexierung doppelter Inhalte kann mit sich bringen, dass zur Indexierung erwünschte Inhalte deindexiert oder in den Suchergebnissen ausgeblendet werden, was zu einer Benachteiligung der Website führen kann.
In der Datei robots.txt können Inhalte für einzelne Suchmaschinen oder für alle Suchmaschinen gesperrt werden. Ein Ausschluss über die robots.txt Datei bedeutet nicht, dass die Inhalte nicht mehr von der Suchmaschine ausgelesen werden und ist auch keine Garantie, dass die Inhalte am Ende nicht doch aufgeführt werden. Die Suchmaschine Google etwa neigt dazu ausgeschlossene Unterseiten beim Aufruf über das site:-Kommando aufzuführen, mit dem Hinweis, dass Google nicht berechtigt ist, die einzelnen Inhalte aufzuführen. Der suchmaschineninterne Umgang mit der robots.txt Datei bleibt damit der Entscheidung der jeweiligen Suchmaschine selbst vorbehalten.