Le comptage des domaines et des hôtes

Cette FAQ vise à: 

  • expliciter la manière dont sont obtenus les gros chiffres qui fondent la plupart des estimations de la taille de l'Internet et de sa croissance vertigineuse
  • préciser à quel point on peut s'y fier et dans quelle mesure on peut les utiliser pour étayer des réflexions

Sommaire :


Pourquoi dénombrer les domaines et les hôtes ?

Le système des serveurs de noms (DNS), qui a pour fonction première de fournir l'adresse IP d'une machine à partir de son nom, recéle sous une forme distribuée la liste des machines connectées à l'Internet . Le rassemblement et le traitement de cette liste au moyen de procédures automatisées constitue la source la plus facilement accessible d'informations relativement exhaustives sur la taille de l'Internet. 

Qu'entend-on exactement par "domaine" et par "hôte" ?

Du point de vue des procédures de comptage: 

  • Un "domaine" est constitué par un enregistrement du DNS auquel est associé au moins un nom de sous-domaine ou d'hôte. Les domaines au sens du DNS ne coïncident pas forcément avec les domaines enregistrés auprès des NICs; les premiers correspondent à des entités techniques, les seconds à des entités juridiques.
  • Un "hôte" est une machine connectée de manière permanente ou temporaire à l'Internet, qui dispose d'un groupe [nom(s), adresse IP] enregistré dans le DNS. Les machines qui disposent d'aliases sont en principe considérées comme un seul hôte. L'appellation "hôte" vient de ce qu'il héberge une adresse IP. Un hôte n'est pas forcément un serveur, ce peut tout aussi bien être un poste purement client ou un appareil de routage. Dans le cas d'un FAI, la plupart des hôtes sont des modems sur lesquels se connectent successivement les abonnés.

Qui effectue des relevés, avec quelle fréquence, depuis quand ?

Relevés semestriels (janvier, juillet) de l'Internet mondial. Les relevés de Network Wizards prennent la suite de ceux du SRI pour constituer une série continue depuis août 1981 (fréquences variables cependant). Présente un décompte des hôtes et des domaines par TLD pour l'ensemble de l'Internet. Ces relevés sont complétés d'un sondage partiel afin d'estimer le pourcentage de machines en service. Ils fournissent également un palmarès des noms de machine les plus courants. 

Relevés mensuels de l'Internet européen depuis octobre 1990. Présente un décompte des hôtes et des domaines par TLD pour les domaines sous juridiction du RIPE

Existe t'il une procédure standardisée ?

Il existe une RFC de janvier 92 (RFC 1296), qui n'a pas statut de standard, mais qui explicite le mode de collecte des données entre 1981 et 1991. Le document décrit la procédure suivie et le fonctionnement du programme ZONE chargé de collecter l'information depuis 1986. Le rédacteur de la RFC1296 (Mark K.Lottor) a été l'auteur des relevés périodiques de SRI qu'il poursuit maintenant chez Network Wizards. Le document de 1992 faisait état de problèmes croissants de quantités de données à traiter qui imposaient une révision du programme de collecte. Il n'existe pas de mise à jour connue qui précise ce qu'il est advenu. 

  • Evolution de la procédure NW depuis 1992 ?
  • Modalités utilisées par RIPE ? (NB: à éclaicir cf Eric Wassenaar)
  • Quelles différences entre les programmes utilisés par NW et RIPE ?
  • Quel impact sur les résultats ? (écarts des décomptes pour un même pays + date de relevé)

Comment se déroule la procédure de collecte ?

Selon RFC 1296: 

  • ZONE maintient une liste des domaines et de leurs serveurs de noms ainsi qu'un drapeau indiquant si l'information du domaine a été transférée avec succès
  • il parcourt en boucle la liste des domaines en essayant de contacter un des serveurs pour chaque domaine non encore transféré
  • quand un serveur est contacté (sous TCP), une requête SOA est adressée pour s'assurer qu'il a bien autorité pour le domaine concerné
  • si c'est la cas, une requête de transfert (AXFR) est adressée pour télécharger tous les enregistrements du domaine
    • quand un enregistrement de serveur de nom est reçu (NS), il est ajouté à la liste des domaines à explorer
    • quand un enregistrement d'hôte est reçu (A, CNAME, HINFO, MX) il est ajouté à la liste des hôtes identifiés
  • le programme s'arrête lorsqu'il a parcouru la liste des domaines sans recevoir aucune nouvelle information

A quel point les résultats sont-ils fiables ?

Les programmes de collecte se heurtent à des obstacles divers: 

  • une proportion non négligeable des serveurs de noms refusent l'accès à l'automate de collecte ou refusent de lui fournir la liste des noms ("Domains missed" dans la terminologie de Network Wizard)
  • les tables de DNS ne sont pas toujours exemptes d'erreurs (formattage des données, anciens + nouveaux noms, etc...)
  • malgré les requêtes SOA, certains serveurs relevés s'avèrent dépourvus d'autorité sur leur domaine
  • tables dupliquées (voir spécificités NW / RIPE ?)

Pourquoi constate t'on des écarts avec les domaines enregistrés aux NICs ?

Les domaines enregistrés auprès des NICs constituent une déclaration d'intention d'occupation d'un espace d'adressage IP. Les domaines relevés dans le DNS l'occupation effective de cet espace adaptée en fonction du contexte. D'une part, l'espace d'adressage réservé à l'enregistrement n'est pas toujours totalement occupé, d'autre part l'espace global est éventuellement subdivisé en sous-domaines. 

Le nombre d'hôtes est-il représentatif de quelque chose ?

Les hôtes dénombrés en explorant l'espace du DNS recouvrent des réalités très disparates: 

  • un ordinateur individuel raccordé à l'Internet compte pour un, voire même pour plusieurs dans le cas d'hôtes virtuels
  • un réseau d'entreprise qui est raccordé à l'Internet au moyen d'un "firewall" compte pour un alors qu'il peut dissimuler de nombreuses machines et de nombreux utilisateurs
  • un fournisseur d'accès à l'Internet, qui attribue des adresses dynamiques à ses abonnés, dispose de beaucoup moins d'adresses que d'abonnés
  • beaucoup d'hôtes référencées dans le DNS n'existent pas physiquement ou ne sont pas en service

Les proportions de chacun des cas ci-dessus peuvent varier assez fortement d'un réseau à l'autre en fonction de la typologie des infrastructures, du degré de modernité des installations, des us et coutumes locaux, etc... Deux réseaux présentant des nombres d'hôtes strictement identiques dans les relevés peuvent recéler des usages très différents dans la réalité, en termes quantitatifs comme qualitatifs. De même, les taux d'erreurs dans le dénombrement varient fortement en fonction des conditions locales. Tout cela rend les comparaisons très aléatoires. 

Malgré tout, on peut supposer sans trop de risque de se tromper que les pratiques locales restent relativement constantes dans le temps, ou du moins qu'elles n'évoluent que graduellement, donc que les proportions relatives d'erreurs et de chaque type d'usage ne varient qu'assez peu au sein d'un ensemble donné. L'ensemble en question peut être n'importe quelle entité géographique, culturelle, économique, etc... pour autant qu'on sache en délimiter les contours de manière suffisamment invariable et lui rattacher les décomptes d'hôtes et de domaines. On peut donc considérer que l'observation des taux de croissance dans une même série et pour un ensemble donné représente effectivement quelque chose, à savoir la dynamique de développement matériel consacré à l'Internet au sein de cet ensemble. Si l'on souhaite comparer plusieurs entités, des pays par exemple, il est opportun de transformer les quantités en indices pour comparer les évolutions respectives plutôt que les quantités elles-mêmes. 

Est-ce que tous les hôtes situés en France se retrouvent dans le domaine .fr ?

Loin de là ! Il n'y a pas obligation d'enregistrer les domaines français auprès du NIC France, qui gère le domaine .fr. Ceux qui le souhaitent peuvent tout aussi bien s'adresser à InterNIC et s'enregistrer sous un TLD à trois lettres , voire auprès d'autres registres. D'ailleurs beaucoup le font puisque le NIC France identifie par exemple un peu plus de domaines français enregistrés sous .COM que sous .FR (sans compter ceux enregistrés sous .ORG, .NET ou autres). 

Il en va de même dans les autres pays, et ce dans des proportions différentes bien qu'assez élevées dans l'ensemble (> 50%). Il s'ensuit que les comparaisons faites à partir des nombres d'hôtes rattachés aux TLDs à 2 lettres (par pays) sont fondées sur bien peu de choses puisqu'elles ignorent à la fois la partie immergée des icebergs et leurs densités, qui ne sont pas identiques. 

Est-il possible de rattacher les recensements d'hôtes et de domaines à des pays ?

En théorie, l'exercice n'est pas totalement impossible, dans la pratique il n'est pas simple. 

La méthode utilisée par le NIC-France pour identifier les domaines européens dans le .COM consiste à comparer les adresses IP des domaines avec la liste des objets INETNUM qui précisent à quel pays est rattaché juridiquement le réseau concerné. Dans le cas ci-dessus, le NIC-France applique la méthode aux domaines enregistrés, toutefois cette même méthode pourrait être appliquée aux domaines et hôtes relevés par le Network Wizards ou par le RIPE NCC en mettant en relation chaque adresse IP relevée avec la liste des objets INETNUM pour en déterminer le rattachement à un pays ou un autre sans se fier au suffixe de nom de domaine (TLD). Dans la mesure où il s'agit d'un traitement local qui ne fait pas appel au réseau (sauf pour télécharger les fichiers de données au départ), cela est faisable par quiconque peut obtenir d'un côté les fichiers sources des relevés et de l'autre la base de données des objets INETNUM. 

Pourquoi ne pas se contenter de redressements au prorata ?

En admettant que l'on puisse obtenir de l'InterNIC les nombres de domaines par pays enregistrés sous des TLDs à 3 lettres, on pourrait penser qu'un redressement des nombres d'hôtes relevés au prorata des domaines enregistrés pourrait constituer une approximation suffisante. Toutefois, la validité du raisonnement suppose que le nombre d'hôtes / domaine soit relativement constant d'un TLD à l'autre. Cela n'est malheureusement pas le cas, loin de là, conduisant à des écarts de l'ordre du simple au double suivant l'interprétation que l'on fait (nombre d'hôtes / domaine pris selon la moyenne du TLD à 3 lettres ou selon la moyenne du pays redressé ?). Cette méthode vaut certes mieux que pas de redressement du tout, mais elle reste très aléatoire. 

Par ailleurs, la tendance à l'internationalisation des enregistrements de domaines est plutôt croissante et cela devrait s'accentuer avec la mise en application du MoU de l'IAHC et l'apparition de zones franches comme les NuNames du W3C. Dès lors, les chiffres bruts des TLDs seront de moins en moins significatifs et les redressements au prorata seront de moins en moins applicables. 

Comment peut-on savoir si un hôte est en service ?

Le fait qu'un hôte soit enregistré dans le DNS ne signifie pas qu'il existe physiquement, ni qu'il soit en service. Hors, c'est bien le fait qu'il soit en service et accessible qui est significatif d'usage, et non le fait que son adresse figure quelque part dans une table du DNS. 

La procédure permettant de vérifier qu'un hôte est bien en service et accessible par l'Internet s'appelle PING et consiste à lui adresser des paquets de test pour voir si un écho en revient. Si l'hôte est bien vivant, le requérant reçoit en retour le temps d'accès en millisecondes ainsi que le nom (ou l'adresse IP) de l'hôte sondé. Cette procédure est néanmoins assez lourde en temps et en consommation de ressources du réseau, aussi elle n'est utilisée que partiellement par Network Wizards pour sonder le taux de réponse à travers un échantillon limité (1%). Le taux de réponse ainsi obtenu est ensuite extrapolé à l'ensemble. Ces sondages révèlent que seulement 20% environ des hôtes recensés sont effectivement en service

(NB: Ping par TLD ou global ?). 

Ce type de relevés pourrait-il être perfectionné ?

  • Libéralisme des pratiques + fonctionnement distribué -> terrain peu propice
  • Taille du réseau -> traitements lourds
  • Problèmes de charge sur le réseau -> éviter trop de requêtes de mesure
  • Le jeu en vaut-il la chandelle ?
  • Possibilités de décentralisation des mesures ?

 

Notes: 

  • DNS: voir The Domain Name System . (Explication didactique en français quelque part sur le net?)
  • machines connectées à l'Internet: En réalité, il existe des machines dont on peut dire qu'elles font partie de l'Internet, mais qui ne figurent nulle part dans les tables du DNS. Au sens du comptage des hôtes et des domaines, ces machines ne sont pas prises en compte. Pour en savoir plus sur ce que les différents degrés d'appartenance à l'Internet: What is the Internet, Anyway ?
  • NIC: Network Information Center = bureaux d'enregistrement des noms de domaine et plages d'adresses IP correspondantes.
  • FAI: Fournisseur d'Accès à l'Internet
  • SRI: Stanford Research Institute.
  • TLD: Top Level Domain.
  • juridiction du RIPE: pays d'Europe auxquels s'ajoutent quelques autres pays des pourtours de la Méditéranée.
  • SOA: Start Of Authority. Indique le serveur de noms ayant autorité sur le domaine.
  • une proportion non négligeable: d'après le relevé Network Wizards de janvier 97, les taux sont de l'ordre de 30% dans COM, NET et ORG, et de l'ordre de 10% dans la plupart de domaines européens (6% pour la France). On note des taux supérieurs à 50% dans certains pays (Chine, Argentine, pays d'amérique centrale, etc...).
  • Firewall: système qui consiste à protéger un réseau contre les intrusions en cachant celui-ci derrière une machine qui en contrôle l'accès. Seule cette machine est visible de l'extérieur.
  • même série: il vaut mieux comparer des chiffres de Network Wizards avec d'autres chiffres de Network Wizards, ou des chiffres du RIPE avec d'autres du RIPE, en évitant de faire des croisements dans la mesure où les paramètres de collecte sont légèrement différents.
  • TLD à trois lettres: on appelle TLDs à 3 lettres les suffixes MIL, GOV, EDU, COM, ORG, NET. Les 3 premiers sont strictement réservés aux USA, mais les autres sont utilisables par quiconque, américain ou pas.
  • autres registres: il existe, en dehors d'InterNIC, une soixantaine de sous-registres qui ne requièrent pas d'être résident dans le pays, parmi lesquels figurent bon nombre de pays européens.
  • beaucoup le font: La relative popularité TLDs à 3 lettres gérés par l'InterNIC en regard des TLDs à deux lettres gérées par les NICs nationaux s'explique générallement par: les formalités simplifiées, le moindre coût (enregistrement et/ou abonnement), le choix d'une image internationale.
  • domaines français enregistrés sous .COM: en juillet 97, 9487 domaines français sous .COM contre 8073 sous .FR (http://www.nic.fr/Statistiques/auto/Com/com_bycountry.db et http://www.nic.fr/Statistiques/auto/Fr/dom_fr_92.db)
  • objets INETNUM: objets de base de données utilisés dans la gestion du routage (CIDR) qui répertorient quelques éléments relatifs à chaque espace d'adressage IP (inetnum), notamment le nom du réseau concerné (netname) et le pays auquel il est rattaché sur le plan juridique (country). (cf: ripe-181.txt).
  • au prorata des domaines enregistrés: Voir "Croissance, usage et utilisateurs de l'Internet" par Daniel Kaplan.
  • loin de là: quelques exemples extraits du relevé de Network Wizards de janvier 1997:
    • com: 5,4 hôtes/domaine (queried + missed)
    • net: 39,1 hôtes/domaine
    • org: 9,1 hôtes/domaine
    • fr : 35,9 hôtes/domaine
  • MoU de l'IAHC: projet de redistribution de l'enregistrement des domaines consistant entre autres à créer des nouveaux domaines internationaux en complément des actuels COM, NET et ORG. Pour en savoir plus: le site du gTLD MoU, le rapport AFTEL.
  • NuNames: nouveau registre de noms de domaines promu par le W3C, qui utilise le registre délégué de l'île de Niue (Pacifique Sud) comme une sorte de zone franche. Pour en savoir plus: NuNames FAQ.

 

 


Webmestre: Didier Lebrun - Mise à jour : 23 juillet 97