17.05.2005 По состоянию на 16 мая в интернете имеется примерно 1 млрд 52 млн русскоязычных документов
Участники проекта Nigma.ru провели оценку суммарного объема Рунета и получили следующий результат: по состоянию на 16 мая в интернете имеется примерно 1 млрд 52 млн русскоязычных документов. Это вторая попытка группы посчитать размер Рунета. Первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал устойчивостью - при изменении некоторых параметров оценка количества документов не колебалась около "равновесного решения", а резко изменялась. Новый алгоритм лишен этого недостатка — он основывается на "закачивании" случайных запросов, созданных на базе частотного словаря, сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, о которой известен размер ее базы. Первоначально устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20–30% документов Рунета осталось непроиндексированными ни одной из поисковой машин, использующихся в проекте Nigma.ru. Не совсем корректно называть полученное число как объем "базы" поисковой системы Nigma.ru, т.к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в интернете. |