Артур Скальский

© Babr24.com

Интернет Мир

2365

17.05.2005, 12:57

Рунет перевалил за миллиард!

В ответ на вопросы специалистов об объемах "базы" интеллектуальной поисковой системы Nigma.ru, участники научного проекта Nigma.ru провели оценку суммарного объема русскоязычных документов в поисковых системах, с помощью которых в данный момент осуществляет поиск проект Nigma.ru, и получили следующий результат: по состоянию ня 16-е мая 2005 года в Интернете имеется примерно 1’052’227’229 русскоязычных документов.

Это вторая попытка группы посчитать размер Рунета — первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. "устойчивостью" — при изменении некоторых параметров, оценка количества документов не колебалась около т.н. "равновесного решения", а резко изменялась. Новый алгоритм лишен этого недостатка — он основывается на "закачивании" случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, о которой известен размер ее базы.

Первоначально, устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20-30% документов Рунета осталось непроиндексированными ни одной из поисковой машин, использующихся в проекте Nigma.ru.

Не совсем корректно называть полученное число как объем "базы" поисковой системы Nigma.ru, т.к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в Интернете.

Участники проекта надеются, что это исследование даст толчок многим поисковым системам и, в результате, российский Интернет будет проиндексирован еще лучше и глубже, чем он проиндексирован сейчас, что даст возможность пользователям Рунета искать и находить важную для них информацию гораздо быстрее и проще.

Артур Скальский

© Babr24.com

Интернет Мир

2365

17.05.2005, 12:57

URL: https://www.babr24.info/?ADE=21732

Bytes: 2019 / 2019

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Последние новости

11.09 18:58
В Северобайкальске открыли новый детсад на 280 детей

11.09 18:52
В Красноярске вынесут на слушания проект расширения офисного здания на Красрабе

11.09 18:43
Мэрия Красноярска требует снести недострой у Южного берега

11.09 18:35
Скоростное судно «Восходъ-1» запустили на маршруте Красноярск – Дивногорск

11.09 18:33
В Красноярске почти на месяц ограничат движение возле скандального Северного шоссе

11.09 18:30
Суд в Канске вынес приговор студентке, выбросившей тело младенца в мусор

11.09 17:16
Экс-инспекторов ДПС осудили в Иркутске за взятки

11.09 17:14
В Томске при слиянии двух медучреждений образовалась Городская клиническая больница №1

11.09 16:46
Томский комплекс по переработке отходов «Сибирь» 11 сентября начал свою работу

11.09 16:44
Визит-центр или кафе: каким будет новый объект за ₽84 миллиона на Николаевской сопке в Красноярске

Лица Сибири

Нестерович Геннадий

Полуэктов Михаил

Серов Борис

Пимашков Петр

Константинов Евгений

Тишанин Александр

Таевский Андрей

Неупокоев Петр

Козак Игорь

Тимофеев Максим