Компания Google сообщила, что поисковик Google.com, с успехом, проиндексировал триллионную веб-страницу. Сам же поисковик начал ведение индекса с августа 1998 года, к концу которого в поисковике насчитывалось порядка 26 миллионов страниц. К 2000-ому году эта цифра подобралась к первому миллиарду индексов, что свидетельствует тому, как компания серьёзно занималась своим проектом. Один из разработчиков данной поисковой системы Ниссан Хаджай с гордостью рассказывает о её достоинствах и успехах: "C начала работы по индексированию, была поставлена задача, научить поискового робота запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя по сайтам и запоминая наполнение уже проиндексированных страниц.
Google.com может с уверенностью записать на свой счёт более триллиона обработанных страниц, к сожалению не все из них являются уникальными и автономными. Часто встречается повторение адресов и автокопии друг друга". Работники Google утверждают, что поисковику для того, чтобы избежать бесконтрольного накопления поискового индекса должен обладать не плохим ИИ и отличать автоматически генерируемые страницы от действительно оригинально и полезного пользовательского контента.Раньше в Google использовалась узловая система работы с веб-данными, таким образом один компьютер мог с лёгкостью вычислить граф информации для PageRank из 26 миллионов страниц за пару часов, и эта информация в свою очередь использовалась как индекса на протяжении указанного времени. Что касается Google.com этот временной промежуток всего лишь пара дней. На сегодняшний день пополнение веб-данных идёт ежесекундно, а благодаря распределенной системе вычисления данных и оперативному обновлению информации поисковый индекс ранжируется с самого начало несколько раз на протяжении суток. "Такой граф из триллионов страниц идёт в сравнение дорожной системой , которые триллионы раз пересекается друг с другом. Система соотношения "многие ко многим" даёт возможность максимально быстро изучать петабайты данных", - пишет Джесси Алперт.
