Caffeine - нова система індексування веб-сайтів від Google

Завершено роботу над новою системою індексування веб-сайтів - Caffeine. Caffeine на 50% «свіжіше» попереднього індексу і є найбільшою колекцією веб-сторінок за історію існування Google.
Керрі Грим, розробник Google, про причини розробки нової системи індексування:
Кілька слів для тих, хто не так добре знається на пошукових технологіях. Коли ви шукаєте інформацію в Google, ви не працюєте з «живою» мережею. Пошук здійснюється за індексом мережі, створеному Google. Цей індекс дуже схожий на предметний покажчик наприкінці книги, що допомагає вам знайти потрібну інформацію.
Навіщо нам знадобилося створювати нову систему індексації? З двох причин. 

По-перше, кількість інформації в мережі зростає, а формати її подання стають все більш різноманітними. На сучасному сайті ви знайдете відеоролики, зображення, новини та оновлення в реальному часі. Сторінки стали більш насиченими і складнішими за структурою. По-друге, люди очікують набагато більшого від пошуку. Користувачів цікавить найсвіжіша інформація за темою, а видавці хочуть, щоб їхня аудиторія могла знайти матеріал відразу ж після публікації.
Щоб не відставати від стрімкого розвитку мережі і задовольняти зростаючим очікуванням користувачів, ми і створили систему Caffeine.
У нашому старому індексі було декілька шарів, деякі з яких оновлювалися регулярніше, ніж інші. Велика частина індексу оновлювалася кожні два тижні. Щоб оновити шар індексу, нам потрібно було проаналізувати всю мережу, що спричиняло затримку між моментом знаходження сторінки і тим, коли вона ставала доступною користувачу.
Caffeine, у свою чергу, дозволяє нам аналізувати інформацію в Інтернеті «частинами» і безперервно оновлювати наш пошуковий індекс. Це означає, що результати пошуку будуть відображати максимально свіжу інформацію, незалежно від часу і місця публікації.
Кожну секунду система обробляє сотні тисяч сторінок. Якщо б ми уявили собі, що ці сторінки паперові, гора з них зростала б зі швидкістю близько 5 км на секунду. У базі даних Caffeine міститься близько 100 млн. гігабайт даних, а нова інформація додається зі швидкістю кілька сотень тисяч гігабайт на день. Щоб зберегти такий масив інформації, вам би знадобилося 625 тисяч iPod-ів з найбільшим обсягом пам'яті.
При створенні Caffeine ми орієнтувалися на майбутнє Інтернету. Ця система є чудовою основою для побудови інших, більш швидких і об'ємних індексів, оскільки вона здатна краще адаптуватися до розвитку мережі.


За матеріалами Офіційний блог Google Україна

No Response to "Caffeine - нова система індексування веб-сайтів від Google"

Дописати коментар