Тема: Робота з пошуковими системами
Теоретичні відомості
Пошукова
система — онлайн-служба, яка надає
можливість пошуку інформації на сайтах в Інтернеті, а також (можливо) у групах
обговорення та ftp-серверах. Індексація в пошукових системах сайтів
здійснюється пошуковим роботом.
Основними критеріями якості роботи пошукової системи є
релевантність, повнота бази, врахування морфології мови.
Популярні
пошукові системи
- Англомовні і міжнародні
- A9
- AskJeeves
- FileByType
- Google
- MSN
- Yahoo! і пошукові системи, що належать цій
компанії:
- Overture
- Inktomi
- AltaVista
- Alltheweb FAST-Engine
- Естонські
- www.ee
- neti.ee
- Німецькі
- Wseeker.com
- Abacho.de
- de.Ez2find.com
- Російські
- Aport
- Mail.Ru
- Rambler
- Яндекс
- nigma.ru
- Українські
- META (meta)
- Французькі
- fr.Ez2Find.com
- Francite
- Locace
- Nomade
Спеціалізовані
пошукові системи
- Пошук файлів
- Filesearch.ru
- GlobalFileSearch
- Пошук наукової інформації
- Scirus
- Google Scholar
- Пошук освітньої інформації
- ReSearch
Дивіться
також
Українські пошукові системи http://lucl.lucl.kiev.ua/start/poshuk_ukr.html
Nigma http://nigma.ru/
Про пошукову систему Nigma http://nigma.ru/index_menu.php?action=click_menu&menu_element =description
Українські пошукові системи http://lucl.lucl.kiev.ua/start/poshuk_ukr.html
Nigma http://nigma.ru/
Про пошукову систему Nigma http://nigma.ru/index_menu.php?action=click_menu&menu_element =description
Google (Рис.1) - лідер пошукових машин Інтернет.
Наразі Гугл щоденно реєструє близько 50 млн. пошукових запитів та індексує
більше 8 мільярдів веб-сторінок. Google може знаходити інформацію 101 мовою.
Google наприкінці серпня 2004 року складалась з 132 тис. машин, розташованих в
різних точках планети. Інтерфейс Google містить досить складну мову запитів, що
дозволяє обмежити область пошуку окремими доменами, мовами, типами файлів тощо.
Наприклад, пошук «intitle:Google site:wikipedia.org» видасть всі статті
Вікіпедії всіма мовами, в заголовку яких зустрічається слово «Google».
Рис.1.
Дивіться
також
Google Матеріал з Вікіпедії — вільної
енциклопедії http://uk.wikipedia.org/wiki/Google
Сайт Google українською мовою http://www.google.com.ua/
Неофіційний блог Google українською http://googleholic.kiev.ua/
Google Матеріал з Вікіпедії — вільної енциклопедії http://ru.wikipedia.org/wiki/Google
Офіційний сайт http://www.google.com/
Блог Google на російській мові http://googlerussiablog.blogspot.com/
Про компанію http://www.google.ru/intl/ru/corporate/index.html
Інтерактивна часова шкала історії Google http://www.google.ru/intl/ru/corporate/index.html
Архітектура Google http://www.insight-it.ru/net/scalability/arkhitektura-google/
Сайт Google українською мовою http://www.google.com.ua/
Неофіційний блог Google українською http://googleholic.kiev.ua/
Google Матеріал з Вікіпедії — вільної енциклопедії http://ru.wikipedia.org/wiki/Google
Офіційний сайт http://www.google.com/
Блог Google на російській мові http://googlerussiablog.blogspot.com/
Про компанію http://www.google.ru/intl/ru/corporate/index.html
Інтерактивна часова шкала історії Google http://www.google.ru/intl/ru/corporate/index.html
Архітектура Google http://www.insight-it.ru/net/scalability/arkhitektura-google/
Яndex (Рис. 2.) — найбільша та найвідоміша російська
пошукова система. За статистикою, кількість відвідувачів головної сторінки, у
день складає біля 4—5 млн. Назва походить від англ. index (yandex —
yet another indexer (рос. «еще один индексатор» або «Языковой
идекс»). Сайт компанії почав прюцювати восени 1997 року. Відмінністю
Яндекса можна вважати алгоритм його пошуку — він сконструйований на
морфологічній системі російської мови. Крім стандартних файлів HTML шукає також у
файлах формату PDF (Adobe Acrobat), RTF (Rich Text Format), DOC (Microsoft
Word), XLS (Microsoft Excel), PPT (Microsoft Power Point), SWF (Macromedia
Flash), а також індексує формат RSS.
Дивіться
також
Яндекс http://yandex.ua/
Сервіси Яндексу http://yandex.ua/all_services.html
Компанія Яндекс http://company.yandex.ru/
Походження слова „Яндекс” http://company.yandex.ru/about/slovo_yandex.xml
Яндекс http://yandex.ua/
Сервіси Яндексу http://yandex.ua/all_services.html
Компанія Яндекс http://company.yandex.ru/
Походження слова „Яндекс” http://company.yandex.ru/about/slovo_yandex.xml
Рис. 2.
Рамблер (Рис. 3)
Всі пошукові системи Інтернету, і Рамблер в тому числі, складаються з трьох базових компонентів:
Всі пошукові системи Інтернету, і Рамблер в тому числі, складаються з трьох базових компонентів:
- Веб-павук (web spider);
- Індексатор;
- Пошукова машина
Web spider являє собою програму, що обходить сторінки
із заданими URL, завантажує їх у базу даних, а потім архівує і перекладає в
сховище один раз на добу. Робот розміщується на декількох машинах, кожна з яких
виконує своє завдання. Так, робот на одній машині може качати нові сторінки,
які ще не відомі пошуковій системі, а на іншій - сторінки, які були завантажені
не менше місяця, але й не більше року тому. При цьому всі машини використовують
одне й те саме сховище.
При необхідності, роботу можна розподілити іншим способом: наприклад, розбивши список URL на N частин і роздавши їх N машинам. Паралельна робота веб-павука на декількох машинах дозволяє легко витримувати додаткове навантаження: при збільшенні кількості сторінок, які потрібно обійти роботу, достатньо просто розподілити завдання на більшу кількість машин. Дані, які збирає web spider, розміщуються в індексної базі.
Індексатор - це програма, яка займається обробкою сторінок, завантажених за допомогою веб-павука. Її завдання - "прочитати" всі документи, витягти з них слова і розмістити їх в спеціальну базу даних - індекс. Інформація, що знаходиться у сховищі в стислому вигляді, поділяється на кілька частин. Ці частини поступово розподіляються між машинами, на яких запущено програму-індексатор. Як тільки індексатор на одній з машин закінчує обробку чергової частини сторінок, він звертається за наступною порцією. У результаті на першому етапі формується багато маленьких індексних баз, кожна з яких містить інформацію про деякої частини Інтернету, а вся обробка даних здійснюється паралельно, тому прискорення процесу індексації досягається за допомогою додавання машин в систему.
Після того, як вся інформація оброблена, починається об'єднання (злиття) результатів, а також розміщення заміток: звідки узятий той чи інший документ. Завдяки тому, що часткові індексні бази і основна база, до якої звертається Пошукова машина, мають однаковий формат, процедура злиття є простою та швидкою операцією, що не вимагає жодних додаткових модифікацій часткових індексів. Основна база бере участь в аналізі як одна з частин нового індексу. Так, якщо об'єднуються N нових частин, то в аналізі бере участь N +1 фрагмент (N нових + основна база попередньої редакції). Крім того, єдиний формат дозволяє проводити тестування часткових баз ще до об'єднання їх з основною і виявляти помилки на більш ранньому етапі.
Спеціальна програма складає таблиці перенумераціі документів бази та об'єднує вміст всіх частин. Серед сторінок з однаковими адресами вибирається найбільш свіжа версія, якщо при завантаженні веб-адрес (URL) останньою інформацією була помилка 404 (запитувана сторінка не існує), вона тимчасово видаляється з індексної бази. Паралельно здійснюється склейка дублів: сторінки, які мають однаковий зміст, але різні URL, об'єднуються в один документ.
Збирання єдиної бази з часткових індексних баз являє собою простий і швидкий процес. Зіставлення сторінок не вимагає ніякої інтелектуальної обробки і відбувається зі швидкістю читання даних з диска. Якщо інформації, яка генерується на машинах-індексаторах, виходить занадто багато, то процедура "зливання" частин проходить у декілька етапів. Спочатку часткові індекси об'єднуються в декілька проміжних баз, а потім проміжні бази перетинаються з основною базою попередньої редакції. Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатися в інші проміжні бази, а вже потім об'єднуватися остаточно. Поетапна робота незначно уповільнює формування єдиного індексу і не відбивається на якості результатів.
Пошукова машина - забезпечує точність і коректність обробки даних. Від її особливостей залежить, наскільки швидко і точно користувач знайде те, що його цікавить. Коли користувач вводить свій запит, пошукова машина шукає відповідь у своїй індексної базі і виводить результати у відповідності зі своїм алгоритмом пошуку.
При необхідності, роботу можна розподілити іншим способом: наприклад, розбивши список URL на N частин і роздавши їх N машинам. Паралельна робота веб-павука на декількох машинах дозволяє легко витримувати додаткове навантаження: при збільшенні кількості сторінок, які потрібно обійти роботу, достатньо просто розподілити завдання на більшу кількість машин. Дані, які збирає web spider, розміщуються в індексної базі.
Індексатор - це програма, яка займається обробкою сторінок, завантажених за допомогою веб-павука. Її завдання - "прочитати" всі документи, витягти з них слова і розмістити їх в спеціальну базу даних - індекс. Інформація, що знаходиться у сховищі в стислому вигляді, поділяється на кілька частин. Ці частини поступово розподіляються між машинами, на яких запущено програму-індексатор. Як тільки індексатор на одній з машин закінчує обробку чергової частини сторінок, він звертається за наступною порцією. У результаті на першому етапі формується багато маленьких індексних баз, кожна з яких містить інформацію про деякої частини Інтернету, а вся обробка даних здійснюється паралельно, тому прискорення процесу індексації досягається за допомогою додавання машин в систему.
Після того, як вся інформація оброблена, починається об'єднання (злиття) результатів, а також розміщення заміток: звідки узятий той чи інший документ. Завдяки тому, що часткові індексні бази і основна база, до якої звертається Пошукова машина, мають однаковий формат, процедура злиття є простою та швидкою операцією, що не вимагає жодних додаткових модифікацій часткових індексів. Основна база бере участь в аналізі як одна з частин нового індексу. Так, якщо об'єднуються N нових частин, то в аналізі бере участь N +1 фрагмент (N нових + основна база попередньої редакції). Крім того, єдиний формат дозволяє проводити тестування часткових баз ще до об'єднання їх з основною і виявляти помилки на більш ранньому етапі.
Спеціальна програма складає таблиці перенумераціі документів бази та об'єднує вміст всіх частин. Серед сторінок з однаковими адресами вибирається найбільш свіжа версія, якщо при завантаженні веб-адрес (URL) останньою інформацією була помилка 404 (запитувана сторінка не існує), вона тимчасово видаляється з індексної бази. Паралельно здійснюється склейка дублів: сторінки, які мають однаковий зміст, але різні URL, об'єднуються в один документ.
Збирання єдиної бази з часткових індексних баз являє собою простий і швидкий процес. Зіставлення сторінок не вимагає ніякої інтелектуальної обробки і відбувається зі швидкістю читання даних з диска. Якщо інформації, яка генерується на машинах-індексаторах, виходить занадто багато, то процедура "зливання" частин проходить у декілька етапів. Спочатку часткові індекси об'єднуються в декілька проміжних баз, а потім проміжні бази перетинаються з основною базою попередньої редакції. Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатися в інші проміжні бази, а вже потім об'єднуватися остаточно. Поетапна робота незначно уповільнює формування єдиного індексу і не відбивається на якості результатів.
Пошукова машина - забезпечує точність і коректність обробки даних. Від її особливостей залежить, наскільки швидко і точно користувач знайде те, що його цікавить. Коли користувач вводить свій запит, пошукова машина шукає відповідь у своїй індексної базі і виводить результати у відповідності зі своїм алгоритмом пошуку.
Рис. 3.
Дивіться
також
Рамблер http://rambler.ru/
Общие сведения о работе поисковой системы Рамблер http://help.rambler.ru/article.html?s=151&id=521
Рамблер http://rambler.ru/
Общие сведения о работе поисковой системы Рамблер http://help.rambler.ru/article.html?s=151&id=521
META — український пошуковий портал. Використовує
пошукову систему власної розробки з українською, російською та англійською мовами
пошуку. Зона пошуку — українські та дотичні до України сайти, а саме :
сайти в домені UA та під доменах (com.ua kiev.ua тощо); українська мова сайту;
хостинг на IP українських провайдерів; основна тематика сайту (будь-якою мовою)
дотична до України.
Рис.4.
Дивіться
також
META Матеріал з Вікіпедії — вільної енциклопедії http://uk.wikipedia.org/wiki/META
META http://meta.ua/
META Матеріал з Вікіпедії — вільної енциклопедії http://uk.wikipedia.org/wiki/META
META http://meta.ua/
Немає коментарів:
Дописати коментар