SEOSERVISE - Защита информации.

 
   
 

Главная


 


Этап 1: исследование Web - узла Исследование Web -узла начинается с его первой страницы и продолжается с уче­ том каждой найденной на ней ссылки. С математической точки зрения крауяииг ( crawling ) напоминает поиск в ширину на связном направленном графе. Краулер ( crawler ) — это программа, позволяющая автоматизировать данный процесс'. Ее мож­ но рассматривать как броузер, который способен "щелкать" на каждой ссылке теку­ щей страницы и перемещаться по всем страницам Web -узла. Краулер отправляет сер­веру HTTP -запрос GET , выполняет синтаксический анализ полученного в качестве от­вета кода HTML , извлекает из него все гиперссылки и рекурсивно выполняет те же действия по отношению к каждой найденной гиперссылке. Программы-краулеры могут быть достаточно сложными. Кроме простых переходов по гиперссылкам некоторые из них позволяют также создать на локальном жестком диске об­раз всего Web -узла, а затем извлечь из него различные элементы, такие, как комментарии, клиентские сценарии и тд. Подобные элементы рассматриваются в главе 7. Исследование узла вручную Если на Web -узле не содержится слишком много страниц, то для получения пе­ речня всех гиперссьшок можно воспользоваться обьганым броузером. По сравнению с применением краулера такой подход гораздо точнее. Один из главных недостатков ав­томатического исследования Web -узла состоит в том, что краулеры не могут интер­ претировать клиентские сценарии, например JavaScript , а также содержащиеся в них гиперссылки.

 

 

 

 

 

 
 

1 |2 |3 |4 |5 |6 |7 |8 |9 |10 |11 |12 |13 |14 |15 |16 |17 |18 |19 |20 |21 |22 |23 |24 |25 |26 |27 |28 |29 |30 |31 |32 |33 |34 |35 |36 |37 |38 |39 |40 |41 |42 |43 |44 |45 |46 |47 |48 |49 |50 |51 |52 |53 |54 |55 |56 |57 |58 |59 |60 |61 |62 |63 |64 |65 |66 |67 |68 |69 |70 |71 |72 |73 |74 |75 |76 |77 |78 |79 |80 |81 |82 |83 |84 |85 |86 |87 |88 |89 |90 |91 |92 |93 |94 |95 |96 |97 |98 |99 |100 |