Đang tải dữ liệu...
Thiên đường website
Liên hệ
Chính sách
Khách hàng
Giới thiệu
Trang chủ
 
Dịch vụ
  • Thiết kế website
  • Hosting
  • Thiết kế đồ họa
  • SEO tăng thứ hạng
  • Nâng cấp website
  • Dịch vụ nhập liệu
  • Website cho điện thoại
  • Tích hợp thanh toán trực tuyến
  • Dịch vụ google cloud, ec2 cloud
  • SEO tools
  • Đọc tin Rss
Kiến thức cho bạn
  • Trao đổi - học tập
    • Jquery (2)
    • NoSQL (4)
    • NodeJs (1)
    • Lập trình iOS (3)
    • Thủ thuật - kinh nghiệm (33)
    • Lập trình website (63)
    • Tối ưu hóa (11)
    • Mã nguồn (20)
    • SEO (35)
    • Bảo mật (9)
    • htaccess (5)
    • Ebook - tài liệu (4)
    • WYSIWYG (3)
    • Phần mềm (11)
    • Photoshop (5)
  • Thư giản - giải trí
    • Sáng tạo (5)
    • Địa điểm vui chơi (5)
    • Quà tặng (2)
    • Truyện -hình vui (9)
    • Video clip (9)
    • Game (3)
Hỗ trợ trực tuyến
Kỹ thuật : 098 7277 329
vfa.hoangnn - Mr. Hoàng
Tư vấn : 090 282 4547
vfa.hoangnn - Mr. Hoàng
Đối tác
New day TravalReview CompanyMua sắm cả ngày


Mỹ phẩm The Face Shop
Mã giảm giá - Code khuyến mãi
Ốp lưng, Bao da Đẹp
Giá vàng, giá USD
Ốp lưng tự thiết kế
Jun
27

Web crawler - web spider - web robot - googlebot

22:02 pm GMT +7 Hanoi |
Trang chủ ›
Trao đổi - học tập ›
SEO

Thêm vào trang Google +

Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó.

Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email.
Để đánh chỉ số các tài nguyên Web, mỗi robot sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung tâm. Sau đó, mỗi trang đã duyệt sẽ được ghi nhớ lại và gán cho tần số đánh lại chỉ số dựa vào mức độ cập nhật thường xuyên hay không của trang.

Để điểu chỉnh ứng xử các robots, một tệp tin ngoại trừ (robots.txt) sẽ được đặt tại thư mục gốc của trang Web để chỉ định cho robots một danh sách những tài nguyên không được tiếp cận. Tệp tin robots.txt này còn đưa ra danh sách những bọ tìm kiếm nào được quyền đánh chỉ số trang Web. Qui tắc này cho phép giảm tải trên máy chủ và tránh đánh chỉ số những tài liệu không cần thiết hoặc nhạy cảm. Tuy nhiên có nhiều bọ tìm kiếm không tôn trọng chỉ định này, và hoàn toàn bỏ qua tệp tin ngoại trừ (robots.txt).

Một số bọ tìm kiếm phổ biến của các máy tìm kiếm :
- Googlebot của Google
- MSNBot của MSN
- Slurp của Yahoo
- Scooter của Alta Vista
- Baidu của Baidu

Thêm vào trang Google +
Số lần xem : 3979
Đánh giá
Facebook

Bài viết liên quan
  • 09/12/2014 09:27 Dublin Core là gì ?
  • 08/12/2014 10:56 Landing Page là gì ?
  • 24/07/2012 10:10 Cách sử dụng các thẻ h1-h6 đúng trong seo
  • 08/06/2012 11:21 Chủ quyền bài viết với Google
  • 14/05/2012 11:48 Link juice là gì?
Bài viết mới hơn

<< Trang trước


Thienduongweb.com - Thiết kế website, tạo gian hàng miễn phí
Địa chỉ trụ sở chính: 241/45 Tân Hòa Đông, F14, Quận 6, TP.HCM
Email: info@thienduong.com
Điện thoại: 098 7277329