- Thuật toán này chỉ định giá trị nhất định cho mỗi thành phần của một tập hợp các văn bản liên kết với nhau, ví dụ như World Wide Web.
- Mục đích “đo” tầm quan trọng tương đối của các liên kết trong tập hợp đó.
- Áp dụng cho bất kỳ tập hợp văn bản nào có trích dẫn đối ứng và liên kết cụ thể.
- giá trị (weight) mà nó gán cho bất kỳ thành phần E được gọi là PageRank của E và ký hiệu l
Giá trị Pagerank hình thành từ thuật toán toán học dựa trên webgraph: các trang world wide web được coi như các đỉnh và các đường link là các cạnh. Khi hình thành webgraph người ta có tính đến những trang của các cơ quan có thẩm quyền như cnn.com hay usa.gov. Giá trị xếp hạng cho thấy tầm quan trọng của từng trang cụ thể. Mỗi đường link tới trang web sẽ được tính như 1 sự hỗ trợ làm tăng thêm giá trị Pagerank. Giá trị Pagerank của trang được định nghĩa đệ quy và phụ thuộc vào số lượng và giá trị của các trang mà có link dẫn đến trang đó (incoming links). Một trang web có chứa nhiều link liên kết từ các trang web có giá trị PageRank cao thì giá trị PageRank của trang đó cũng sẽ cao. Có rất nhiều bài viết đã được xuất bản ra công chúng dựa trên nghiên cứu gốc của Page và Brin. Trên thực tế khái niệm PageRank rất khó để thao tác. Đã có nhiều nghiên cứu tiến hành xác định những ảnh hưởng sai tới PageRank ranking. Mục đích là tìm một cách loại bỏ hiệu quả những link từ các văn bản với những ảnh hưởng sai tới PageRank.
Thuật toán ::
Pagerank là phân bố xác suất, được sử dụng để thể hiện khả năng khi một người click chuột ngẫu nhiên vào đường link và sẽ tới đc trang web cụ thể. Pagerank có thể được tính cho các tập văn bản với tài liệu có độ dài bất kỳ. Khi bắt đầu tính toán thì sự phân bổ đó được chia đều cho tất cả những văn bản trong tập văn bản. Các tính toán Pagerank cần một số lần “lặp đi lặp lại” qua các văn bản trong tập để có thể đạt được giá trị thực tế một cách thiết thực hơn. Xác suất có giá trị từ 0 đến 1. Với giá trị 0.5, thường được hiểu là “50% cơ hội” của một việc gì đó có thê xảy ra. Trong Pagerank, 0.5 có nghĩa là 50% cơ hội một người nào đó click vào một link ngẫu nhiên để được chuyển đến văn bản đó (giá trị pagerank = 0.5).
Giả sử một nhóm gồm 4 trang web: A,B,C,D,. những link từ một trang đến chính nó không được tính, mỗi trang web có 1 đường dẫn duy nhất đến 1 trang web khác. Giá trị Pagerank của các trang ban đầu được cho là bằng nhau. Tổng giá trị Pagerank trên tất cả các trang là tổng số trang web tại thời điểm đó, do đó mỗi trang trong ví dụ này sẽ có một pagerank ban đầu tương đương với 1. Tuy nhiên trong phần còn lại và các ví dụ của bài này sẽ có giá trị tương đối từ 0 đến 1. Do đó giá trị ban đầu cho mỗi trang là 0.25. Pagerank chuyển từ một trang đến các trang khác bằng các đường link, trong những bước tính tiếp theo giá trị sẽ được chia đều cho tất cả các liên kết đi. Nếu các liên kết duy nhất trong hệ thống từ các trang B, C và D tới A,, mỗi liên kết sẽ chuyển giá trị bằng 0.25 Pagerank A khi tính trong lần tiếp theo, tổng cộng là 0,75.
,
