# PageRank
Dans ce notebook, vous approfondirez vos connaissances des vecteurs propres et des valeurs propres en explorant l'algorithme PageRank.

Le notebook est divisé en deux parties : la première est une feuille de travail pour vous familiariser avec le fonctionnement de l'algorithme - ici, nous examinerons un micro-internet avec moins de 10 sites Web et verrons ce qu'il fait et ce qui peut mal se passer.

La deuxième est une évaluation qui testera votre application de la théorie des valeurs propres à ce problème et en calculant le PageRank d'un grand réseau représentant une sous-section de l'internet

## Partie 1
### Introduction

PageRank (développé par Larry Page et Sergey Brin) a révolutionné la recherche sur le Web en générant une liste classée de pages Web basée sur la connectivité sous-jacente du Web. L'algorithme PageRank est basé sur un surfeur Web idéal qui, lorsqu'il atteint une page, se rend sur la page suivante en cliquant sur un lien. Le surfeur a la même probabilité de cliquer sur n'importe quel lien de la page et, lorsqu'il atteint une page sans lien, a la même probabilité de se rendre sur n'importe quelle autre page en tapant son URL. De plus, le surfeur peut occasionnellement choisir de taper une URL aléatoire au lieu de suivre les liens d'une page. 

Le PageRank est l'ordre classé des pages, de la page la plus probable à la moins probable que le surfeur visualisera.

In [None]:
# Chargement des bibliothèques nécessaires
%matplotlib notebook
import numpy as np
import numpy.linalg as la

# Génération d'un graph
def generate_internet(n) :
    c = np.full([n,n], np.arange(n))
    c = (abs(np.random.standard_cauchy([n,n])/2) > (np.abs(c - c.T) + 1)) + 0
    c = (c+1e-10) / np.sum((c+1e-10), axis=0)
    return c
    
np.set_printoptions(suppress=True)

### PageRank en tant que problème d'algèbre linéaire
Imaginons un micro-internet, avec seulement 6 sites Web (**A**, **B**, **C**, **D**, **e** et **F**).

Chaque site Web est lié à certains des autres, ce qui forme un réseau comme indiqué,

![Image du micro-internet](./dOXTNcTHBZIsmBeE.png)

Le principe de conception de PageRank est que les sites Web importants seront liés par des sites Web importants.

Ce principe quelque peu récursif formera la base de notre réflexion.

Imaginez que nous avons 100 *utilisateurs* sur notre micro-internet, chacun visualisant un seul site Web à la fois.

Chaque minute, les utilisateurs suivent un lien sur leur site Web vers un autre site sur le micro-internet.

Après un certain temps, les sites Web qui sont les plus liés auront plus de utilisateurs qui les visitent, et à long terme, pour chaque utilisateur qui quitte un site Web, un autre entrera, gardant le nombre total de utilisateurs sur chaque site Web constant.

Le PageRank est simplement le classement des sites Web en fonction du nombre de utilisateurs qu'ils ont sur eux à la fin de ce processus.

Nous représentons le nombre de utilisateurs sur chaque site Web avec le vecteur,
$$\mathbf{r} = \begin{bmatrix} r_A \\ r_B \\ r_C \\ r_D \\ r_E \\ r_F \end{bmatrix}$$

Et disons que le nombre de utilisateurs sur chaque site Web à la minute $i+1$ est lié à ceux à la minute $i$ par la transformation matricielle

$$ \mathbf{r}^{(i+1)} = L \,\mathbf{r}^{(i)}$$
avec la matrice $L$ de la forme suivante,
$$ L = \begin{bmatrix}
L_{A→A} & L_{B→A} & L_{C→A} & L_{D→A} & L_{E→A} & L_{F→A} \\
L_{A→B} & L_{B→B} & L_{C→B} & L_{D→B} & L_{E→B} & L_{F→B} \\
L_{A→C} & L_{B→C} & L_{C→C} & L_{D→C} & L_{E→C} & L_{F→C} \\
L_{A→D} & L_{B→D} & L_{C→D} & L_{D→D} & L_{E→D} & L_{F→D} \\
L_{A→E} & L_{B→E} & L_{C→E} & L_{D→E} & L_{E→E} & L_{F→E} \\
L_{A→F} & L_{B→F} & L_{C→F} & L_{D→F} & L_{E→F} & L_{F→F} \\
\end{bmatrix}
$$

où les colonnes représentent la probabilité de quitter un site Web pour n'importe quel autre site Web et somment à un.

Les lignes déterminent la probabilité que vous avez d'entrer sur un site Web à partir de n'importe quel autre, bien que celles-ci n'aient pas besoin de s'additionner à un.

Le comportement à long terme de ce système est donné par $ \mathbf{r}^{(i+1)} = \mathbf{r}^{(i)}$. En supprimant les exposants nous pouvons écrire,
$$ L \,\mathbf{r} = \mathbf{r}$$

qui est une équation de valeur propre pour la matrice $L$, avec la valeur propre 1 (ceci est garanti par la structure probabiliste de la matrice $L$).

Complétez la matrice $L$ ci-dessous.

N'oubliez pas que c'est la probabilité de cliquer sur un autre site Web à partir de celui-ci, donc chaque colonne doit s'additionner à un (en mettant à l'échelle par le nombre de liens).

In [15]:
# Rempalcer les ??? par la probabilité de cliquer sur un lien pour chaque site.
L = np.array([[???, ???, ???, ???, ???, ???],
              [???, ???, ???, ???, ???, ???],
              [???, ???, ???, ???, ???, ???],
              [???, ???, ???, ???, ???, ???],
              [???, ???, ???, ???, ???, ???],
              [???, ???, ???, ???, ???, ???]])

SyntaxError: invalid syntax (1927761544.py, line 2)

En principe, nous pourrions utiliser une bibliothèque d'algèbre linéaire, comme ci-dessous, pour calculer les valeurs propres et les vecteurs.

Et cela fonctionnerait pour un petit système. Mais cela devient ingérable pour les grands systèmes.

Et puisque nous ne nous soucions que du vecteur propre principal (celui avec la plus grande valeur propre, qui sera 1 dans ce cas), nous pouvons utiliser la *méthode de la puissance itérée* qui évoluera mieux et sera plus rapide pour les grands systèmes.

Utilisez le code ci-dessous pour jeter un œil au PageRank de ce micro-internet.

In [None]:
eVals, eVecs = la.eig(L) # Gets the eigenvalues and vectors
order = np.absolute(eVals).argsort()[::-1] # Orders them by their eigenvalues
eVals = eVals[order]
eVecs = eVecs[:,order]

r = eVecs[:, 0] # Sets r to be the principal eigenvector
100 * np.real(r / np.sum(r)) # Make this eigenvector sum to one, then multiply by 100 Utilisateurs  

Nous pouvons voir à partir de cette liste, le nombre de utilisations Procrastinateurs que nous nous attendons à trouver sur chaque site Web après un long temps.

En les mettant dans l'ordre de *popularité* (basé sur cette métrique), le PageRank de ce micro-internet est :

**C**, **D**, **A**, **F**, **B**, **E**

En se référant au diagramme du micro-internet, est-ce ce à quoi vous vous attendiez ?

Convaincez-vous que, en fonction des pages qui semblent importantes compte tenu des autres qui y sont liées, il s'agit d'un classement raisonnable.

Essayons maintenant d'obtenir le même résultat en utilisant la méthode de la puissance itérée qui a été abordée dans le cours.

Cette méthode sera beaucoup meilleure pour gérer les grands systèmes.

Tout d'abord, définissons notre vecteur initial, $\mathbf{r}^{(0)}$, afin que nous ayons les 100 utilisateurs répartis uniformément sur chacun des 6 sites Web.

In [None]:
r = 100 * np.ones(6) / 6 # Répartition uniforme des utilisateurs
r # Affiche la valeur de r

Ensuite, mettons à jour le vecteur à la minute suivante, avec la matrice $L$.
Exécutez la cellule suivante plusieurs fois, jusqu'à ce que la réponse se stabilise.

In [None]:
r = L @ r # Multiplication de la r par la matrice d'itération
r # Affiche la valeur de r
# Rexécuter cette fonction plusieurs fois

Nous pouvons automatiser l'application de cette matrice plusieurs fois comme suit,

In [25]:
r = 100 * np.ones(6) / 6 # Vecteur initial
for i in np.arange(100) : # Répéter 100 fois
    r = L @ r
r

array([ 16.        ,   5.33333333,  40.        ,  25.33333333,
         0.        ,  13.33333333])

Ou mieux encore, nous pouvons continuer à exécuter jusqu'à ce que nous atteignions la tolérance requise.

In [26]:
r = 100 * np.ones(6) / 6 # Sets up this vector (6 entries of 1/6 × 100 each)
lastR = r
r = L @ r
i = 0
while la.norm(lastR - r) > 0.01 :
    lastR = r
    r = L @ r
    i += 1
print(str(i) + " iterations pour converger.")
r

18 iterations to convergence.


array([ 16.00149917,   5.33252025,  39.99916911,  25.3324738 ,
         0.        ,  13.33433767])

### Paramètre d'amortissement

Le système que nous venons d'étudier a convergé assez rapidement vers la bonne réponse.

Considérons une extension de notre micro-internet où les choses commencent à mal tourner.
Disons qu'un nouveau site Web est ajouté au micro-internet : le site Web de *G*.

Ce site Web est lié par *G* et ne relie que lui-même.

![Image du micro-internet](./fNyblyvXfGKKIQeZ.png)

Intuitivement, seul *G*, qui se trouve dans la moitié inférieure du classement des pages, est lié à ce site Web parmi les deux autres auxquels il est lié, nous pouvons donc nous attendre à ce que le site de *G* ait un score PageRank correspondant faible.

Construisez la nouvelle matrice $L$ pour le micro-internet étendu et utilisez Power-Iteration sur le vecteur utilisations Procrastinateurs.

Voyez ce qui se passe...

In [27]:
 # We'll call this one L2, to distinguish it from the previous L.
L2 = np.array([[0,   1/2, 1/3, 0, 0,   0,   0 ],
               [1/3, 0,   0,   0, 1/2, 0,   0 ],
               [1/3, 1/2, 0,   1, 0,   1/3, 0 ],
               [1/3, 0,   1/3, 0, 1/2, 1/3, 0 ],
               [0,   0,   0,   0, 0,   0,   0 ],
               [0,   0,   1/3, 0, 0,   0,   0 ],
               [0,   0,   0,   0, 0,   1/3, 1 ]])

In [28]:
r = 100 * np.ones(7) / 7 #
lastR = r
r = L2 @ r
i = 0
while la.norm(lastR - r) > 0.01 :
    lastR = r
    r = L2 @ r
    i += 1
print(str(i) + " iterations pour converger.")
r

131 iterations to convergence.


array([  0.03046998,   0.01064323,   0.07126612,   0.04423198,
         0.        ,   0.02489342,  99.81849527])

Ce n'est pas bon ! *G* semble prendre tout le trafic sur le micro-internet et, d'une manière ou d'une autre, arrive en tête du PageRank.

Ce comportement peut être compris, car une fois qu'un utilisateur arrive sur le site Web de *G*, il ne peut pas partir, car tous les liens retournent vers G.

Pour lutter contre cela, nous pouvons ajouter une petite probabilité que les utilisations ne suivent aucun lien sur une page Web, mais visitent plutôt un site Web sur le micro-internet au hasard.

Nous dirons que la probabilité qu'ils suivent un lien est $d$ et la probabilité de choisir un site Web aléatoire est donc $1-d$.

Nous pouvons utiliser une nouvelle matrice pour déterminer où les utilisations visitent chaque minute.

$$ M = d \, L + \frac{1-d}{n} \, J $$
où $J$ est une matrice $n\times n$ où chaque élément est un.

Si $d$ est égal à un, nous avons le cas que nous avions précédemment, alors que si $d$ est égal à zéro, nous visiterons toujours une page Web aléatoire et par conséquent toutes les pages Web seront également probables et également classées.

Pour que cette extension fonctionne au mieux, $1-d$ doit être quelque peu petit - bien que nous n'entrerons pas dans une discussion sur la taille exacte.

Réessayons ce PageRank avec cette extension.


In [29]:
d = 0.5 # Vous pouvez tester différentes valeurs pour ce paramètre
M = d * L2 + (1-d)/7 * np.ones([7, 7]) # np.ones() est la matrice contenant uniquement des 1.

In [30]:
r = 100 * np.ones(7) / 7 # Sets up this vector (6 entries of 1/6 × 100 each)
lastR = r
r = M @ r
i = 0
while la.norm(lastR - r) > 0.01 :
    lastR = r
    r = M @ r
    i += 1
print(str(i) + " iterations to convergence.")
r

8 iterations to convergence.


array([ 13.68217054,  11.20902965,  22.41964343,  16.7593433 ,
         7.14285714,  10.87976354,  17.90719239])

C'est certainement mieux, le PageRank donne des nombres raisonnables pour les utilisations Procrastinateurs qui finissent sur chaque page Web.

Cependant, cette méthode prédit toujours que G a une page Web de haut rang.

Cela pourrait être considéré comme une conséquence de l'utilisation d'un petit réseau. Nous pourrions également contourner le problème en ne comptant pas les auto-liens lors de la production de la matrice L (et si un site Web n'a pas de liens sortants, faites-le lier à tous les sites Web de manière égale).

Nous n'irons pas plus loin dans cette voie, car cela relève plutôt du domaine des améliorations de PageRank que des problèmes de valeurs propres.

Vous êtes maintenant dans une bonne position, ayant acquis une compréhension de PageRank, pour produire votre propre code afin de calculer le PageRank d'un site Web avec des milliers d'entrées.

Bonne chance!

## Partie 2 - Exercice

Il vous est demandé de produire une fonction capable de calculer le PageRank pour une matrice de probabilité arbitrairement grande


In [24]:
def pageRank(linkMatrix, d) :
   
    
    return r


## Tester votre code

In [25]:
# Généré des réseaux de taille diffférents
generate_internet(5)

array([[0.2, 0.2, 0. , 1. , 0. ],
       [0.2, 0.2, 0. , 0. , 0. ],
       [0.2, 0.2, 0. , 0. , 0. ],
       [0.2, 0.2, 0. , 0. , 1. ],
       [0.2, 0.2, 1. , 0. , 0. ]])

In [26]:
# Comparer votre algorithme à celui donner par défaut pour des résaux plus grands 
L = generate_internet(10)

In [27]:
pageRank(L, 1)

KeyboardInterrupt: 

In [None]:
# Do note, this is calculating the eigenvalues of the link matrix, L,
# without any damping. It may give different results that your pageRank function.
# If you wish, you could modify this cell to include damping.
# (There is no credit for this though)
eVals, eVecs = la.eig(L) # Obtention des valeurs et vecteurs propres
order = np.absolute(eVals).argsort()[::-1] # Tri des valeurs propres
eVals = eVals[order]
eVecs = eVecs[:,order]

r = eVecs[:, 0]
100 * np.real(r / np.sum(r))

In [None]:
# Représentation graphique du page rank
%matplotlib notebook
r = pageRank(generate_internet(100), 0.9)
plt.bar(arange(r.shape[0]), r);