Extraction de données et recherche dans Wikipédia, obtenir des résumés d’articles, des liens, des images et plus encore à l’aide de la bibliothèque Wikipédia en Python.
Wikipédia est sans aucun doute le plus grand et le plus populaire ouvrage de référence général sur Internet, c’est l’un des sites web les plus populaires. Il présente exclusivement des contenus libres. En conséquence, être en mesure d’accéder à cette grande quantité d’informations en Python est un travail pratique. Dans ce tutoriel, vous serez en mesure d’extraire facilement des informations de Wikipédia sans travailler dur.
Je dois mentionner que nous n’allons pas racler les pages Wikipédia manuellement, 😀 le wikipedia
Le module a déjà fait le travail difficile pour nous. Installons-le :
$ pip3 install wikipedia
Ouvrez un shell interactif Python ou un fichier vide et suivez.
Nous allons obtenir le résumé de ce que le langage de programmation Python est :
import wikipedia
#imprimer le résumé de ce qu'est python
print(wikipedia.summary("Python Programming Language"))
Cela extraira le résumé de cette page Wikipédia. Plus précisément, il imprimera quelques premières phrases, nous pouvons spécifier le nombre de sentences pour extraire:
In [2]: wikipedia.summary("Python programming languag", sentences=2)
Out[2]: "Python is an interpreted, high-level, general-purpose programming language. Created by Guido van Rossum and first released in 1991, Python's design philosophy emphasizes code readability with its notable use of significant whitespace."
Remarquez que j’ai mal orthographié la requête intentionnellement, elle me donne toujours un résultat précis.
Recherche d’un terme dans la recherche Wikipédia:
In [3]: result = wikipedia.search("Neural networks")
In [4]: print(result)
['Neural network', 'Artificial neural network', 'Convolutional neural network', 'Recurrent neural network', 'Rectifier (neural networks)', 'Feedforward neural network', 'Neural circuit', 'Quantum neural network', 'Dropout (neural networks)', 'Types of artificial neural networks']
Celui-ci renvoya une liste de titres de pages connexes, et il a obtenu toute la page pour « Neural network » qui est résultat[0]:
#obtenir la page : Réseau de neurones
page = wikipedia.page(result[0])
Extraction de la title
:
#obtenir le titre de la page
title = page.title
Obtenir toutes les catégories de cette page Wikipédia:
#récupérer les catégories de la page
categories = page.categories
Extraire le texte après avoir supprimé toutes les balises HTML (cela est fait automatiquement):
#obtenir tout le texte de la page Wikipédia (content)
content = page.content
Tous les liens:
#obtenir tous les liens de la page
links = page.links
Les références:
#obtenir les références des pages
references = page.references
Enfin, le résumé:
#résumé
summary = page.summary
Nous les imprimons :
#imprimer les informations
print("Page content:\n", content, "\n")
print("Page title:", title, "\n")
print("Categories:", categories, "\n")
print("Links:", links, "\n")
print("References:", references, "\n")
print("Summary:", summary, "\n")
Essayez-le.
Vous pouvez aussi changer la langue dans la bibliothèque wikipédia en Python de l’anglais à l’autre de votre choix :
#changer de langue
#pour une liste des langues disponibles,
#check http://meta.wikimedia.org/wiki/List_of_Wikipedias link.
language = "es"
wikipedia.set_lang(language)
#obtenir une page et imprimer le résumé dans la nouvelle langue
print(f"Summary of web scraping in {language}:", wikipedia.page("Web Scraping").summary)
Au-dessus, nous avons changé la langue en utilisant wikipedia.set_lang()
fonction, puis extraire nos pages normalement après cela. Pour obtenir une liste des langues disponibles, consultez ce lien.
Bon, nous avons fini, c’était une brève introduction à la façon dont vous pouvez extraire des informations de Wikipédia en Python. Cela peut être utile si vous voulez collecter automatiquement des données pour des modèles de langage, faire un chatbot répond aux questions, faire une application d’emballage autour de cela, et bien plus encore.