Comment extraire les données de Wikipédia en Python

Extraction de données et recherche dans Wikipédia, obtenir des résumés d’articles, des liens, des images et plus encore à l’aide de la bibliothèque Wikipédia en Python.

Wikipédia est sans aucun doute le plus grand et le plus populaire ouvrage de référence général sur Internet, c’est l’un des sites web les plus populaires. Il présente exclusivement des contenus libres. En conséquence, être en mesure d’accéder à cette grande quantité d’informations en Python est un travail pratique. Dans ce tutoriel, vous serez en mesure d’extraire facilement des informations de Wikipédia sans travailler dur.

Je dois mentionner que nous n’allons pas racler les pages Wikipédia manuellement, 😀 le wikipedia Le module a déjà fait le travail difficile pour nous. Installons-le :

Ouvrez un shell interactif Python ou un fichier vide et suivez.

Nous allons obtenir le résumé de ce que le langage de programmation Python est :

Cela extraira le résumé de cette page Wikipédia. Plus précisément, il imprimera quelques premières phrases, nous pouvons spécifier le nombre de sentences pour extraire:

Remarquez que j’ai mal orthographié la requête intentionnellement, elle me donne toujours un résultat précis.

Recherche d’un terme dans la recherche Wikipédia:

Celui-ci renvoya une liste de titres de pages connexes, et il a obtenu toute la page pour « Neural network » qui est résultat[0]:

Extraction de la title:

Obtenir toutes les catégories de cette page Wikipédia:

Extraire le texte après avoir supprimé toutes les balises HTML (cela est fait automatiquement):

Tous les liens:

Les références:

Enfin, le résumé:

Nous les imprimons :

Essayez-le.

Vous pouvez aussi changer la langue dans la bibliothèque wikipédia en Python de l’anglais à l’autre de votre choix :

Au-dessus, nous avons changé la langue en utilisant wikipedia.set_lang()fonction, puis extraire nos pages normalement après cela. Pour obtenir une liste des langues disponibles, consultez ce lien.

Bon, nous avons fini, c’était une brève introduction à la façon dont vous pouvez extraire des informations de Wikipédia en Python. Cela peut être utile si vous voulez collecter automatiquement des données pour des modèles de langage, faire un chatbot répond aux questions, faire une application d’emballage autour de cela, et bien plus encore.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *