Accueil › Forums › Support technique › Obtenir des informations sur les livres pour faire un moteur de recherche plus détaillé › Répondre à : Obtenir des informations sur les livres pour faire un moteur de recherche plus détaillé
Bonjour,
Tout d'abord merci pour ce site fantastique (en particulier aux lecteurs(-traducteurs) de Lovecraft, J-H Rosny Aîné et Jules Verne 🙂 )
Comme j'aime écouter des livres audio entre autres le soir en m'endormant je me suis souvent dit que ce serait très pratique de pouvoir les rechercher par durée pour récupérer des nouvelles courtes pour quand je suis fatigué.
Cela a évolué en une idée de moteur de recherche plus détaillé qui permettrait grosso modo de dire : “trouve-moi une nouvelle fantastique ou gothique du XIXème siècle, mais pas de Maupassant, entre 15 et 35 minutes, lue par X ou Y, mais pas par Z”.
J'imagine qu'un tel moteur serait compliqué à mettre en place directement sur la base de données de production pour des raisons de sécurité (SQL injection et compagnie…), mais je serais intéressé d'essayer d'en créer un externe.
Je me demandais donc s'il serait possible d'obtenir pour les livres du site :
auteur(s), titre, durée, tags, [genre(s)], [période], [lecteur(s)]
en format JSON, XML, CSV, SQL ou même texte, peu importe, je pourrais les convertir par moi-même (et je pourrais extraire les trois derniers champs des tags moi-même au besoin)
S'il n'est pas possible de récupérer un dump/export, serait-il possible pour moi de scraper le site pour récupérer ces informations moi-même s'il vous plaît? (je suis familier avec Scrapy donc je pourrais faire un crawler très lent qui pourrait récupérer ces infos sur plusieurs jours sans surcharger les serveurs, en ne dépassant pas un taux de requêtes spécifié par vous au besoin 🙂 )
Si je vois que je ne suis pas le seul intéressé par ce projet je pourrais ajouter Librivox ou d'autres sources ultérieurement, mais Litterature-audio est mon préféré pour les livres en français donc je voudrais commencer par celui-ci 🙂
Cordialement,
Gurvan