Vous devez être identifié(e) pour écrire un message Connexion S’enregistrer

Recherche 
Rechercher dans les Forums:


 




Obtenir des informations sur les livres pour faire un moteur de recherche plus détaillé

UtilisateurMessage

12:01
25 février 2019


Gurvan

Membre

messages 5

1

Bonjour,

Tout d'abord merci pour ce site fantastique (en particulier aux lecteurs(-traducteurs) de Lovecraft, J-H Rosny Aîné et Jules Verne :) )


Comme j'aime écouter des livres audio entre autres le soir en m'endormant je me suis souvent dit que ce serait très pratique de pouvoir les rechercher par durée pour récupérer des nouvelles courtes pour quand je suis fatigué.

Cela a évolué en une idée de moteur de recherche plus détaillé qui permettrait grosso modo de dire : « trouve-moi une nouvelle fantastique ou gothique du XIXème siècle, mais pas de Maupassant, entre 15 et 35 minutes, lue par X ou Y, mais pas par Z ».

J'imagine qu'un tel moteur serait compliqué à mettre en place directement sur la base de données de production pour des raisons de sécurité (SQL injection et compagnie…), mais je serais intéressé d'essayer d'en créer un externe.


Je me demandais donc s'il serait possible d'obtenir pour les livres du site :

auteur(s), titre, durée, tags, [genre(s)], [période], [lecteur(s)]

en format JSON, XML, CSV, SQL ou même texte, peu importe, je pourrais les convertir par moi-même (et je pourrais extraire les trois derniers champs des tags moi-même au besoin)


S'il n'est pas possible de récupérer un dump/export, serait-il possible pour moi de scraper le site pour récupérer ces informations moi-même s'il vous plaît? (je suis familier avec Scrapy donc je pourrais faire un crawler très lent qui pourrait récupérer ces infos sur plusieurs jours sans surcharger les serveurs, en ne dépassant pas un taux de requêtes spécifié par vous au besoin :) )


Si je vois que je ne suis pas le seul intéressé par ce projet je pourrais ajouter Librivox ou d'autres sources ultérieurement, mais Litterature-audio est mon préféré pour les livres en français donc je voudrais commencer par celui-ci :)


Cordialement,

Gurvan

20:37
25 février 2019


Jean-Pierre Baillot

Membre

messages 253

2

Gurvan,

Résumons-nous : Vous souhaitez nous scraper en nous faisant un crawler très lent.

Vous ne manquez pas d'audace !

Avez-vous considéré une seule seconde avant de formuler une telle proposition que vous pouviez être en train de frapper à la porte de… gens honnëtes ?

22:10
25 février 2019


GaëLL

Membre

Orsay (France)

messages 62

3

Cher Gurvan,

Je ne suis pas tout à fait certaine de comprendre les détails techniques de votre message (je soupçonne que crawler n’a qu’un rapport lointain avec la natation …), mais il me semble comprendre que vous cherchez en fait un outil déjà mis en place par un audio-lecteur serviable et exigeant tout à la fois, et que je vous recommande de tester : https://audio.wintoweb.com/multi/

GaëLL

6:06
26 février 2019


Gurvan

Membre

messages 5

4

GaëLL a écrit :

Cher Gurvan,

Je ne suis pas tout à fait certaine de comprendre les détails techniques de votre message (je soupçonne que crawler n’a qu’un rapport lointain avec la natation …), mais il me semble comprendre que vous cherchez en fait un outil déjà mis en place par un audio-lecteur serviable et exigeant tout à la fois, et que je vous recommande de tester : https://audio.wintoweb.com/multi/

GaëLL


Bonjour GaëLL,


Oui, c'est exactement ce que je comptais créer, merci! :) Il y a pour moi deux petits défauts :

- seules les grandes catégories sont sélectionnables, pas les tags ou les époques, donc pour moi qui suis friand de nouvelles/romans fantastiques ou gothiques du 19ème siècle par exemple, impossible de faire cette recherche

- le service ne fonctionne pas pour l'instant, il semble y avoir un problème avec la configuration des sessions

Mais je vais m'adresser au webmaster directement, merci encore :)


Et désolé pour l'anglicisme, les traductions de termes informatiques sont souvent tellement alambiquées ou bizarres que personne ne les utilise et qu'il est plus simple de garder les termes anglais quand on s'adresse à d'autres gens de la partie « technique » :p

Un « crawler » ou « spider » est un programme qui explore un site web, en requêtant toutes les pages (autorisées, on peut interdire des pages/parties du site dans robots.txt), et typiquement extrait des données de ces pages.

Les moteurs de recherche, les comparateurs, les annuaires, les sites d'indexation divers et bien d'autres sites « crawlent » le web en permanence pour récupérer des informations, liens, etc. Typiquement un site veut être crawlé par le maximum de moteurs ou sites afin de recevoir plus de traffic.

Mais il existe aussi des gens indélicats qui scannent trop vite/fort pour les serveurs, ou dans les parties interdites du site, ou pour reprendre les données extraites à leur compte sans mettre des liens ou citer la source. Mais de la même façon que les cambrioleurs frappent rarement à la porte d'entrée, ils prennent rarement la peine de créer un compte pour demander l'autorisation de crawler ;)


Donc Jean-Pierre je ne comprends pas vraiment votre indignation ou en quoi ma demande pourrait faire de vous des gens malhonnêtes? À vous lire on dirait que je frappe à votre porte pour vous demander de cacher 50 kg d'héroïne, et non simplement les méta-données concernant les ouvrages de ce site pour faciliter la vie des auditeurs :) On dirait qu'il y a eu mauvaise communication de ma part ou j'aimerais comprendre votre raisonnement.


9:23
26 février 2019


Benoit du L.

Membre

Californie

messages 10

5

@Gurvan,

Un crawler ou spider se traduit en français par « robot d'indexation ».

C'est du moins ce qu'on utilise dans la Silicone Valley où j'habite.

Salutations !

9:48
26 février 2019


Jean-Pierre Baillot

Membre

messages 253

6

Gurvan,

Une simple plaisanterie de potache (très) attardé et, à l'évidence, trop hermétique.

Il n'y avait pas la moindre indignation réelle dans mon propos.

Bonne continuation,

Jean-Pierre

10:05
26 février 2019


Daniel Luttringer

Membre

messages 139

7

Oui, il fallait comprendre  » gens honnestes »…

DanielLuttringer

10:15
26 février 2019


Jean-Pierre Baillot

Membre

messages 253

8

Tout à fait, Daniel !

11:12
26 février 2019


Gurvan

Membre

messages 5

9

Désolé Jean-Pierre, je n'avais effectivement pas compris la plaisanterie :) (pour être honnête je ne l'ai toujours pas saisie ^_^' j'avais noté le tréma la première fois mais ne comprends pas sa signification. Les « est » du français médiéval ont souvent été transformés « êt » et non « ët », à ma connaissance du moins, et je n'ai toujours pas compris :p)


@Benoit du L.

Oui, c'est effectivement un des termes pour lesquels la traduction est parlante et adaptée, mais « robot d'indexation » évoque Google, Baidu, Yahoo et autres « géants » du web, cela me semblait donc un peu prétentieux pour un simple spider Scrapy crawlant un seul site pour un petit projet personnel ^^

13:59
26 février 2019


GaëLL

Membre

Orsay (France)

messages 62

10

Cher Gurvan,

Vous avez raison, le site ne semble plus marcher chez moi non plus ! C’est bien dommage, il est très pratique. Sur LA, le concepteur a pour pseudo Stressless, que vous pouvez sans doute contacter en message privé.
Mais en sélectionnant trop étroitement vos lectures, vous ne prenez pas le risque d’être séduit par un texte que vous n’auriez pas choisi de prime abord, n’est-ce pas regrettable, quand la base de LA est si diverse ?

GaëLL

14:18
26 février 2019


Gurvan

Membre

messages 5

11

Ha merci, je vais lui demander :)


J'essaye de rester ouvert, notamment aux livres de toutes les périodes, mais souvent je suis d'humeur pour un genre particulier ;) (donc j'écoute/lis souvent plusieurs livres différents en parallèle pour satisfaire mon humeur du jour :p)

14:38
26 février 2019


stressless

Membre

audio.wintoweb.com

messages 37

12

Bonjour Gurvan et à tous,

Je suis l'auteur des outils de tri mentionnés par Gaëlle. L'accès à ces pages est momentanément fermé car j'ai hélas été victime d'un malfaisant qui a fracturé la porte d'accès à mon hébergement et qui a « cassé la baraque ». Je suis en train de réparer le tout et ces outils devraient à nouveau être en ligne dans les jours qui viennent. Les utilisateurs voudront bien me pardonner pour cette interruption.

Il est vrai que l'anglicisme « scraper » peut porter à confusion et j'appuie la réaction de l'excellent DDV Jean-Pierre Baillot dont je me suis délecté, il y a peu, de sa lecture de « Les Employés » de Balzac. Merci M. Baillot !

Une jolie traduction de « Scraper » ou « Crawler » pourrait être « Moissonner ».

@Gurvan – J'ai bien reçu l'e-mail que vous m'avez adressé depuis les pages de mon site de tri et je vais vous répondre incessamment. Je vous propose donc de continuer cette discussion par échange d'e-mails privés. A bientôt et cordiales salutations à tous.

Daniel T. (un peu moins Stressless ces temps… Déçu )

* * * * * * * * * * * * *

15:25
26 février 2019


Gurvan

Membre

messages 5

13

Avec plaisir (prenez votre temps si vous êtes débordé, je ne suis pas pressé :) )

21:19
26 février 2019


Jean-Pierre Baillot

Membre

messages 253

14

Merci à vous, stressless, de justifier (ou presque) mes plaisanteries stupides.

Surtout, bon courage pour vos travaux de réparation.

Jean-Pierre

8:20
27 février 2019


GaëLL

Membre

Orsay (France)

messages 62

15

Cher Daniel,

Je suis bien désolée d’apprendre que vous avez été victime d’une attaque informatique malveillante ! Cela est rageant, et incompréhensible ! Votre site n’avait d’autre vocation que d’être utile aux amoureux des livres… :-( J’avais bien noté ce week-end que je n’y avais pas accès, j’avais pensé à un simple nettoyage de printemps… j’étais loin de me douter !

J’espère que le travail de remise en route n’est pas excessif, et que passé le premier moment d’abattement, vous serez en mesure à nouveau de rendre accessible votre outil de tri, et nous rendre ce grand service de nous aider à faire le choix de nos lectures. Tenez-nous au courant quand ce sera le cas !

Avec toute mon amitié, je vous souhaite bien du courage et vous remercie d’avance du temps que vous y consacrez,

Gaëlle

17:32
28 février 2019


stressless

Membre

audio.wintoweb.com

messages 37

16

Merci Gaëlle pour votre aimable message.

Pourquoi prendre pour cible mon site qui ne vend rien et qui n'a même pas l'ombre d'une publicité ? Ché pô ! Attendre de ces gens un brin de discernement serait faire preuve d'une candeur virginale. En guise de consolation, on pourrait dire que pendant qu'ils font cela, ils ne jettent pas de pierres aux poules.

Je pense que tout fonctionne à nouveau : https://audio.wintoweb.com/ . Merci de m'informer si vous constatez une boulette (email du site ou privé ou encore en répondant à ce commentaire).

La dernière mise à jour des données date du 4 février. J'intégrerai les dernières lectures cette fin de semaine. Pour l'instant, je suis fourbu et je vais enfin me coucher ! (il est 17:15… Rigolant ) et j'espère faire des rêves qui se déroulent dans un monde sans fripouilles.

A bientôt, Daniel T.

* * * * * * * * * * * * *

13:43
1 mars 2019


GaëLL

Membre

Orsay (France)

messages 62

17

ça marche ! :-) Bravo Daniel, sieste bien méritée !
Merci bien, faites de beaux rêves !

Gaëlle

 

A propos du forum Litterature audio.com

Actuellement en ligne :

cocotte

8 Invités

Nombre max. d’utilisateurs en ligne : 159

Forums :

Groupes : 2

Forums : 11

Sujets : 2700

Messages : 14108

Membres :

Il y a 7766 membre(s)

Il y a 109 invité(s)


Augustin a rédigé 1949 message(s)

Auteurs les plus prolifiques :

Carole – 2875

Victoria – 1790

Prof. Tournesol – 1508

Vincent de l'Epine – 983

Pomme Arnaudon – 914

Administrateurs : Augustin | Modérateurs : Augustin, Carole, Christine Sétrin, Vincent de l'Epine