Tout le texte extraire entre deux balises (gras) <b> en utilisant XPATH

Vighnesh.P Vicky:

Ceci est mon élément HTML,

<div class="abstract-content selected" id="en-abstract">
    <p>
        <b>Introduction.</b> 
         Against the backdrop of increasing resistance to conventional antibiotics, bacteriocins represent an attractive alternative, given their potent activity, novel modes of action and perceived lack of issues with resistance.
        <b>Aim.</b>
         In this study, the nature of the antibacterial activity of a clinical isolate of 
        <i>Streptococcus gallolyticus</i>
         was investigated.
        <b>Methods.</b>
         Optimization of the production of an inhibitor from strain AB39 was performed using different broth media and supplements. Purification was carried out using size exclusion, ion exchange and HPLC. Gel diffusion agar overlay, MS/MS, 
        <i>de novo</i>
         peptide sequencing and genome mining were used in a proteogenomics approach to facilitate identification of the genetic basis for production of the inhibitor.
        <b>Results.</b>
         Strain AB39 was identified as representing 
        <i>Streptococcus gallolyticus</i>
         subsp. 
        <i>pasteurianus</i>
         and the successful production and purification of the AB39 peptide, named nisin P, with a mass of 3133.78 Da, was achieved using BHI broth with 10 % serum. Nisin P showed antibacterial activity towards clinical isolates of drug-resistant bacteria, including methicillin-resistant 
        <i>Staphylococcus aureus</i>
         , vancomycin-resistant 
        <i>Enterococcus</i>
         and penicillin-resistant 
        <i>Streptococcus pneumoniae</i>
         . In addition, the peptide exhibited significant stability towards high temperature, wide pH and certain proteolytic enzymes and displayed very low toxicity towards sheep red blood cells and Vero cells.
        <b>Conclusion.</b>
         To the best of our knowledge, this study represents the first production, purification and characterization of nisin P. Further study of nisin P may reveal its potential for treating or preventing infections caused by antibiotic-resistant Gram-positive bacteria, or those evading vaccination regimens.
    </p>
</div>

Ici , je voulais extraire « titres » de la « <b>» tag et leurs valeurs du texte résidant en dessous de leur correspondant.

exemple: « AIM »: Dans cette étude, la nature de l'activité antibactérienne d'un isolat clinique de Streptococcus gallolyticus a été étudiée.

Est-il possible d'y parvenir en utilisant XPath. Et notez: J'utilise scrapy aux choses extrait.

j'ai utilisé

" Response.xpath (" // p // texte () [normalize-space ()] [preceding-sibling :: * / self :: b] ") " qui donne toutes les valeurs de cap en morceaux séparés,

[u » Dans le contexte de la résistance croissante aux antibiotiques conventionnels, bactériocines représentent une alternative intéressante, compte tenu de leur activité puissante, de nouveaux modes d'action et perception d'un manque de problèmes avec résistance. « u » Dans cette étude, la nature de l'activité antibactérienne d'un isolat clinique de «u » a été étudiée.«U » Optimisation de la production d'un inhibiteur de la souche AB39 a été réalisée en utilisant différents milieux de bouillon et des suppléments. La purification a été réalisée à l'aide d'exclusion de taille, d'échange d'ions et HPLC. Gel diffusion sur gélose de recouvrement, MS / MS, «u » le séquençage et l'extraction du génome ont été utilisés dans une proteogenomics approche pour faciliter l'identification peptide de la base génétique pour la production de l'inhibiteur. «U » souche AB39 a été identifié comme représentant », u 'subsp. «U » et la production réussie et la purification du peptide AB39, appelé nisine P, avec une masse de 3133,78 Da, a été obtenue en utilisant du bouillon BHI avec 10% de sérum. La nisine a montré une activité antibactérienne P vers des isolats cliniques de bactéries résistantes aux médicaments, y compris résistant à la méthicilline «u », résistant à la vancomycine «u » et résistant à la pénicilline «u ». En outre, le peptide présentait une stabilité importante à température élevée, large pH et certaines enzymes protéolytiques et affiche une très faible toxicité pour les cellules de moutons rouges du sang et des cellules Vero. «U » Au meilleur de nos connaissances, cette étude représente la première production, la purification et la caractérisation de la nisine P. Une étude plus approfondie de la nisine P peut révéler son potentiel pour le traitement ou la prévention des infections causées par des bactéries résistantes aux antibiotiques à Gram positif, ou les éludant schémas de vaccination. \ n \ n \ n \ n « ]

Toute orientation est utile !!!!

E.Wiest:

La façon la plus rapide serait probablement d'obtenir tout le contenu avec string(//p)et divisé avec des commandes de manipulation de texte spécifiques.

Avec XPath, vous pouvez:

Obtenez tous les titres (5 éléments retours):

//b/text()

Obtenez la description correspondante (y compris les balises italiques) avec ces XPath (élément retourne 5 * 1):

normalize-space(substring-before(substring-after(string(//p),//b[.="Introduction."]),//b[.="Aim."]))
normalize-space(substring-before(substring-after(string(//p),//b[.="Aim."]),//b[.="Methods."]))
normalize-space(substring-before(substring-after(string(//p),//b[.="Methods."]),//b[.="Results."]))
normalize-space(substring-before(substring-after(string(//p),//b[.="Results."]),//b[.="Conclusion."]))
normalize-space(substring-after(string(//p),//b[.="Conclusion."]))

Si vous ne connaissez pas le texte entre les balises, vous pouvez utiliser l'indexation par la position (// b [1], // b [2], ...). nombre d'utilisation (// b) de connaître la valeur maximale.

EDIT: XPath Alternative:

normalize-space(//text()[preceding::b="Introduction." and following::b="Aim."])
normalize-space(//text()[preceding::b="Aim." and following::b="Methods."])
normalize-space(//text()[preceding::b="Methods." and following::b="Results."])
normalize-space(//text()[preceding::b="Results." and following::b="Conclusion."])
normalize-space(//text()[preceding::b="Conclusion."])

Je suppose que tu aimes

Origine http://43.154.161.224:23101/article/api/json?id=275116&siteId=1
conseillé
Classement