使用解释器模式实现获取元素 Xpath 路径的算法

2025-05-29 0 86

使用解释器模式实现获取元素 Xpath 路径的算法

正文

1.解释器模式

对于一种语言,我们给出其文法表示形式(一种语言中的语法描述工具,用来定义语言的规则),并定义一种解释器,通过这种解释器来解释语言中定义的句子。

定义听起来可能比较抽象,举个例子比如我们常见的网站多语言,要实现多语言我们首先要预定语言的类型,提前设计不同语言的语料库,然后我们会根据配置和统一的变量规则来映射到不同语言。

2.元素的Xpath路径

XPath 用于在 XML 文档中通过元素和属性进行导航。虽然XPath 是用来查找XML节点,但同样可以用来查找HTML文档中的节点,因为HTML和XML结构类似。这里我们只考虑html,即元素在html页面中所处的路径

那么如何快速获取元素的Xpath路径呢?其实也很简单,我们打开谷歌调试工具:

使用解释器模式实现获取元素 Xpath 路径的算法

使用解释器模式实现获取元素 Xpath 路径的算法

选中Copy XPath即可复制元素的Xpath路径。格式可能长这样:

  1. //*[@id="juejin"]/div[2]/main/div/div[1]/article/div[1]

获取元素Xpath路径的应用场景很多,比如我们经常使用的python爬虫,利用爬虫框架可以通过Xpath路径很方便额控制页面中的某个dom节点,进而获取想要的数据和元素;又比如我们通过发送元素的Xpath路径给后端,后端可以统计某一功能的使用情况和交互数据;又比如分析用户在网站中浏览的热力分布图,路径画像等等。

3.js实现获取元素的Xpath路径

在实现之前,首先我们分析一下Xpath路径的结构,比如我们有一个页面,元素span的结构如下:

  1. <!DOCTYPEhtml>
  2. <htmllang="en">
  3. <head>
  4. <metacharset="UTF-8">
  5. <metaname="viewport"content="width=device-width,initial-scale=1.0">
  6. <metahttp-equiv="X-UA-Compatible"content="ie=edge">
  7. <title>Document</title>
  8. </head>
  9. <body>
  10. <div>
  11. <span>我是徐小夕</span>
  12. </div>
  13. </body>
  14. </html>

那么我们的Xpath路径可能长这样:

  1. HTML/BODY|HEAD/DIV/SPAN

从上面可以看出,我们的最右边一个元素都是目标元素,而最左边第一个元素都是最外层容器。要完成这个过程首先我们要通过元素的parentNode来获取当前元素的父元素,直到找到最顶层位置。但我们还需要注意的一点是,每找到上一层我们还要遍历该元素前面的兄弟元素previousSibling,如果这个兄弟元素名字和它后面的元素名字相同,则在元素名上+1.

第一步我们先实现一个遍历同级兄弟元素的方法getSameLevelName:

  1. //获取兄弟元素名称
  2. functiongetSameLevelName(node){
  3. //如果存在兄弟元素
  4. if(node.previousSibling){
  5. letname='',//返回的兄弟元素名称字符串
  6. count=1,//紧邻兄弟元素中相同名称元素个数
  7. nodeName=node.nodeName,
  8. sibling=node.previousSibling;
  9. while(sibling){
  10. if(sibling.nodeType==1&&sibling.nodeType===node.nodeType&&sibling.nodeName){
  11. if(nodeName==sibling.nodeName){
  12. name+=++count;
  13. }else{
  14. //重制相同紧邻节点名称节点个数
  15. count=1;
  16. //追加新的节点名称
  17. name+='|'+sibling.nodeName.toUpperCase()
  18. }
  19. }
  20. sibling=sibling.previousSibling;
  21. }
  22. returnname
  23. }else{
  24. //不存在兄弟元素返回''
  25. return''
  26. }
  27. }

第二步,遍历文档树。

  1. //XPath解释器
  2. letInterpreter=(function(){
  3. returnfunction(node,wrap){
  4. //路径数组
  5. letpath=[],
  6. //如果不存在容器节点,默认为document
  7. wrap=wrap||document;
  8. //如果当前节点等于容器节点
  9. if(node===wrap){
  10. if(wrap.nodeType==1){
  11. path.push(wrap.nodeName.toUpperCase())
  12. }
  13. returnpath
  14. }
  15. //如果当前节点的父节点不等于容器节点
  16. if(node.parentNode!==wrap){
  17. //对当前节点的父节点执行遍历操作
  18. path=arguments.callee(node.parentNode,wrap)
  19. }
  20. //如果当前节点的父元素节点与容器节点相同
  21. else{
  22. wrap.nodeType==1&&path.push(wrap.nodeName.toUpperCase())
  23. }
  24. //获取元素的兄弟元素的名称统计
  25. letsiblingsNames=getSameLevelName(node)
  26. if(node.nodeType==1){
  27. path.push(node.nodeName.toUpperCase()+sublingsNames)
  28. }
  29. //返回最终的路径数组结果
  30. returnpath
  31. }
  32. })()

有了这两个方法,我们就可以轻松获取元素的XPath路径啦,比如:

  1. letpath=Interpreter(document.querySelector('span'))
  2. console.log(path.join('/'))

这样会返回开篇的一样的数据结构了.如:HTML/BODY|HEAD/DIV/SPAN

使用解释器模式实现获取元素 Xpath 路径的算法

原文链接:https://mp.weixin.qq.com/s/cpFFsV2XmfAgjV486pB09A

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

快网idc优惠网 建站教程 使用解释器模式实现获取元素 Xpath 路径的算法 https://www.kuaiidc.com/89893.html

相关文章

发表评论
暂无评论