当前位置: 首页>>技术教程>>正文


如何使用sed提取子字符串

, , , ,

问题描述

我有一个包含以下行的文件:

  <parameter name="PortMappingEnabled" access="readWrite" type="xsd:boolean"></parameter>
  <parameter name="PortMappingLeaseDuration" access="readWrite" activeNotify="canDeny" type="xsd:unsignedInt"></parameter>
  <parameter name="RemoteHost" access="readWrite"></parameter>
  <parameter name="ExternalPort" access="readWrite" type="xsd:unsignedInt"></parameter>
  <parameter name="ExternalPortEndRange" access="readWrite" type="xsd:unsignedInt"></parameter>
  <parameter name="InternalPort" access="readWrite" type="xsd:unsignedInt"></parameter>
  <parameter name="PortMappingProtocol" access="readWrite"></parameter>
  <parameter name="InternalClient" access="readWrite"></parameter>
  <parameter name="PortMappingDescription" access="readWrite"></parameter>

我想对此文件执行命令以仅提取以下输出中显示的参数名称:

$sedcommand file.txt
PortMappingEnabled
PortMappingLeaseDuration
RemoteHost
ExternalPort
ExternalPortEndRange
InternalPort
PortMappingProtocol
InternalClient
PortMappingDescription

这个命令可能是什么?

最佳解决方案

你想要awk

这将是一个快速而肮脏的黑客:

awk -F "\"" '{print $2}' /tmp/file.txt

PortMappingEnabled
PortMappingLeaseDuration
RemoteHost
ExternalPort
ExternalPortEndRange
InternalPort
PortMappingProtocol
InternalClient
PortMappingDescription

次佳解决方案

grep诞生于提取事物:

grep -Po 'name="\K[^"]*'

测试您的数据:

kent$  echo '<parameter name="PortMappingEnabled" access="readWrite" type="xsd:boolean"></parameter>
  <parameter name="PortMappingLeaseDuration" access="readWrite" activeNotify="canDeny" type="xsd:unsignedInt"></parameter>
  <parameter name="RemoteHost" access="readWrite"></parameter>
  <parameter name="ExternalPort" access="readWrite" type="xsd:unsignedInt"></parameter>
  <parameter name="ExternalPortEndRange" access="readWrite" type="xsd:unsignedInt"></parameter>
  <parameter name="InternalPort" access="readWrite" type="xsd:unsignedInt"></parameter>
  <parameter name="PortMappingProtocol" access="readWrite"></parameter>
  <parameter name="InternalClient" access="readWrite"></parameter>
  <parameter name="PortMappingDescription" access="readWrite"></parameter>
'|grep -Po 'name="\K[^"]*'
PortMappingEnabled
PortMappingLeaseDuration
RemoteHost
ExternalPort
ExternalPortEndRange
InternalPort
PortMappingProtocol
InternalClient
PortMappingDescription

第三种解决方案

sed 's/[^"]*"\([^"]*\).*/\1/'

做的工作。

第四种方案

您不应该使用sed或awk等工具解析XML。这是error-prone。

如果输入更改,并且在name参数之前,您将获得new-line字符而不是空格,它将在某一天失败,从而产生意外结果。

如果您确定,您的输入将始终以这种方式格式化,则可以使用cut。它比sedawk更快:

cut -d'"' -f2 < input.txt

最好先解析它,并仅提取参数名称属性:

xpath -q -e //@name input.txt | cut -d'"' -f2

要了解有关xpath的更多信息,请参阅本教程:http://www.w3schools.com/xpath/

第五种方案

解释如何使用cut

cat yourxmlfile | cut -d'"' -f2

它将’cut’文件中的所有行基于“分隔符”,并将取第2个字段,这就是你想要的。

参考资料

本文由Ubuntu问答整理, 博文地址: https://ubuntuqa.com/article/7075.html,未经允许,请勿转载。