频道导航

Ruby 1.9：具有未知输入编码的正则表达式

2019-09-06 Ruby 前端之家

前端之家收集整理的这篇文章主要介绍了Ruby 1.9：具有未知输入编码的正则表达式，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

有没有一种接受的方式来处理 Ruby 1.9中的正则表达式,输入的编码是未知的？假设我的输入恰好是UTF-16编码：

x  = "foo<p>bar</p>baz"
y  = x.encode('UTF-16LE')
re = /<p>(.*)<\/p>/

x.match(re) 
=> #<MatchData "<p>bar</p>" 1:"bar">

y.match(re)
Encoding::CompatibilityError: incompatible encoding regexp match (US-ASCII regexp with UTF-16LE string)

我目前的方法是在内部使用UTF-8,并在必要时对输入进行重新编码(副本)：

if y.methods.include?(:encode)  # Ruby 1.8 compatibility
  if y.encoding.name != 'UTF-8'
    y = y.encode('UTF-8')
  end
end

y.match(/<p>(.*)<\/p>/u)
=> #<MatchData "<p>bar</p>" 1:"bar">

但是,这对我来说感觉有点尴尬,我想问一下是否有更好的方法.

解决方法

据我所知,没有更好的使用方法.但是,我可以建议稍作改动吗？

而不是改变输入的编码,为什么不改变正则表达式的编码？每次遇到新的编码时,翻译一个正则表达式字符串比翻译数百或数千行输入来匹配正则表达式的编码要少得多.

# Utility function to make transcoding the regex simpler.
def get_regex(pattern,encoding='ASCII',options=0)
  Regexp.new(pattern.encode(encoding),options)
end



  # Inside code looping through lines of input.
  # The variables 'regex' and 'line_encoding' should be initialized prevIoUsly,to
  # persist across loops.
  if line.methods.include?(:encoding)  # Ruby 1.8 compatibility
    if line.encoding != last_encoding
      regex = get_regex('<p>(.*)<\/p>',line.encoding,16) # //u = 00010000 option bit set = 16
      last_encoding = line.encoding
    end
  end
  line.match(regex)

在病理情况下(输入编码每行都会更改),因为您通过循环每次重新编码正则表达式,这将会很慢.但是在99.9％的编码对于数百或数千行的整个文件是不变的情况下,这将导致重新编码的大幅度减少.

上一篇：ruby-on-rails – 资源在开发中缓慢下一篇：当参数传递给我的ruby脚本时,为什么

猜你在找的Ruby相关文章

Ruby increment(=)为nil：NilClass引发错误未定义方法”

以下代码导致我的问题： class Foo def initialize(n=0) @n = n end attr_acce...

作者：前端之家时间：2020-08-01

ruby-on-rails – 为什么这个Rspec测试返回“已经发送电子邮件”

这是我的spec文件,当为上下文添加测试“而不是可单独更新用户余额”时,我得到以下错误. re...

作者：前端之家时间：2020-08-01

ruby-on-rails – 仅针对特定邮件程序的Rails邮件拦截器

我有一个拦截器：DevelopmentMailInterceptor和一个启动拦截器的inititializer setup_mail...

作者：前端之家时间：2020-08-01

ruby-on-rails – 如何将YAML文件递归展平为JSON对象,其中键是以点分隔的字符串？

例如,如果我有YAML文件 en: questions: new: 'New Question' other: ...

作者：前端之家时间：2020-08-01

ruby – RSpec – 如果我避免使用let,let和before,如何实现相同的功能？

我听说在RSpec中避免它,let,let !,指定,之前和主题是最佳做法. 关于让,让！之前,如果不使用...

作者：前端之家时间：2020-08-01

ruby-on-rails – .save上的Rails NoMethodError

我运行了代码@transaction = Transaction.new然后我给了它一些值： <Transaction id: n...

作者：前端之家时间：2020-08-01

ruby-on-rails – 为什么我会得到“未定义的方法`编码’”？

为什么我会得到“未定义的方法`编码’”？我怎样才能解决这个问题？错误信息 NoMethodEr...

作者：前端之家时间：2020-08-01

ruby-on-rails – ActionMailer错误的参数个数错误

我有一个rails应用程序,允许您请求邀请注册.根据要求,我保存您的电子邮件并向您发送一封电...

作者：前端之家时间：2020-08-01

ruby-on-rails – 将Active Record集转换为哈希数组

我看到了这个… How to convert activerecord results into a array of hashes 并且想要创...

作者：前端之家时间：2020-08-01

ruby – 如何将数组值与散列数组合？

我有一系列哈希： [{:foo => 1, :bar => 2}, {:foo => 2, :bar => 4} ...] 和...

作者：前端之家时间：2020-08-01

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章