Regular Expression(正規表現) Part16

[過去ﾛｸﾞ] Regular Expression(正規表現) Part16 (997ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

1(4): デフォルトの名無しさん [] 2021/11/03(水)19:50 ID:ebAE+z9+(1/4)
Regular Expressionスレです。

質問する場合は必ず実装言語や処理系ソフトウェア名を示してください。

前スレ
Regular Expression(正規表現) Part15
2chｽﾚ:tech

次スレは>>980宜しく
天ぷら等>>2以降

978: デフォルトの名無しさん [sage] 2023/11/28(火)18:30 ID:mMoqXMUf(1)
（ﾊｸｼｮﾝ！

979: デフォルトの名無しさん [sage] 2023/11/28(火)19:16 ID:6l9rHssS(1)
単に便利だからゼロ幅マッチさせてるん
$str =~ s/()/$1,/g; やってみるといいのん

980(2): デフォルトの名無しさん [sage] 2023/11/29(水)13:08 ID:yvH2v9xT(1/2)
正規表現検索は失敗しないかぎり終わらないって話では

abcに対して(.*)$が検索される→「abc+末尾」がマッチ、この時点での位置はcの後ろのゼロ幅
残りの部分に対して再度(.*)$が検索される→「ゼロ幅+末尾」がマッチ、cの後ろのゼロ幅が消費される
残りの部分に対して再度(.*)$が検索される→対象を消費しきっているので失敗→検索終了

981: デフォルトの名無しさん [sage] 2023/11/29(水)14:41 ID:lw8jVmFR(1/3)
そういうもんだと思って使ってたわ
それをバグだと思ってる人がいてびっくりぽんや
しかしこういうことに疑問を持つ人は今後伸びるで

982: デフォルトの名無しさん [sage] 2023/11/29(水)17:53 ID:AoutXZD6(1)
>>980
その理屈で言えば1回目で対象を消費しきってるから2回目が失敗するべき

1回目で消費しきっているにも関わらず2回目のゼロ幅マッチが成功するなら3回目のゼロ幅マッチだって成功するはず
そうならないのは対象を消費しきってるかどうかを確認せずにマッチを実施しており最終的には2回連続同一箇所でのゼロ幅マッチという失敗条件に合致してはじかれているから

983: デフォルトの名無しさん [sage] 2023/11/29(水)18:01 ID:lw8jVmFR(2/3)
確かにその通りやな、１度目で消費しきっとるはずや

984: デフォルトの名無しさん [sage] 2023/11/29(水)18:06 ID:lw8jVmFR(3/3)
分かったつもりになってるだけで全然分かってへんのがおるから
ちゃんと本か何かで学習したほうがええで、今までそういう学習をしてへんやろ

985(1): デフォルトの名無しさん [sage] 2023/11/29(水)20:04 ID:x7bR/xfi(1)
/(.*)$(.*)$((.*)$){999}/

986: デフォルトの名無しさん [sage] 2023/11/29(水)22:25 ID:yvH2v9xT(2/2)
>>985
えーと、つまり
・ゼロ幅は消費されない。パーマネントにゼロであり続ける。なので無限にマッチ可能
・無限にマッチ可能→同じゼロ幅に2回連続マッチしたからといってposを進めたり終了するわけではない
てことかな？

2回目以降が発生するかどうかは、、どうなんだろう
前回と完全に同じマッチになるときは試行せず終わる、っぽいけど

987: デフォルトの名無しさん [] 2023/12/01(金)02:37 ID:07OBAnmr(1)
sedの基本正規表現と拡張正規表現だとゼロ幅にマッチしないね
元はPerlのバグだったのが仕様ってことになったのでは？

$ printf 'abc' | sed 's/$.*$/[\1]/g'
[abc]

$ printf 'abc' | sed -E 's/(.*)/[\1]/g'
[abc]

988(1): デフォルトの名無しさん [sage] 2023/12/01(金)08:09 ID:RWimeGTM(1)
/^\w+|$/[$&]/

これが[abc][]になるのはおかしいと感じないよね？
前半が末尾まで食い尽くすから$はマッチしないはずだと思う？

989: デフォルトの名無しさん [sage] 2023/12/02(土)00:36 ID:/f7jnFb0(1)
挙動を仕様書で厳密に定義しているJavaScriptではこうなってた
https://tc39.es/ecma262/multipage/text-processing.html#sec-regexp.prototype-@@replace

・1回目のマッチが "abc" すべてを消費する
・2回目のマッチは文字列末尾から始まるけど正規表現が.*なのでマッチングに成功する
　ただし空文字にマッチした場合、先へ進まなくなることを回避するために
　次回開始位置を一つ後ろへずらす処理が入る (12.c.iii.2以下)
　これにより3回目のマッチは文字列の終端+1という範囲外の位置から始まることになり失敗に終わる

990: デフォルトの名無しさん [sage] 2023/12/07(木)23:24 ID:Ug9Hn2aN(1/2)
KEEPのKはあるのにPが無い、何故？

991: デフォルトの名無しさん [sage] 2023/12/07(木)23:31 ID:Ug9Hn2aN(2/2)
(?<=uma)musu(?=me) 柿憎い
uma\Kmusu\Pme 柿安い

992: デフォルトの名無しさん [sage] 2023/12/10(日)09:57 ID:8JqB6SG/(1)
>>988
思うよ
+の後に$を置けば余計にそう思う

993: デフォルトの名無しさん [sage] 2023/12/10(日)13:04 ID:t3u5G9tC(1)
$は「後ろが終端である位置」の指定であって「最後まで全部」という意味ではない
なので.+$で文字列を末尾まで消費した後でも再度末尾のゼロ幅にマッチできることはバグでもなんでもない

994: デフォルトの名無しさん [sage] 2023/12/10(日)14:15 ID:ayXeZXuA(1)
実装上のバグではなく仕様バグだろって話をしてるのがわからないのか？

995: デフォルトの名無しさん [sage] 2023/12/10(日)15:43 ID:e6Tz3fj/(1/2)
.*と$でマッチするものが異なるのに.*と.*|$でマッチするものが変わらないのは明らかにバクってるな
正規表現のパターンを変えるだけでperlでは[abc][]にも[abc]にもできるのにsedではこのバグのせいで[abc][]には絶対にできなくなってる

$ printf 'abc' | sed -E 's/.*|$/[&]/g'
[abc]

996: デフォルトの名無しさん [sage] 2023/12/10(日)15:44 ID:e6Tz3fj/(2/2)
s/バク/バグ/

997: デフォルトの名無しさん [sage] 2023/12/13(水)11:48 ID:wzNHEkEB(1)
ただの仕様だよ、あほらし

次スレよろ

上下前次 1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.391s*