[過去ログ]
Regular Expression(正規表現) Part14 [無断転載禁止]©2ch.net (1002レス)
Regular Expression(正規表現) Part14 [無断転載禁止]©2ch.net http://mevius.5ch.net/test/read.cgi/tech/1489511075/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
557: デフォルトの名無しさん [sage] 2018/08/12(日) 21:30:40.27 ID:mMH07JtW >>556 HTMLは扱いが難しいからパーサ使った方がいい どうしても正規表現だというなら, 1. とりあえず的な修正 https://regex101.com/r/sIUmzD/2 /<[^>]*\bcharset\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)")\b/$1$2$3/i 2. もう少し気合の入れた修正 https://regex101.com/r/sIUmzD/1 |<meta (?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)* (?:\s+charset(?:\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)"))?) (?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*\s*/?>|$1$2$3|i ぐらいか でもこれ後で読むのしんどいでしょ http://mevius.5ch.net/test/read.cgi/tech/1489511075/557
558: デフォルトの名無しさん [sage] 2018/08/12(日) 21:47:08.19 ID:L571MbNB >>557 神だ http://mevius.5ch.net/test/read.cgi/tech/1489511075/558
559: 557 [sage] 2018/08/12(日) 21:53:09.85 ID:mMH07JtW 2.の方を若干修正, charsetには値が必要ですわ https://regex101.com/r/sIUmzD/3 |<meta (?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)* (?:\s+charset\s*=\s*(?:([^\s"'=><`]+)|'([^']*)'|"([^"]*)")) (?:\s+[^\s"'>/=]+(?:\s*=\s*(?:[^\s"'=><`]+|'[^']*'|"[^"]*"))?)*\s*/?>|$1$2$3|i http://mevius.5ch.net/test/read.cgi/tech/1489511075/559
560: デフォルトの名無しさん [sage] 2018/08/12(日) 22:00:37.17 ID:MOc1ccj1 >>557 ありがとうございます! 当方がやりたかったことは、HTMLをテキストデータとして大量に取得して、その中から特定のワードでの絞り込みです。 正しい文字コードでHTMLを落としてからパースしようと思ったのですが、確かにパーサでやる手もありそうですね 正規表現は今まで避けてきたので、読むのがシンドイっていうかチンプンカンプンですが 求めていた動作です。とても助かりました。 使わせてももらいます。ありがとうございました。 http://mevius.5ch.net/test/read.cgi/tech/1489511075/560
588: デフォルトの名無しさん [sage] 2018/08/27(月) 04:46:33.83 ID:2QlJLeh2 マッチングテスト [1] <meta charset="UTF-8"> >>557 1. 失敗 >>559 マッチ >>583 マッチ >>586 マッチ [2] このスレのHTML 557 1. マッチ 559 失敗 583 マッチ 586 失敗 http://mevius.5ch.net/test/read.cgi/tech/1489511075/588
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.032s