[過去ログ] 【PHP】下らねぇ質問はここに書き込みやがれ 14 (1002レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
908
(1): (ワッチョイ 037b-jS/a) 2024/10/04(金)10:07 ID:5cV2iGMA0(1/5) AAS
>>907
> 例としてhtmlタグ取り除きたい時とかは正規表現使って自分で関数作った方が良かったりする。
気持ちは分かるが特定のタグを除去したいときは公式DOM使った方がよいかと
単純な末端ノードならいいが、階層作られたらだいたい無理なので
なおボロカス言われてるDOMだが、俺はJSでもjQuery不要派なのでさほど不満はなかった
912
(1): (ワッチョイ 037b-jS/a) 2024/10/04(金)12:48 ID:5cV2iGMA0(2/5) AAS
>>909
htmlタグを取り除く=PHPでスクレイプ、或いは掲示板等で許可してないタグを投稿されたときに、PHPでタグを除去する場合を考えている

PHPのDOMはゴミ扱いされてるが、ほぼ生JSと同じなので個人的には問題なかった
正規表現は階層/入れ子を考慮されてないので、正規表現でhtmlをパースするのは死ねるし変な物を食わされたらだいたいバグる
とはいえDOM構築はそれなりに遅くなるので、スクレイプ先のhtml構造が単純かつ固定的なときは正規表現で除去するのもあり
フロント側に不要タグ含めて垂れ流すのもありだが、DBやネットワークの帯域を無駄に消費するだけなので、
可能であれば上流=PHP側で除去した方がいいのは事実
914: (ワッチョイ 037b-jS/a) 2024/10/04(金)14:14 ID:5cV2iGMA0(3/5) AAS
>>913
IDE内部のリンターなので、直接関係ないのと、
あったとしても普通に切れる
916: (ワッチョイ 037b-jS/a) 2024/10/04(金)19:01 ID:5cV2iGMA0(4/5) AAS
>>915
> strip_tagsやHTMLPurifierみたいな出来上がったものを使った方がいいのでは?
これらはいいね
言及出来なかったのは俺が単に知らなかったからで、タグ単位の除去にはこれらを使うべきだろう

> レアリティ高いな
そうでもないから上記の関数/ライブラリが整備されてるわけだ
ただPHPはこの手の、あると便利だが的な関数が無駄に多く、把握しきれてなかったのは上記の通り
省12
919
(1): (ワッチョイ 037b-jS/a) 2024/10/04(金)20:30 ID:5cV2iGMA0(5/5) AAS
>>917
俺宛ではないが、>>911の使い方はまあ普通、というか9割以上の局面ではそうなる

> バックエンドにデータ飛んでくる前にタグ取り除く
そもそもDBへのアップデータでタグを許可してない/する必要ないのがほぼ全部
例えばここ5ch、安価は最終的に<a>として表示されるが、ユーザーの投稿段階ではただのテキスト
それをDB登録段階で<a>にしてしまうか、JSで<a>にするかは実装によるが、PHPでタグ除去なんてする必要がない

> PHPのユーザー定義関数で正規表現使ってタグ取り除く関数を作ったら
省4
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.037s