- PR -

HTML タグを取り除きたい

1
投稿者投稿内容
SL
大ベテラン
会議室デビュー日: 2008/05/02
投稿数: 183
投稿日時: 2009-04-05 11:22
お世話になります。

データにHTMLタグが含まれているテキストを簡易表示用させたいと思います。
この時テキストのみを表示させたくマークアップの部分を削除したいのですがどのようにすればいいですか?
下記のようにすれば、一部は可能ですが、テーブルやスタイルを含んだ部分までは、
対応しきれません。
何かいい方法は、ありませんか?教えてください。

ASP.NET C# VS2005

コード:
// マークアップのタグが下記内で有効になっているので除く
    string [] tag = {"&nbsp;", "<p>", "</p>", "\r\n" };

    string str = HeaderMei[8];    <- Html を含んだ文
    for (int k = 0; k < tag.Length; ++k)
    {
        str = str.Replace(tag[k], " ");
    }


べる
ぬし
会議室デビュー日: 2003/09/20
投稿数: 1093
投稿日時: 2009-04-05 12:01
たとえば正規表現というものを使えばもっと柔軟に対応できますよ。
SL
大ベテラン
会議室デビュー日: 2008/05/02
投稿数: 183
投稿日時: 2009-04-05 12:50
お世話になります。

> 「正規表現」
この意味がまだよくわかりませんが、この言葉で検索したら下記がヒットしてきました。

http://www.atmarkit.co.jp/fdotnet/dotnettips/585regexreplace/regexreplace.html

でも、この正規表現って主にどういったときに使うのでしょうか?
「Regexクラスでは....」とかよく見つかり変換など行っているようですが、
正規表現って簡単(簡単には無理かもしれませんが)に言うとどういったことでしょうか?教えてください。
じゃんぬねっと
ぬし
会議室デビュー日: 2004/12/22
投稿数: 7811
お住まい・勤務地: 愛知県名古屋市
投稿日時: 2009-04-05 13:33
引用:

SLさんの書き込み (2009-04-05 12:50) より:

でも、この正規表現って主にどういったときに使うのでしょうか?
「Regexクラスでは....」とかよく見つかり変換など行っているようですが、
正規表現って簡単(簡単には無理かもしれませんが)に言うとどういったことでしょうか?教えてください。


"正規表現とは" で検索。

_________________
C# と VB.NET の入門サイト
じゃんぬねっと日誌
SL
大ベテラン
会議室デビュー日: 2008/05/02
投稿数: 183
投稿日時: 2009-04-05 14:34
お世話になります。

> "正規表現とは" で検索。
ここに詳しい説明がありました。ありがとうございます。
http://www.atmarkit.co.jp/fdotnet/basics/regex01/regex01_01.html
かつのり
ぬし
会議室デビュー日: 2004/03/18
投稿数: 2015
お住まい・勤務地: 札幌
投稿日時: 2009-04-05 19:04
HTMLDocument/HTMLElementでHTMLを評価して、InnerTextを取り出すとか。
こくぼ
大ベテラン
会議室デビュー日: 2003/08/11
投稿数: 229
お住まい・勤務地: 国境の南、太陽の西。
投稿日時: 2009-04-06 16:30
テキストをガリガリいじっても良いと思うし、
HTMLのパーサを使っても勉強になって良いかもしれませんね。

http://japan.internet.com/developer/20051115/25.html
1

スキルアップ/キャリアアップ(JOB@IT)