首页 | 互联网 | IT动态 | IT培训 | Cisco | Windows | Linux | Java | .Net | Oracle | 软件测试 | C/C++ | 嵌入式开发 | 存储世界 | 服务器
网络设备 | IDC | 安全 | 求职招聘 | 数字网校 | 网页设计 | 平面设计 | 技术专题 | 电子书下载 | 教学视频 | 源码下载 | 搜索 | 博客 | 论坛
中国IT实验室Dotnet频道
中国IT教育
Google
首页 ASP.NET  C#  XML/WebService ADO.NET VC.NET VB.NET .NET 资讯动态 专题 RSS订阅 讨论 下载
您现在的位置: 中国IT实验室 >> Dotnet >> ASP.NET >> 正文

asp.net如何去掉HTML标记

 ///   <summary>
///   去除HTML标记
///   </summary>
///   <param   name="NoHTML">包括HTML的源码   </param>
///   <returns>已经去除后的文字</returns>  
  public   static   string   NoHTML(string   Htmlstring)
{
//删除脚本  
  Htmlstring   =   Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
//删除HTML  
  Htmlstring   =   Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(nbsp|#160);","   ",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
Htmlstring  
=   Regex.Replace(Htmlstring,   @"&#(\d+);","",RegexOptions.IgnoreCase);
Htmlstring.Replace(
"<","");
Htmlstring.Replace(
">","");
Htmlstring.Replace(
"\r\n","");
Htmlstring
=HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();
return   Htmlstring;
}

 

 ///提取HTML代码中文字的C#函数
///   <summary>
///   去除HTML标记
///   </summary>
///   <param   name="strHtml">包括HTML的源码   </param>
///   <returns>已经去除后的文字</returns>  
  using   System;
using   System.Text.RegularExpressions;
public   class   StripHTMLTest{
public   static   void   Main(){
string   s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
Console.WriteLine(s);
}
public   static   string   StripHTML(string   strHtml){
string   []   aryReg   ={
@"<script[^>]*?>.*?</script>",
@"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
@"([\r\n])[\s]+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(\d+);",
@"-->",
@"<!--.*\n"
};
string   []   aryRep   =   {
"",
"",
"",
"\"",
"&",
"<",
">",
"   ",
"\xa1",//chr(161),  
                        "\xa2",//chr(162),  
                        "\xa3",//chr(163),  
                        "\xa9",//chr(169),  
                        "",
"\r\n",
""
};
string   newReg   =aryReg[0];
string   strOutput=strHtml;
for(int   i   =   0;i<aryReg.Length;i++){
Regex   regex  
=   new   Regex(aryReg[i],RegexOptions.IgnoreCase);
strOutput  
=   regex.Replace(strOutput,aryRep[i]);
}
strOutput.Replace(
"<","");
strOutput.Replace(
">","");
strOutput.Replace(
"\r\n","");
return   strOutput;
}
}

[1] [2] 下一页

【责编:Zenghui】

中国IT教育

相关产品和培训
文章评论
 友情推荐链接
 认证培训
 专题推荐

 ·关于Java框架技术专题
 ·XML全攻略技术专题
 ·JAVA开源技术介绍专题
 ·Java嵌入式开发之J2ME技术专题
 ·超前体验 Oracle 11g的5个新特性…
 ·揭密使用VB.NET的五个实用技巧
 ·Oracle和SQL Server常用函数对比专题…
 ·展现C#世界 C#程序设计专题…
 ·Java入门 Tomcat的配置技巧精华专题…
 ·Oracle RMAN物理备份技术详解…
 今日更新
 社区讨论
 博客论点
 频道精选
 Dotnet频道相关导航