本来想用C#调用,先来用VB.net 调用一下DLL类库。当然,这个DLL也是用VB.net自己开发的,目的吗。一个是提高运行效率,一个是觉得好玩儿。
具体实现方法如下:
第一步,制作dll.
首先打开Microsoft Visual Basic .NET 。也就是那个集成开发环境。打开后选择新建一个VB.net 项目。选择“类库”模版。
然后,修改一下自动生成的类的名称。比如Test.VB 然后当然是写一些代码了。
我的Test.VB 代码如下:
Imports System.IO
Imports System.Net
Imports System.Text
Public Class Data_Copyer
Public Url As String
'Public Event One_URL_Complete(ByVal Total_Rows As Integer)
' 传递进来的是一个URL地址,返回的是这个URL地址对应的HTML返回数据
Public Function GetHtmlCode(ByVal URL) As String
On Error GoTo Err_here
Dim httpReq As System.Net.HttpWebRequest
Dim httpResp As System.Net.HttpWebResponse
Dim httpURL As New System.Uri(URL)
httpReq = CType(WebRequest.Create(httpURL),HttpWebRequest)
httpReq.Method = "GET"
httpResp = CType(httpReq.GetResponse(),HttpWebResponse)
httpReq.KeepAlive = False ' 获取或设置一个值,该值指示是否与 Internet 资源建立持久连接。
Dim reader As StreamReader = _
New StreamReader(httpResp.GetResponseStream,System.Text.Encoding.GetEncoding("GB2312"))
Dim respHTML As String = reader.ReadToEnd() 'respHTML就是网页源代码
httpResp.Close()
'下面语句去掉HTML代码中的换行符号
respHTML = Replace(respHTML,Chr(10),"")
respHTML = Replace(respHTML,Chr(13),"")
Return respHTML
Exit Function
Err_here:
'MsgBox("打开URL出现错误:" & Err.Description)
Return "Null"
End Function
'从传递进来的HtmlSource 文本种,进行正则表达式ZhengZe_Str匹配,返回匹配结果,一般而言是 有用的<tr>...</tr>中间的数据
Private Function Get_ZhengZe_Resoult(ByVal HtmlSource As String)
Dim strRegex As String
strRegex = "<tr bgcolor.*?</tr>" 'ZhengZe_Str '正则表达式
Dim r As System.Text.RegularExpressions.Regex
Dim m As System.Text.RegularExpressions.MatchCollection
r = New System.Text.RegularExpressions.Regex(strRegex,System.Text.RegularExpressions.RegexOptions.IgnoreCase)
m = r.Matches(HtmlSource)
Return m
End Function
' 分析数据内容,传递进来的数据是<tr>...</tr>之间的数据。
' 把每个<td></td> 之间的数据分拆出来,并保存到数组 RowData()中。
' 这里面要分析的数据其实就是 Get_ZhengZe_Resoult 的返回值列表 m 的数据.
Private Function Get_RowData(ByVal str_HTML_RowData)
Dim RowData() As String '提取出的某一行的数据放到这个数组
Dim strRegex As String
strRegex = "<td.*?>.*?</td>" '找到所有<td>...</td>的正则表达式
Dim r As System.Text.RegularExpressions.Regex
Dim m As System.Text.RegularExpressions.MatchCollection
r = New System.Text.RegularExpressions.Regex(strRegex,System.Text.RegularExpressions.RegexOptions.IgnoreCase)
m = r.Matches(str_HTML_RowData)
Dim i As Integer
strRegex = "<[^>]*>" '去掉搜索< > 以及尖括号内容的正则表达式
ReDim RowData(m.Count - 1)
For i = 0 To m.Count - 1
RowData(i) = FormatRowData(r.Replace(m(i).Value,strRegex,""))
Next i
'下面代码是针对特殊字段处理的,这里对IC交易网的一个页面进行处理
Dim startpos As Integer
Dim strTem As String
strTem = RowData(m.Count - 1)
startpos = InStr(strTem,"_blank"">",CompareMethod.Text)
If startpos > 0 Then
strTem = Mid(strTem,startpos + 8,Len(strTem) - startpos - 7)
RowData(m.Count - 1) = strTem
End If
Return RowData
End Function
'格式化字符串,去掉特殊字符,截断超长字段。
Private Function FormatRowData(ByVal mystr As String) As String
'"insert into 抓到的数据 (品名,型号,规格,品牌,产地,单价,公司,产品分类) values ('C2012X7R1H683KT000N','EPCOS','2005','new','60','面议',' 深圳市万骅电子有限公司 电话:0086-755-83667038,83667786 83667781','真空电容')"
'无用字段“ ”
Dim newstr As String
newstr = Replace(mystr," ","")
newstr = Replace(newstr,"'","""") '去掉单引号
newstr = Replace(newstr,","") '去掉逗号
newstr = Trim(newstr) '去掉多余空格
FormatRowData = newstr
End Function
'得到分解字段的内容
Public Function GetResoult()
Dim RowData() As String '提取出的某一行的数据放到这个数组
Dim ReturnData(5,1) As String '将要返回的结果集合
Dim m As System.Text.RegularExpressions.MatchCollection
Dim My_URL As String
Dim Str_Temp As String
My_URL = Url
Str_Temp = GetHtmlCode(My_URL) '得到网页的源文件代码
Str_Temp = Replace(Str_Temp,"")
m = Get_ZhengZe_Resoult(Str_Temp) '得到每个<tr>..</tr>中的数据
Dim i,j As Integer
ReDim ReturnData(5,m.Count - 1)
For i = 0 To m.Count - 1
'提取结果
RowData = Get_RowData(m(i).Value) '返回结果已经放到数组 RowData() 中
'处理每一行的内容。
For j = 0 To UBound(RowData)
'Str_Temp = Str_Temp & RowData(j).ToString & ","
ReturnData(j,i) = RowData(j)
Next j
Next i
Return ReturnData
End Function
'得到分解字段的内容
Public Sub Get_File_Resoult()
Dim RowData() As String '提取出的某一行的数据放到这个数组
Dim m As System.Text.RegularExpressions.MatchCollection
Dim My_URL As String
Dim Str_Temp As String
My_URL = Url
Str_Temp = GetHtmlCode(My_URL) '得到网页的源文件代码
Str_Temp = Replace(Str_Temp,"")
m = Get_ZhengZe_Resoult(Str_Temp) '得到每个<tr>..</tr>中的数据
'Write_Log("log_file.log",My_URL)
Dim path As String
path = CurDir()
path = path & "/" & "tempdata.txt"
If File.Exists(path) Then '如果文件不存在,就创建一个
File.Delete(path)
'如果文件存在,就删除。
End If
Dim fs As FileStream = File.Create(path) '重新创建一个文件。
fs.Close()
Dim file1 As New System.IO.StreamWriter(path,True)
Dim i,j As Integer
For i = 0 To m.Count - 1
Str_Temp = ""
'提取结果
RowData = Get_RowData(m(i).Value) '返回结果已经放到数组 RowData() 中
'处理每一行的内容。
For j = 0 To UBound(RowData)
Str_Temp = Str_Temp & RowData(j).ToString & ","
Next j
Str_Temp = Mid(Str_Temp,1,Len(Str_Temp) - 1)
file1.WriteLine(Str_Temp)
Next i
file1.Close()
'RaiseEvent One_URL_Complete(m.Count) '发送消息表明成功完成一个URL页面的处理,并返回成功导入数据库的记录数.
End Sub
End Class
挺长的吧,主要是分解一个网页中的表格中的数据。把<tr><td>..</td></tr>中的数据分析出来。并放到一个2维数组里面了。
然后当然是生成Dll,了。在解决方案那里选择生成解决方案。然后到解决方案目录下面的bin目录里面拷贝出test.dll 备用。
第二步,制作一个test.aspx,另外建立一个解决方案,新建Visual Basic 项目,模版选择 ASP.net Web 应用程序。选择引用,添加引用,浏览。选择刚刚那个TEST.Dll,然后选择“确定”
然后再新建立的WebForm1.aspx 上双击,进入代码窗口。
在Private Sub Page_Load 中加入下面代码
Dim x = New Test_DLL.Data_Copyer
x.Url = "http://www.XXXXXXXXXX.asp" '这里是需要抓内容的页面
Dim bb(5,1) As String '我这里特殊项目,需要这样设置。
bb = x.GetResoult()
Dim i,j As Integer
For i = 0 To UBound(bb,2)
For j = 0 To 4
Response.Write(bb(j,i).ToString)
Next
Response.Write("<br>")
Next
运行一下就可以了。 具体情况要具体对待。我的上述代码如果不加修改,肯定是要出错的。
上面的过程是个制作的思路。