DeepSeek助力Python爬虫与文本分析 2025 new 我要报名 ¥5000
Peixun.net > 现场班 > 计量实证分析 > DeepSeek助力Python爬虫与文本分析 2025 new

DeepSeek助力Python爬虫与文本分析 2025 new

满意程度:     课程系列:A4
课时:0 分钟| 300人学习 分享 收藏
2025年新内容
Python师资培训-爬虫与文本分析
基于DeepSeek辅助的爬虫与文本分析
北邮博导陈远祥亲授和答疑

上课信息

上课时间: 2025年5月1-4日(四天)
9:00-12:00;14:00-17:00;答疑交流

上课地点: 南京现场班,同步远程直播;均提供录播回放

DeepSeek助力Python爬虫与文本分析 2025 new

1. 爬虫与文本分析概述

目标:了解爬虫和文本分析常见应用场景,如何高效分析文本价值

1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述

2) 爬虫和文本分析的技术难点,大模型如何辅助爬虫和文本分析

2. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识,学会简单网页制作

1) 什么是网络爬虫,爬虫的注意事项

2) http基本原理

3) web网页基础

4) 爬虫基本流程

3. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 常用网页数据解析方法,基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

4. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模

拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) get请求与post请求

3) 单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

5. Beautiful Soup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

6. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

7. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 云验证码识别

8. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法,理解分布式爬虫原理

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

5) 分布式爬虫原理

6) 分布式爬虫部署

9. 基于DeepSeek辅助的网络爬虫

目标:利用DeepSeek辅助爬虫,提高爬虫效率

1) 大模型在爬虫中的作用

2) 网页结构解析和信息提取:基于提示词的信息提取,生成代码进行信息提取

3) 爬虫代码的自动生成

4) 爬虫代码的解读和优化

10. 文本分析概述

目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战

11. 文本单元的提取与标注

目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法

1) 文本数据的读取:csv, excel, word, pdf, txt

2) 文本数据的清洗

3) 分词

4) 词性标注

12. 文本特征的选取与表示

目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点

1) 词袋模型

2) TF-IDF

3) Word2Vec

4) GloVe

5) Doc2vec

6) FastText

7) BERT深度学习方法

13. 关键词提取

目标:掌握三种关键词提取方法

1) 基于统计的方法:TF-IDF

2) 基于图算法的方法:TextRank,RAKE

3) YAKE

4) LDA

14. 文本分析的应用

目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

15. 基于深度学习的文本分析技术

目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的

引入

1) RNN

2) LSTM

3) textCNN

4) GRU

5) 注意力机制

6) BERT和Transformer

16. 基于DeepSeek辅助的文本分析

目标:DeepSeek辅助文本分析,高效提取文本价值

1) 利用大模型进行文本特征提取

2) 利用嵌入特征进行文本分类

3) 利用嵌入特征进行回归

4) 利用嵌入特征文本相似性提取和推荐

5) 利用嵌入特征进行零样本分类

6) 利用嵌入特征进行聚类

7) 少样本学习

8) 结构化数据提取

9) 内容摘要的提取

10) 内容分类

11) 情感分析

12) 文本知识图谱构建

13) 文本聊天机器人构建

14) 基于微调大模型的文本分析


报名时间 2025-01-20 00:00 至 2025-05-01 00:00
培训时间 2025年5月1-4日(四天)
培训地点 南京现场班,同步远程直播;均提供录播回放
培训费用 5000元,提供电子版发票+通知+结业证书
授课安排 9:00-12:00;14:00-17:00;答疑交流


【授课老师】

陈远祥,北京邮电大学副教授,博士生导师,北京大学博士,北京大学优秀博士后,人工智能资深讲师。主要科研方向:数据分析、大数据处理,人工智能。

发表SCI/EI学术论文100余篇,其中第一或通讯作者论文60余篇,授权国家发明专利20余项。主持国家自然科学基金面上项目,国家重点研发计划课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。国自然函评专家。IEEE、OSA会员,多个SCI期刊审稿人。



【课程大纲】

爬虫与文本分析概述

目标:了解爬虫和文本分析常见应用场景,如何高效分析文本价值

1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述

2) 爬虫和文本分析的技术难点,大模型如何辅助爬虫和文本分析


DeepSeek助力Python爬虫

1. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识

1) 什么是网络爬虫,爬虫的注意事项

2) http基本原理

3) web网页基础

4) 爬虫基本流程


2. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 常用网页数据解析方法,基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储


3. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) urllib中的get请求与post请求

3) requests单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护


4. BeautifulSoup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) BeautifulSoup简介

2) BeautifulSoup的页面解析

3) BeautifulSoup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择


5. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法


6. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 云验证码识别


7. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法


8. 基于大模型辅助的网络爬虫

目标:利用DeepSeek辅助爬虫,提高爬虫效率

1) 大模型在爬虫中的作用

2) 网页结构解析和信息提取:基于提示词的信息提取,生成代码进行信息提取

3) 爬虫代码的自动生成

4) 爬虫代码的解读和优化


DeepSeek助力Python文本分析:

1. 文本分析概述

目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战


2. 文本单元的提取与标注

目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法

1) 文本数据的读取:csv, excel,word, pdf, txt

2) 文本数据的清洗

3) 分词

4) 词性标注


3. 文本特征的选取与表示

目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点

1) 词袋模型

2) TF-IDF

3) Word2Vec

4) GloVe

5) Doc2vec

6) FastText

7) BERT深度学习方法


4. 关键词提取

目标:掌握三种关键词提取方法

1) 基于统计的方法:TF-IDF

2) 基于图算法的方法:TextRank,RAKE

3) YAKE

4) LDA


5. 文本分析的常见应用

目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功能

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析


6. 基于深度学习的文本分析技术

目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的引入

1) RNN

2) LSTM

3) textCNN

4) GRU

5) 注意力机制

6) BERT和Transformer


7. 基于大模型的文本分析

目标:AI大模型辅助文本分析,高效提取文本价值

1) 利用大模型进行文本特征提取

2) 利用嵌入特征进行文本分类

3) 利用嵌入特征进行回归

4) 利用嵌入特征文本相似性提取和推荐

5) 利用嵌入特征进行零样本分类

6) 利用嵌入特征进行聚类

7) 少样本学习

8) 结构化数据提取

9) 内容摘要的提取

10) 内容分类

11) 情感分析

12) 文本知识图谱构建

13) 文本聊天机器人构建

14) 基于微调大模型的文本分析



【联系方式】

尹老师

电话:13321178792

QQ:42884447

WeChat:JGxueshu

JGxueshu.jpg

课程订阅

讲师介绍


Peixun.net

DeepSeek助力Python爬虫与文本分析 2025 new

请认真填写以下信息,方便为您服务
  • 姓名:
  • 电话:
  • 邮箱:
  • 备注:
  • 邀请码:
  • 您还可以选择 登录 或者 注册 更方便您管理课程。

Peixun.net

您关于:

DeepSeek助力Python爬虫与文本分析 2025 new

的报名信息已经提交成功。

去购物车结算
您可以选择 登录 或者 注册 更方便您管理课程。
回头再说
联系顾问 顾问微信

邮件已发送!

已成功发送邮件到您注册的邮箱 请前往查询并点击链接重置密码

有待解答的问题

3 名学员对您的课程提问,需要您作出回答。 现在就去