Antkillerfarm Hacking V8.5

technology » 爬虫, scrapy, UPNP（二）, 数值计算

2019-07-17 :: 5860 Words

爬虫
scrapy
UPNP（二）
数值计算

爬虫

下载流媒体视频

浏览器：开发工具->Network

这里会展示所有从网络下载的数据包，至于视频当然是找数据最大的那几个包了。

xxd <key file>

openssl aes-128-cbc -d -in 原.ts -out 解密后.ts -nosalt -iv 偏移量 -K key16进制

https://www.cnblogs.com/String-Lee/p/11391893.html

关于m3u8格式的视频文件ts转mp4下载和key加密问题

HTTP Live Streaming（缩写是HLS）是一个由苹果公司提出的基于HTTP的流媒体网络传输协议。在Apple的平台上无需任何安装即可打开，Chrome/Firefox需要安装插件才可以播放。

https://blog.csdn.net/aoshilang2249/article/details/82012187

HLS直播协议m3u8详解

自动解析网页的结构化数据

抽取结构树，对比两个网页的dom tree的相似度（卷积核），找出并抽取相似节点。

参考：

http://www.doc88.com/p-2045913772352.html

Web页面中结构化数据抽取的实现与应用

http://www.cnblogs.com/codemind/p/smart_spider_parser.html

爬虫数据采集技术趋势－智能化解析

boilerpipe

各个网站的HTML版面样式多种多样，如何从中提取正文，是一个很有挑战性的课题。

传统的html解析或者正则式，虽能完成任务，但需要给每个网站单独提供一个模板，通用性不佳，而且一旦网站改版，相应的解析模板也需要修改，这导致后期的维护成本也很高。

boilerpipe是一个用于提取HTML正文的库。它采用机器学习的思想，通过提取DOM树的特征，学习得到正文的内容。

官网：

https://github.com/kohlschutter/boilerpipe

参考：

http://baojie.org/blog/2014/06/23/python-text-extraction/

总结Python正文提取的工具包

参考

https://mp.weixin.qq.com/s/X9NPFFTHTk62V21o63ceOA

Python 爬虫的工具列表大全

http://www.gooseeker.com/

一个基于FireFox的网络爬虫。

https://mp.weixin.qq.com/s/0yDokR2dYzetUy4NI9edSQ

那些你不知道的爬虫反爬虫套路

https://mp.weixin.qq.com/s/yR_wENRSbxvfrcYr9O9BuQ

23个Python爬虫开源项目代码：爬取微信、淘宝、豆瓣、知乎、微博等

https://mp.weixin.qq.com/s/38ofY693bXwFWIMNqYx4-A

常用的Python爬虫技巧总结

https://mp.weixin.qq.com/s/Hp6tEQujSgCnPwSKhAE72g

关于Python爬虫，这里有一条高效的学习路径

https://mp.weixin.qq.com/s/0QnOgT8F090MOzazzsZfZA

不会编程也能爬数据！3个爬虫小工具教你实现

https://mp.weixin.qq.com/s/7HxZGSTJvxjvpAsF5LfS-g

零基础的我是这样开始写Python爬虫的

https://mp.weixin.qq.com/s/5sVrSxRAXWBn3-NBSlYMIg

不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据

https://mp.weixin.qq.com/s/z2uWLEWF6e0TJWIpXyY6mQ

如何用Python爬虫获取那些价值博文

https://mp.weixin.qq.com/s/SkGUZMgBW_oFBygc4d1zQg

如何用Python编写知乎爬虫？

https://mp.weixin.qq.com/s/-PPlfkHhQzGF1N6-dMlRNA

高阶Python爬虫实战：破解极验滑动验证码

https://mp.weixin.qq.com/s/w8U-GkOhAQivuHmrVFpw3w

Python爬虫抓取智联招聘

https://mp.weixin.qq.com/s/2Su1jN_XDr–VRHB18d7dQ

爬虫大神，又出新招

https://mp.weixin.qq.com/s/AVoySo0s6l85wTG9mgkrYQ

Python网络爬虫与信息抽取系列笔记（共8篇）

https://mp.weixin.qq.com/s/SEpclyZ5Y6iF7YF7_ZjQGg

爬虫实战：爬取当当网所有Python书籍

https://mp.weixin.qq.com/s/6A9wYqTrz_h5cR15WZwedQ

你还在付费爱奇艺VIP？神级程序员教你用Python任意下！

https://mp.weixin.qq.com/s/2k2XdzpLx5syeg_68LL4Xg

12行Python暴力爬《黑豹》豆瓣短评

https://mp.weixin.qq.com/s/RccEAl2g6P66RBuvxg9N1w

从Google百度到微博，优酷腾讯到抖音，这些爬虫你用过了吗？

https://mp.weixin.qq.com/s/WDovrR4octHEIOqSEs9pxA

Python爬虫的两套解析方法和四种爬虫实现

https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&mid=2247487342&idx=2&sn=e709ff7972ee21086f0b4aedb7c676aa

一文读懂网络爬虫！

https://mp.weixin.qq.com/s/LkEfbW5oscOXyPmb5iqcGA

Python爬取并分析拉勾网招聘数据

https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247493477&idx=4&sn=b5906ee7b5af7bd414b5223549a30e64

五十种最好用的开源爬虫软件

https://mp.weixin.qq.com/s/G2oo6HMHnQtHPqsoSxUHqQ

权力的游戏收官，我用Python致敬这场血雨腥风

https://mp.weixin.qq.com/s/WDeF3o_M4RQRgwd2iex_bg

基于Selenium模拟浏览器爬虫详解

https://mp.weixin.qq.com/s/hvv2esNsyt3xpO9x1NkCTQ

充气娃娃什么感觉？Python告诉你

https://mp.weixin.qq.com/s/sJcgkkL0lY6v7gPv2rW-eA

对比四种爬虫定位元素方法，你更爱哪个？

https://github.com/CriseLYJ/awesome-python-login-model

用Python登录主流网站

https://mp.weixin.qq.com/s/8YaSY_yBVyctLfamACmMlg

详解4种类型的爬虫技术

scrapy

scrapy是一个Python写的网页抓取分析工具。网页抓取分析的学名叫做“Web scraping”，可在wiki上获得更多的相关信息。

官网：

https://scrapy.org/

安装：

sudo apt install python-scrapy

scrapy crawl csdn

新建工程：

scrapy startproject tutorial

参考：

https://segmentfault.com/a/1190000000583419

一个中文简易教程。

https://github.com/scrapy/dirbot

官方例程。

http://www.cnblogs.com/fengzheng/p/4974509.html

另一个中文简易教程。

https://mp.weixin.qq.com/s/nIcUBS0lRrOwVUHoWmKecw

爬虫系列之使用scrapy框架

https://mp.weixin.qq.com/s/A2QNr4-LTUNy-H8zE0OgXA

教你用Scrapy建立你自己的数据集

https://mp.weixin.qq.com/s/i-umuOi8jGw8dMQmG44liQ

如何租到靠谱的房子？Scrapy爬虫帮你一网打尽各平台租房信息！这篇blog中，还有如何用Kibana处理数据的内容

https://mp.weixin.qq.com/s/hzl8D-AhpCwqZVSLTK56XQ

Python爬虫–Scrapy入门

UPNP（二）

自制的Control Point示例（续）

2.使用不方便。设备功能的XML描述文件居然是写死的，扩展极为不易。（gmediarender的XML描述文件是动态生成的。）

针对这些问题，我打算模仿gmediarender的写法，做一个Control Point的示例。

其代码重构的核心是：将用户需要扩展的业务功能，抽象为数据结构，并将这些数据结构的内容定义放在一起，以便于用户的修改。换句话说，用户只需要修改数组的内容，而不必修改代码，即可扩展业务功能。

在功能上，为了使这个示例更有意义，这里选择gmediarender作为和示例配套的Device程序。因为，gmediarender实现的是一个有实用价值的协议规范，而非demo，所需处理的情况也比demo复杂的多。

Step 1

这次，我打算从头开始搭建Control Point示例。也就是从main函数出发，逐步完善相关功能。这一步的代码在：

https://github.com/antkillerfarm/antkillerfarm_crazy/tree/master/helloworld/upnp/step1

该程序主要实现：

1.基本框架。包括初始化和注册Control Point。

2.通过SSDP的搜索功能，搜索网络设备。

Step 2

这一步的代码在：

https://github.com/antkillerfarm/antkillerfarm_crazy/tree/master/helloworld/upnp/step2

upnp-inspector

upnp-inspector是一个局域网内的UPNP协议的嗅探分析器。可充当DMC，推送多媒体数据到相关DLNA设备。安装方法如下：

sudo apt install upnp-inspector

upnp-inspector的功能包括：

1.列出局域网内的UPNP设备。

2.列出UPNP设备所支持的UPNP服务。

3.列出UPNP服务所支持的函数，并可发送相关函数。（左键双击树状列表中的函数名即可）

upnp-inspector是coherence的一部分。后者是一个Python语言写的DLNA框架。它的官网：

http://coherence-project.org/

upnp-inspector的代码地址：

https://github.com/coherence-project/UPnP-Inspector

libmcupnp

libmcupnp是一个基于libupnp的Control Point实现，用C++写的。从代码来看，明显参考了libupnp里的demo示例。

https://sourceforge.net/projects/libmcupnp/

gupnp

这是GNOME项目的upnp库，使用libsoup处理HTTP，libxml处理XML。它的官网是：

https://wiki.gnome.org/Projects/GUPnP

数值计算

两个数值趋近于无穷小且相近的数字相除的结果应该大约为1，但却因为分母接近为0而变成无穷。这时可以直接取对数执行运算，其结果在数值上会较为稳定。

Pollard-Rho（Pollard’s rho algorithm）是一种概率性的大整数分解算法，1980年由英国数学家John Pollard提出。它用很少的计算量，以高概率快速找到一个大合数的一个非平凡因子（不一定是质因子，但能把数“拆小”）。

所有现代大整数分解库都把Pollard-Rho放在第一轮筛因子的位置，是“试除法（1e5以下小质数）之后、重型算法之前”的标配轻骑兵。

这个问题不是模掉\(2\pi\)后代入就能完美搞定的，对于天文数字x你会发现算出来\(\sin(x)\)还是错的。

计算机科学家Mary H. Payne和Robert N. Hanek在1982年提出了Payne-Hanek算法，该算法完全绕过了大数加减带来的数值误差。

https://www.zhihu.com/answer/1977406006012158074

这个求sin的代码，感觉无懈可击啊，为什么会不对呢？

https://blog.csdn.net/HiWangWenBing/article/details/119772047

数学建模、科学计算、数值计算的关系

https://blog.csdn.net/HiWangWenBing/article/details/119790035

误差的种类、误差传播、误差分析

https://www.zhihu.com/question/444819295

控制周期越短，控制效果是否越好？

https://zhuanlan.zhihu.com/p/582590074

Cody Waite和Payne-Hanek归约算法的详细解释

您的打赏，是对我的鼓励