搜索引擎操作

发布于 2023-09-08  306 次阅读


搜索引擎处理流程

  • 数据预处理
    • 长度截断
    • 大小写转化
    • 去标点符号
    • 简繁转换
    • 数字归一化,中文数字、阿拉伯数字、罗马字
    • 同义词改写
    • 拼音改写
  • 处理
    • 分词
    • 关键词抽取
    • 非法信息过滤

搜索技巧

  • site:www.hao123.com
    • 返回此目标站点被搜索引擎抓取收录的所有内容
  • site:www.hao123.com keyword
    • 返回此目标站点被搜索引擎抓取收录的包含此关键词的所有页面
    • 此处可以将关键词设定为网站后台,管理后台,密码修改,密码找回等
  • site:www.hao123.com inurl:admin.php
    • 返回目标站点的地址中包含admin.php的所有页面,可以使用admin.php/manage.php或者其他关键词来寻找关键功能页面
  • link:www.hao123.com
    • 返回所有包含目标站点链接的页面,其中包括其开发人员的个人博客,开发日志,或者开放这个站点的第三方公司,合作伙伴等
  • related:www.hao123.com
    • 返回所有与目标站点”相似”的页面,可能会包含一些通用程序的信息等
  • intitle:"500 Internal Server Error" "server at"
    • 搜索出错的页面
  • inurl:"nph-proxy.cgi" "Start browsing"
    • 查找代理服务器

除了以上的关键字,还有allintile / allinurl / allintext / inanchor / intext / filetype / info / numberange / cache等。

通配符

  • * 代表某一个单词
  • OR 或者 | 代表逻辑或
  • 单词前跟 + 表强制查询
  • 单词前跟 - 表排除对应关键字
  • " 强调关键字

小知识点

  • 查询不区分大小写
  • 括号会被忽略
  • 默认用 and 逻辑进行搜索

快照

搜索引擎的快照中也常包含一些关键信息,如程序报错信息可以会泄漏网站具体路径,或者一些快照中会保存一些测试用的测试信息,比如说某个网站在开发了后台功能模块的时候,还没给所有页面增加权限鉴别,此时被搜索引擎抓取了快照,即使后来网站增加了权限鉴别,但搜索引擎的快照中仍会保留这些信息。

Github

在Github中,可能会存在源码泄露、AccessKey泄露、密码、服务器配置泄露等情况,常见的搜索技巧有:

  • @example.com password/pass/pwd/secret/credentials/token
  • @example.com username/user/key/login/ftp/
  • @example.com config/ftp/smtp/pop
  • @example.com security_credentials/connetionstring
  • @example.com JDBC/ssh2_auth_password/send_keys

15个常用的高级运算符合搜索技巧

1. 搜索完全匹配的结果

运算符:“”

例如:“百度地图”,其返回结果仅包含与百度地图四个字匹配的结果,而不包含其他变体的搜索结果。

2. 从搜索结果中排除特定字词

运算符:-

用法:在要排除的字词前面加上-(需要注意的是在-和排除字词中间不能有空格)

例如:中国美食 -辣,其返回结果就不会包含和“辣”有关的中国美食,其能很好地为你排除干扰项。

3. 组合运算符

运算符:OR

用法:在各个搜索查询词之间加上“OR”,或者是“|”。

例如:音乐OR诗词 背景,其返回结果就是包含音乐或者诗词的背景结果。

4. 组合运算符

运算符:AND

用法:在各个搜索词查询字词之间加上大写的AND,或者+。

(谷歌默认使用的就是AND,因此通常用不到)

5. 组合运算符

运算符:()

用法:在需要查询的字词前后加上()括起来。

其实际同数学中的()是同样的作用,在于调整运算顺序。

6. 通配符

运算符:*

用法:在两个搜索词之间或者前后加上*(*同正则表达式中的作用一致:在于匹配0-n个任意字符)

可以用来仅在只知道部分内容的时候用*进行补全。

7. 搜索社交媒体

运算符:@

用法:在字词前面加上@用于搜索社交媒体账号

例如:@tyhty,就会返回关于tyhty的社交媒体信息。(但是在对中国的社交媒体平台并没有支持,因此并不会返回微博和微信结果。)

8. 搜索价格

运算符:$

用法:在表示价格的数字前面添加$。

例如:相机 $1000,就会返回结果为1000元的相机的相关搜索结果。

9. 表示某个区间范围

运算符:..

用法:在两个数字之间添加..

例如:相机 $1000..$9999,就会返回价格区间在1000-9999之间的相机的相关搜索结果。

10. 搜索特定文件

运算符:filetype:

用法:在想要搜索的内容前面添加相关的文件格式,filetype:ppt。

例如:filetype:ppt 社会实践,其就会返回和社会实践相关的ppt文档结果。

11. 在特定网站进行搜索

运算符:site:

用法:在搜索的网站前面添加site:。

例如:site:baidu.com,其返回结果就会是百度的网站。

12. 搜索相关网站

运算符:related:

用法:在已知的网址前面添加related:。

例如:related:google.com,其返回结果就会是同google.com相关的网站。

13. 查找标题中带有特定词语的网页

运算符:intitle:和allintitle:

用法:在搜索词前面添加intitle:或者allintitle:

区别:intitle:用于搜素单个词,而allintitle:用于搜索多个词。

14. 查询url中带有特定词语的网页

运算符:inurl:和allinurl:

用法:在搜索的词前面添加inurl:或者allinurl:

区别:inurl:用于单个关键词,allinurl:用于多个关键词。

15. 查找网页内容中带有关键词的网页

运算符:intext:和allintext:

用法:在搜索词前面添加intext:或者allintext:

区别:同上,也是单个关键词和多个关键词的区别。

这就是常见的一些Google快速搜索定位的搜索关键词,还有许多其他功能的关键词就不一一列举了。

参考网址:https://zhuanlan.zhihu.com/p/534553787?utm_id=0


一花一世界,一叶一菩提。