1.城里人说乡下人怎么那么不文明啊,straight说gay怎么那么怪啊,没欲望的人说有欲望的人怎么那么邪恶啊,站着的人奇怪弯腰干活的人怎么会腰疼啊,任何抱怨和批判,只能代表差异,不能说明高低贵贱。 2.时间就是物质衰变过程 3.创造比毁灭难很多倍,此外创造者还要面临很多毁灭者 4.感受即落差,因此痛点高不能说明忍耐力强 5.中国的学校都是中医院,学历高的人能力普遍强一些,但真正其作用的是学校里教的东西吗?就像中医药,其作用的到底是什么成份,医生并不知道。 6.中国人普遍用病态的方式绕过病态的问题,过着在有形成本低,无形成本高的生活。 7.大部分的问题根源是懒惰,先用省事省脑子的方法做了,再也不加以维护,以后是否出问题碰运气。

判断来源一般有4个途径: 1.cookie,只适用于用户行为,浏览器需开启cookie功能,接受服务器的cookie请求 2.http referer,只适用与用户行为,浏览器都会自动写这个字段 3.url参数,完全通用 4.javascript,只适用于用户行为,需要浏览器支持

因此想统计搜索引擎爬虫来源,只能在url上添加参数了,例如,www.domain.com/path/?src=product.domain.com 并且这类url做301跳转=>www.domain.com/path/ 建议在服务器中寻求解决方案,跳转的同时增加?src=product.domain.com的访问日志.否则只能在www.domain.com/path/对应的程序中处理了.

判断用户来源一般有4个途径: 1.cookie,不影响url,不精准,无额外负荷 2.http referer,不影响url,不精准,无额外负荷 3.url参数,影响url,精准,无额外负荷,比如http://seoaqua.com/?sourceid=yyy,非web渠道的用户行为可以使用这种方式,与seo无关 4.javascript,不影响url,精准,可能有额外负荷 5.url参数+程序redirect,不影响url,精准,可能有额外负荷

很多公司自开发的统计系统模仿早期统计系统的思路,为了照顾所有情况均,采用第3种方式,也许是urchin是罪魁祸首吧。 只要不影响url,就可以长期使用,若影响url则只能短期使用。一般是有大改版的时候才能启用3这种方式,收集足够的信息后就需要撤掉。

第3种方式有什么害处? 首先会造成搜索引擎额外工作量,其次是让搜索引擎发现本网站有重复内容,最重要的是目标页面的权重被分散了。

统计分2方面,站外、站内。 站外是基本无法使用js和cookie的,那么只能使用2和3的方法,使用3的前提是那个页面有大于1个链接指向本网站,但这种情况有多少,是否有必要? 站内完全可以使用第3种方式。 因此正确的做法是第4种

最后解释一下第5种方式,这是一种平滑过渡的方法,可以在程序里判断是否存在类似“sourceid”的参数,若存在,则返回301,输出不带”sourceid”的地址。 例如http://seoaqua.com/?sourceid=yyy,跳转到http://seoaqua.com/ 为什么在程序里做?因为url参数的记录一般是交给前端服务器的,必须经过这一层,才能统计到,在程序里做跳转就肯定会经过前端服务器了。 具体的做法因不同技术架构而定,请不要照搬。

搜索引擎收录注入是我自己瞎编的名词。 假设现在有A,B网站,还有搜索引擎C A网站由于漏洞,某类搜索功能开放了收录,一般意图是为了被C收录从而增加被检索的几率。 B网站根据漏洞规则贴一批广告性质的链接,例如http://www.xxx.com/search?q=广告内容,被C正常收录。 此时在C搜一些广告内容时会出现A的url,一般广告都是色情内容,可能会对A有各种负面影响。 为解决这个问题,需要技术上保证能识别哪些词汇是有正常返回内容,哪些没有。 比如在A搜“xxx商品”在数据库中有结果,能返回正常内容,但是搜“xxx广告,复制地址xxx.xxx.com”就没有正常结果。 当无正常结果时,可以在html header中增加 <meta name=”robots” content=”noindex”> 当然百度是不支持这个的.先不建议返回404,因为有些垃圾运营商会监控数据,当出现404的时候很可能就插播广告了(也可能是我记错了,也许只在dns解析失败时才插播广告)。 如果发现noindex不能解决问题,那只能采用404了.

linux目录架构 / 根目录 /bin 常用的命令 binary file 的目錄 /boot 存放系统启动时必须读取的档案,包括核心 (kernel) 在内 /boot/grub/menu.lst GRUB设置 /boot/vmlinuz 内核 /boot/initrd 核心解壓縮所需 RAM Disk /dev 系统周边设备 /etc 系统相关设定文件 /etc/DIR_COLORS 设定颜色 /etc/HOSTNAME 设定用户的节点名 /etc/NETWORKING 只有YES标明网络存在 /etc/host.conf 文件说明用户的系统如何查询节点名 /etc/hosts 设定用户自已的IP与名字的对应表 /etc/hosts.allow 设置允许使用inetd的机器使用 /etc/hosts.deny 设置不允许使用inetd的机器使用 /etc/hosts.equiv 设置远端机不用密码 /etc/inetd.conf 设定系统网络守护进程inetd的配置 /etc/gateways 设定路由器 /etc/protocols 设定系统支持的协议 /etc/named.boot 设定本机为名字服务器的配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0 设置IP /etc/resolv.conf 设置DNS /etc/X11 X Window的配置文件,xorg.conf 或 XF86Config 這兩個 X Server 的設定檔 /etc/fstab 记录开机要mount的文件系统 /etc/inittab 设定系统启动时init进程将把系统设置成什么样的runlevel /etc/issue 记录用户登录前显示的信息 /etc/group 设定用户的组名与相关信息 /etc/passwd 帐号信息 /etc/shadow 密码信息 /etc/sudoers 可以sudo命令的配置文件 /etc/securetty 设定哪些终端可以让root登录 /etc/login.defs 所有用户登录时的缺省配置 /etc/exports 设定NFS系统用的 /etc/init.d/ 所有服務的預設啟動 script 都是放在這裡的,例如要啟動或者關閉 /etc/xinetd.d/ 這就是所謂的 super daemon 管理的各項服務的設定檔目錄 /etc/modprobe.conf 内核模块额外参数设定 /etc/syslog.conf 日志设置文件 /home 使用者家目录 /lib 系统会使用到的函数库 /lib/modules kernel 的相关模块 /var/lib/rpm rpm套件安装处 /lost+found 系統不正常產生錯誤時,會將一些遺失的片段放置於此目錄下 /mnt 外设的挂载点 /media 与/mnt类似 /opt 主机额外安装的软件 /proc 虚拟目录,是内存的映射 /proc/version 内核版本 /proc/sys/kernel 系统内核功能 /root 系统管理员的家目录 /sbin 系统管理员才能执行的指令 /srv 一些服務啟動之後,這些服務所需要取用的資料目錄 /tmp 一般使用者或者是正在執行的程序暫時放置檔案的地方 /usr 最大的目录,存许应用程序和文件 /usr/X11R6: X-Window目录 /usr/src: Linux源代码 /usr/include:系统头文件 /usr/openwin 存放SUN的OpenWin /usr/man 在线使用手册 /usr/bin 使用者可執行的 binary file 的目錄 /usr/local/bin 使用者可執行的 binary file 的目錄 /usr/lib 系统会使用到的函数库 /usr/local/lib 系统会使用到的函数库 /usr/sbin 系统管理员才能执行的指令 /usr/local/sbin 系统管理员才能执行的指令 /var 日志文件 /var/log/secure 記錄登入系統存取資料的檔案,例如 pop3, ssh, telnet, ftp 等都會記錄在此檔案中 /var/log/wtmp 記錄登入者的訊息資料, last /var/log/messages 幾乎系統發生的錯誤訊息 /var/log/boot.log 記錄開機或者是一些服務啟動的時候,所顯示的啟動或關閉訊息 /var/log/maillog 紀錄郵件存取或往來( sendmail 與 pop3 )的使用者記錄 /var/log/cron 記錄 crontab 這個例行性服務的內容 /var/log/httpd, /var/log/news, /var/log/mysqld.log, /var/log/samba, /var/log/procmail.log: 分別是幾個不同的網路服務的記錄檔

原文地址:http://topic.csdn.net/u/20070302/11/8d39802a-17b3-42b2-81ec-8f547811a728.html?39922