李思晓又一个WordPress站点

浏览: 165

新闻报道只能是快消品?《纽约时报》说要成为有用的信息数据库-全媒派汽配店还记得Flash吗?Adobe将于2020年12月下架这款软件,它可是早期网页游戏和??


新闻报道只能是快消品?《纽约时报》说要成为有用的信息数据库-全媒派
汽配店还记得Flash吗?
Adobe将于2020年12月下架这款软件,它可是早期网页游戏和视频的老搭档视觉遗像 。过去几年间,Chrome、Edge和Safari等浏览器都陆续停止或限制了对Flash播放器的支持。这么多Flash游戏、交互界面失去支撑,将会面临一个更大的问题:如何从互联网历史的垃圾箱里,拯救过时格式的内容?
这正是《纽约时报》为保存其20年来的电子内容一直在做的努力。本期全媒派(ID:quanmeipai)带来尼曼实验室的文章,解析NYT所做出的尝试。

NYT存档页面

NYT初步努力的成果
《纽约时报》正在推动NYTimes.com系统由老版本NYT5转向最新版本NYT VI。在改动之后,文章页面可能会损坏,或被硬塞入新的页面格式中,丢失一些老版本里的重要元素。NYT最近开始将其已发布的内容(包括网页、图像、字体和CSS文件)从自有的数据中心转移到云服务器,以便尽可能多地保存老页面。
目前,读者已经可以见到一部分努力的成果。在过去的几个月里,《纽约时报》开始导流一些旧报道的流量到archive.nytimes.com。例如,如果你搜索NYT有关911袭击的实时报道,那你就会进入到下图这个存档页面。在上面,你会看到当年所呈现给读者的页面。不过,你现在看到的这个页面并没有广告,因为当年所用的老广告技术大部分已经不管用了重生之寒锦。同时,你也不会看到“阅读最多”或“回复最多”这样的模块。

目前,这些保存页面都在NYT的付费墙外。
“我们去年夏天开始这项工作,一些认为保留报道原始版本十分重要的人员参与到其中我的书记人生,十分令人激动。”《纽约时报》高级产品经理Eugene Wang说道。Wang是NYT存档项目核心工作组的一员,这个项目归属于一项更大的内部计划“Kondo项目”,职责包括重新核查网站的旧报道,决定保存和关闭的内容。“我们原本打算用另一套计划,即我们将拥有的所有文章都发布在新平台上。但是我们又意识到,呈现报道最初发布的样态是有价值的。我们的存档平台同时可以展示数字报道的工具是如何演变的宜修传小嫡妻 。”
下图是2012年纽约时报《愤怒的小鸟、Farmville和其他超级上瘾的“愚蠢游戏”》报道,目前在网站上所显示的页面。

点击“see how this article appeared when it was originally published on NYTimes.com”(看看这篇文章最初发布在NYTimes.com上的版本),你会进入到archive.nytimes.com存档版本的文章页面中,该页面几乎复刻了2012年报道里附加的flash游戏。



NYT的存档技术揭秘
“因为我们在将内容从www.nytimes.com搬运到archive.nytimes.com,其中一些内容还依赖于原来特定的格式,且在搬运后已失效秦驷,所以我们需要弄清楚,如何自动识别这些未曾被维护过但一直向读者开放的页面。”《纽约时报》软件工程师Justin Heideman说道,是他打造了协助电子存档的内部工具。
“我们发现的大部分内容都已损坏。这些都是10年前的内容,甚至更久,并且可能已有9年多没有进行维护了。当我们发现已损坏的内容时,需要从技术层面弄清楚它损坏的原因,是否是因为一些特殊原因,或是否是整个分类下的网页都已损坏。”
最初,NYT团队通过Chrome浏览器截屏的方式在谷歌云保存了74万篇文章,如果存档过程中出现严重错误的话,至少还能以这种方式保存文章。Heideman具体描述了他将页面转移到NYT官方存档网页而做出的工具:
“针对存档,我们做了一个叫做‘munger’的工具。它在JavaScript中是一个很复杂的查找和替换引擎,我们可以通过它找到未运行的服务器、动态代码块、旧标签和各种其他垃圾,并将这些清除干净。最终我们得到的会是整理好的、干净的HTML来分享出去,并且相当靠谱。Munger运行时使用的是我们复制到谷歌云存储(GCS)的未修改数据,并将存档的HTML输出到另一个GCS存储桶中。因此,我们在发现/修复bug的时候仍可以一遍又一遍运行该通道。
“我们还尝试将HTTP页面更新为HTTPS,为了便于实现更新,我们使用了相同的工具进行截图,高峰圭二以便能在浏览器中分析页面,并查看它们是否会导致内容错误混乱(即HTTPS页面试图加载HTTP内容),这将会损坏网页。因此,我们的存档混合了HTTP和HTTPS页面。
“对我们来说,修复每一个页面是不切实际的。我们通过向页面本身注入一些相关数据来实现这一点,这可以让注释脚本弄清楚是不是HTTPS,还可以在页面上添加可视化页眉,让访问者知道它是存档页面。”



存档的意义何在?
“有一些内容通常一直保持正常状态。大多数情况下,存档是人们很少会考虑的事情,除非出了差池。这些报道如此依赖于代码和特殊设计而存在,而每个人又都在关注新的报道,所以整体来说,并没有多少精力去考虑旧报道还能不能看的问题欲火焚神恋夏38℃。”《纽约时报》新闻平台助理编辑Albert Sun说道,“当我们开始使用最新的网站系统时,虽然它可以提供最新的广告模块,很好地应用于订阅机制中,移动端的优化也很不错,但我们会因此失去许多原来的内容。想想这么多年在生产这些报道上所耗费的工作量和注意力只有梦里来去,这么做就真的太可惜了。”
“访客进入损坏页面会发送反馈,内部也有报告问题的渠道。尽管如此,页面还是会经历损坏。例如,现在有数万个NYTimes.com页面包含flash图像。”Heideman说道。2020年以后,当对flash的支持彻底掐断,像《纽约时报》这样的网站会如何处理那些内容?而flash只是众多问题中的一个。例如还有,去年《纽约时报》开始在NYTimes.com上启用HTTPS,但那之前的报道并没有提供安全链接。
“一些有关旧报道的例子显示,当我们把它们移入存档之中时,仍有大量读者对这些报道很感兴趣,或发现一篇报道可能在搜索中排名非常靠前,而链接已经失效,这让人感到十分不爽。”Sun说道。比如,2005年David Leonhardt一个有关美国收入和阶级的项目,被列为课堂阅读的一部分异界修仙成圣 ,“一群学生表示,做不了作业了。这倒是个不错的提醒,即便十多年后,人们仍能在那个页面上找到价值。”
“对我们而言,除了保证自己的网页正常服务,一些外部渠道也需要继续保持运作。例如,谷歌搜索可能将我们一张关于乔治布什的照片编入索引。如果我们损坏该照片,那么人们也会丢失相关搜索,同时我们自己也会失去该渠道的导流。”Heideman说道拉拉爱英文版,“我们喜欢自诩为社会的记录者福耳库斯,但重要的是,我们真正保存了这些记录。”



全文详见:https://p66p.cn/1577.html

TOP