xulihang's blog 2019-06-12T07:32:19+00:00 xulihanghai@163.com 英汉对比与翻译 2019-06-12T06:56:50+00:00 xulihang blog.xulihang.me/comparison-and-translation-between-English-and-Chinese 前文讲到了CAT工具和翻译理论,而我目前最感兴趣的莫过于英汉对比研究。

我们可以尝试翻译以下这句话:

Dams are a dramatic example of a human activity that degrades freshwater ecosystems.

百度翻译:

水坝是人类活动退化淡水生态系统的一个引人注目的例子。

搜狗翻译:

水坝是人类活动破坏淡水生态系统的一个戏剧性例子。

我的翻译如下:

人类活动会恶化淡水生态系统,水坝就是突出的一个例子。

英文中的定语可以同时存在于名词的前面和后面,但汉语一般都要放在前面。这样定语会会过长。我们可以把过长的定语转换成一个短句。另外还有dramatic这个表示程度的形容词,在中文中很难找到对应的表达,这个时候需要结合语义,选择合适的中文词。

以上例子来自MTI教材,秦洪武、王克非编著的《英汉比较与翻译》。

关于英汉比较与翻译这个书名,网上就有不少翻译版本,这本书翻译为Comparison and Translation Between English and Chinese是比较合理的。我一开始想,如果对比研究的目的是为了指导翻译实践,则可以翻译成Comparison of English and Chinese and its application in translation。

英汉对比研究涉及的更多的是语言学层面的内容,很多讲英汉对比与翻译的书本质上还是借助翻译来对比两种语言,并且会使用大量的语言学术语。这本书在我看来与实践结合得更加紧密,所以打算阅读这本书,做一些笔记。

第一章 语言比较

主要讲翻译需要在有足够的双语能力的基础上进一步培养转换文本的能力。并给出了一个例子,就是我上面举的。

汉语和英语,一个是象形文字,一个是表音文字,存在很多的不同。但它们都是用于描述这个世界上存在的事物的,所以文字底下的语义是大致相同的。

这里我在引用许渊冲的一段话,可以说是很好的概括了翻译的要义。

译可译,非常译。 忘其形,得其意。 得意,理解之始; 忘形,表达之母。 故应得意,以求其同; 故可忘形,以存其异。 两者同出,异名同理。 得意忘形,求同存异: 翻译之道。

Translation is possible: it’s not transliteration. Forget the original form; get the original idea! Getting the idea, you understand the original; Forgetting the form, you express the idea. Be true to the idea common to two languages; Be free from the form peculiar to the original! Idea and form are two sides of one thing. Get the common idea; forget the peculiar form; That’s the way of literary translation.

—— 许渊冲《译笔生花》前言,文心出版社,2005

第二章 词

第三章 句子结构

第四章 并列句、复合句

第五章 语篇

第六章 英汉文化比较

待更新……

]]>
CAT工具与翻译理论 2019-06-12T04:49:50+00:00 xulihang blog.xulihang.me/CAT-tools-and-translation-theories 写这篇文章主要是因为我在开发和使用BasicCAT过程中,主要关注的都是资源管理、团队协作、交互设计以及具体的实现等问题,但对于翻译这一转换过程本身并没有太多关注。目前计算机辅助翻译的核心就是翻译记忆和句段分割,辅之以各种双语资源,并提供流程管理和质量检查功能。另外作为编辑器,会想方设法减少用户的操作次数。

但很明显,目前的CAT软件是基于语言服务行业需求设计的,并没有融入多少翻译学的知识,设计者本身可能没有多少翻译研究的背景。

这样带来的一个缺点是译员需要去适应工具,并且在自动化工具的影响下,翻译变成了一件体力劳动,特别是机器翻译的介入,译者已经不需要做传统的分析转换和重构工作,更多地是直接阅读译文来了解原文意思,并做一点编辑。

但其实,不管是直接翻译还是译后编辑,都需要了解一点翻译的理论知识,这样在翻译中碰到问题还可以有理论支持,做出修改也更有底气。

而将理论融入到软件设计之中,目前看来,还没有软件能够做好。

之前整理的一些翻译理论:

整理中:

]]>
基于Elasticsearch构建翻译记忆Web服务 2019-06-11T11:44:50+00:00 xulihang blog.xulihang.me/translation-memory-web-service-based-on-elasticsearch 此前的一篇文章翻译记忆服务器探究主要介绍了Pootle采用的基于PostegreSQL的amagama和Elasticsearch两种实现方式。

PostegreSQL对性能要求没有Elasticsearch那样高,但是学习难度不小。我这里先基于提供REST API的Elasticsearch设计自己中间件程序,用于提供翻译记忆检索的Web服务。

构想的索引结构见以下新建索引的命令:

$ curl -XPOST 'http://localhost:9200/tm/_doc?pretty' -H 'Content-Type: application/json' -d '
{
    "creator": "kimchy",
    "createdTime": "1560259504000",
    "field": "generic",
    "tag": "自我介绍",
    "doc": {"id":"", "filename":"", "seg_num":,""}
    "text": {"zh":"我是男人。","en":"I am a man."} 
}

在检索时,比如检索英译中项目的翻译记忆,可以使用以下命令:

curl -XGET 'http://localhost:9200/tm/_search?pretty=true' -H 'Content-Type: application/json' -d '
{
    "query" : {
        "bool": {
            "must":
                [
                    {"match" : { "text.en": "I am a woman." }},
                    {"exists" : { "field": "text.zh" }}
                ]
            }
        }
}'

获得检索结果后可以进一步用编辑距离计算相似度并排序。

其实索引的内容是照搬了现有的翻译记忆的条目设计,比如谁创建的,什么时候创建的,一条记忆可以包含多个语种的文本。除此以外,还可以设置领域和标签。领域的种类是有限的,而标签可以由用户自行添加。

关于如何上传翻译记忆,有两种方法,一种是用户翻译一条,上传一条,一种是导入tmx文件或者其它双语格式文件。

使用前一种,则基本可以替代本地的翻译记忆数据库,直接通过网络API保存和检索翻译记忆。后一种因为是翻译结束后导入,可以保证质量。另外,导入的双语文件可以是xliff或者是BasicCAT的工作文件,这样可以提供上下文信息。所以我在上面的索引结构里还添加了翻译记忆来自于哪个翻译文件,对应的片段号是多少。

还要考虑一个翻译记忆的更新问题,可以根据文件名和文本确定是否有该条记忆,如果有则进行更新操作,没有则新建一个索引项目。

做好核心功能后,还可以添加多用户的功能以及社区协作模式,类似globse。但用户多了可能难以确定哪个版本的质量好,如何保证质量还需要进一步研究。

相关链接:

elasticsearch 嵌套对象之嵌套类型

]]>
Fiddler修改网络请求返回结果 2019-06-11T02:10:50+00:00 xulihang blog.xulihang.me/use-fiddler-autoresponder-to-modify-response 最近碰到网易的一个表单系统提交图片失败的问题。于是我想研究下代码,看能否成功提交表单。该网站使用regularjs开发,生成的js文件没有minify,行数达到27000多行。对于本就不熟悉前端的我来说,调试的难度不小。

该表单除了基本的文字信息,还要传两张图片。使用的方法是利用form进行上传,然后返回服务器上的地址。因为上传会进行页面跳转,所以在上传时会先建立一个iframe用于上传,成功后再将其删除。

以下是上传部分的代码:

/**
 * 上传
 * @param form
 * @param callback
 * @private
 */
__upload: function (form, callback) {

    var self = this,
        //$form = $(form),
        ifr = document.createElement('iframe'),
        rnd = (Math.random() + '').substr(-8),
        name = 'upload-ifr' + rnd;
    ifr.style.display = 'none';

    // 需要在 append 页面时, 对 name 属性赋值
    ifr.setAttribute('name', name);
    document.body.appendChild(ifr);
    form.setAttribute('target', name);
    ifr.onload = function () {
        var ifrBody = ifr.contentDocument.body,
            html = ifrBody.innerHTML,
            json;
        html = html.replace(/^<.+?>/, '').replace(/<.+?>$/, '');

        json = eval('(' + html + ')');
        callback && callback(json);
        ifr.remove();
    };
    // 延迟零毫秒,再次提交
    setTimeout(function () {

        form.submit();

    }, 0);
},

上传时报错,内容如下:

Uncaught SyntaxError: Unexpected identifier
    at HTMLIFrameElement.ifr.onload (index.js:482)

对应的内容是json = eval('(' + html + ')');

于是我就网上搜索该错误,说是要把引号换成双引号。我直接在浏览器中修改js,发现不能生效。

我想起之前爬取netflix时使用的Fiddler,可以用本地文件替换请求的文件。因为Fiddler捕获流量是通过本地代理实现的,所以它可以在中间做操纵。

这一功能叫做AutoResponder。我们要设置需要截获的请求的URL和返回的本地文件的地址。

但是我直接替换js文件发现没有效果,可能是regularjs比较特殊。于是我转向修改文件上传请求的返回结果。因为是服务器返回的上传文件失败的错误,使得整个提交失败。

有两张图片需要上传,第一张可以上传成功,而第二张时会报错。我们可以把第一张的返回结果保存下来,以后上传的返回结果都用Fiddler修改为这一成功上传的结果,这样就可以成功保存信息。

但因为返回的结果中带有上传后的图片的服务器URL,这样两张图片的地址就一样了。好在上传两张图片时会出错,单独上传一张时可以成功。所以,只要重新单独上传那张图片就行了。

操作方法:

  1. 保存成功上传图片时的返回结果

    结果文件是个txt文件,内容如下:

     HTTP/1.1 200 OK
     Server: nginx
     Date: Tue, 11 Jun 2019 01:25:18 GMT
     Content-Type: text/html;charset=utf-8
     Connection: keep-alive
     Vary: Accept-Encoding
     Content-Length: 319
    
     {"code":"200","data":{"createTime":null,"description":"","id":14,"name":"图片名.jpg","nosKey":"715208-***","token":"","url":"图片URL"},"msg":""}
    
  2. 添加AutoResponder规则

记得开启Fiddler的流量捕获。

]]>
模式识别与人 2019-06-10T07:52:50+00:00 xulihang blog.xulihang.me/pattern-recognition-and-people 听CH2的音乐,《启航》、《快乐迪斯科》和《听雪恋歌》,可以感受到一种青春少女的风格,而《至我》则很像举办大型活动时播放的音乐。但要说为什么我会有这种感觉,我说不上。

最近看到严锋老师在微博上发了有关上海高考作文的内容,作文题目如下:

“倾听了不同国家的音乐,接触了不同风格的异域音调,我由此对音乐的‘中国味’有了更深刻的感受,从而更有意识地去寻找‘中国味’”

这段话可以启发人们如何去认识事物。请写一篇文章,谈谈你对上述材料的理解和感想。

照着材料里的说法,或许应该把各种风格音乐都接触一遍,然后才能感受到每种音乐的特点。每种风格应该可以由一些特征决定,比如使用的乐器,演唱者的声音,节奏,旋律变化等等。但因为我不是专业人士,不懂音乐欣赏,我只能有一个大概的认识。我能感受到CH2音乐有一种青春少女风,但对于为什么,则解释不清楚。

最近人工智能很火热,它的基础是机器学习方法。机器学习主要使用有监督学习,学习对一些特征做了标注的数据,从而完成分类任务。而最流行的机器学习方法是深度学习,它不需要我们对特征做提取。我们给机器一个输入和一个输出,比如输入为一封邮件,输出为是否垃圾邮件,它就能自动发现两者之间的联系,存储为模型。以后再给它一个输入,它就能利用这个模型进行输出。这是基于统计实现的方法。

当然人工智能有很多种,比如符号主义人工智能,它会使用各种逻辑判断来进行分类。比如判断是不是垃圾邮件,有如下的逻辑:

If 该邮箱地址的域名短时间内发送了大量邮件 And 邮件内容含有**等词语 Then 垃圾邮件

机器学习是基于统计的方法,而上述的则是基于规则的方法。两种都需要完成的任务是模式的识别。模式识别(pattern recognition)是和人工智能紧密相关的一个词,以前的计算机科学课程还没有机器学习,但会有模式识别。机器学习还是基于规则的方法,都属于模式识别。

模式识别的定义(来自维基百科):

The field of pattern recognition is concerned with the automatic discovery of regularities in data through the use of computer algorithms and with the use of these regularities to take actions such as classifying the data into different categories.

大致意思是从数据中自动发现规律并用于数据分类的方法。一般单独说模式识别时,指的是用计算机进行处理的方法。其实这里的定义已经倾向于使用统计式的方法,因为规则是需要人来制定的,就不能说是自动发现。

我们可以发现,机器的模式识别和人的模式识别有相似性。

规则是容易解释的,但是统计式的方法并不容易解释原理。这就像普通人对于音乐的感知一样,他能大致感受到某种风格,但不能给出清晰的解释。而不管是统计式还是规则,都需要对大量的数据进行分析才能完成复杂的分类任务。人也一样,需要接触很多内容,才能做出正确的分类,就比如各种音乐类型。

人的分类方法其实也有两种,一种是基于规则的分类方法,一种是基于神经元的统计式分类方法。

统计式方法给人大致的认识,比如能帮助人识别眼前的事物。而基于规则的方法,需要人后天学习,比如判断某篇文章是正面的还是负面的。利用规则的方法的准确度往往很高,结果是可解释的。

统计式方法常常需要和规则相结合,比如我们识别出了事物,该把它归为哪一类,这个类别是人为制定的。

不过人的大脑的机能至今也没有人能解释清楚,本文只是我自己的一点想法。

]]>
音域 2019-06-09T14:53:50+00:00 xulihang blog.xulihang.me/pitch-range 我没有学过乐理,对相关概念不是很熟悉,这次通过网络了解了音域相关的概念,把了解的东西整理成此文。

我最近用调音器检查自己唱歌的音的音准对不对。我唱歌虽然不怎么跑调,但音准把握得不好,唱的时候会有几个音,要么偏高,要么偏低。看网上说合唱的时候,让大家的调(key)和伴奏相配合不是一件容易的事,有时候需要把伴奏的调值降低一点。

研究过程中,我了解了音域(pitch range)的概念,就是人声音的范围。

首先了解下音高(pitch),这个词在语音学里也有用到,比如为了发出普通话的四个声调,音高要有变化。音高是由频率(frequency)决定的。

而在音乐中,音高就是我们常说的Do Re Mi Fa So La Si Do,也记作CDEFGAB。从较低音的Do到更高音的Do叫做一个八度(Octave),普通人有两个八度就不错了。

钢琴中存在7个八度,从左至右,在CDEFGAB下方标上数字,以表示属于哪个八度。如下面这个音域图(图片来源):

音高和频率需要有一个对应关系,一般A4对应440Hz。

另外表示八度还有其它的方法,什么大字组、小字组的,如下图所示(图片来源):

在传统西方歌剧里面,有分男女低中高音,以下来自维基百科

  • 女高音(Soprano): C4 (middle C) to C6 (high C)
  • 女中音(Mezzo-soprano): A3 (A below middle C) and A5 (2nd A above middle C).
  • 女中音(Contralto): F3 (F below middle C) to E5.
  • 男高音(Tenor): B2 (2nd B below middle C) to A4 (A above Middle C)
  • 男中音(Baritone): G2 (two Gs below middle C) to F4 (F above middle C).
  • 男低音(Bass): E2 (two Es below middle C) to E4 (the E above middle C).

还有乐器,也会有音域范围,比如大提琴的音域范围比小提琴的低。可以参考下图(图片来源):

我测试我的音域大概在G2-E4,标准的男中音哈。不过讨论人的时候还有真声、假声、头声等概念,我这里主要测的真声。

网上搜索Vocal Range,可以获得更多人的音域的相关内容。

]]>
专业领域翻译 2019-06-04T12:05:50+00:00 xulihang blog.xulihang.me/ESP-translation 在遇到不熟悉的专业领域翻译的时候,如果不进行搜索、查词典,恐怕一句话都翻译不出来。

最近一次翻译测试,我以人工翻译的形式翻译了类似以下的关于纺织服装业的内容:

中国的纺织服装业在世界上有着独特的地位而广东是中国纺织服装业的大省。纺织服装业是劳动密集型、低技术的产业,但广东凭借自身独特的优势,构建了一套产业体系,并使纺织服装业成为其支柱产业。本文将以理论和实证相结合的研究方式作出分析。

我在阅读的过程中,会圈出哪些词是需要查询的。比如纺织服装业、劳动密集型、低技术、产业体系、实证、支柱产业等等。

首先了解什么是纺织服装业。它其实包含两个部分,纺织业是生产布料的,而服装业是生产成衣的。放到词典里查,找到The textile and apparel industry,textile and garment industry,textile and clothing industry等几种译法。可以知道,纺织业肯定是textile industry,不确定的是服装业的翻法。于是在Bing上搜索apparel industry,第一条是Clothing industry的维基百科条目,解释如下:

Clothing industry or garment industry summarizes the types of trade and industry along the production and life chain of clothing and garments, starting with the textile industry (producers of cotton, wool, fur, and synthetic fibre) via fashion industry to fashion retailers up to trade with second-hand clothes and textile recycling.

再搜clothing industry,获得500万条结果,而apparel industry的结果数量是200万。推定clothing industry是合适的译法。

劳动密集型翻译为labour-intensive,实证翻译为empirical study,这个我是知道的,不过我还是查了下词典进行验证。

低技术,我想到参考高端的译法high-end,用连字符创造形容词low-tech。产业体系不确定是industrial architecture还是industrial system,查词典是发现例句用的system,于是采用。

最后翻译如下:

The textile and clothing industry in China holds a unique position in the world and Guangdong is a major province of the textile and clothing industry in China. The textile and clothing industry is a labor-intensive and low-tech industry, but Guangdong has formed its industrial system based on its unique advantages and made it a pillar industry. This paper will combine theoretical study and empirical study to make an analysis.

百度翻译如下:

China’s textile and apparel industry has a unique position in the world, and Guangdong is a major province of China’s textile and apparel industry. Textile and apparel industry is a labor-intensive and low-tech industry, but Guangdong has built up a set of industrial system by virtue of its unique advantages and made textile and apparel industry its pillar industry. This paper will make an analysis in the way of combining theory with practice.

这时如果有机器翻译,还是能省事不少。百度翻译还会给出相关短语的翻译(虽然这里给出的用处不是很大):

纺织 spinning and weaving; textile process

世界上 on earth

广东 Guangdong

服装 dress; clothing; costume; fashion

劳动密集型 labor-intensive

凭借 rely on; depend on

支柱产业 support/pillar industry

实证 authentic proof; substantial evidence; excess syndrome

相结合 adjoin, combine

我们学专业领域英语(ESP,English for special purpose)时,往往需要阅读大量的单语文本和平行文本,学习这个领域,了解这个领域的用词。

现在的机器翻译本身就是基于大量的文本训练的,它见识过的文本应该是远远多于译员的。但是机器和人一样,要面对选择哪个对应翻译的问题。机助翻译模式在这个时候,就需要发挥人的判断能力了。

这里提两个专业领域翻译用到的工具:

  1. CNKI翻译助手

    知网基于其庞大的文献构建的词典,可以按学科分类检索内容。可以知道每条查询有多少种翻译,每种翻译出现了多少次,并进一步查看例句。

  2. 语料快搜

    TMXMall的翻译记忆检索工具,但是没有分类检索功能,翻译质量也难以保证。不过可以作为参考。

其它还有搜索引擎、各类电子词典和机器翻译,其实整个互联网的内容都可以提供帮助。

相关文章:

]]>
B4X简介 2019-06-02T15:13:50+00:00 xulihang blog.xulihang.me/a-brief-introduction-to-B4X B4X是一套用来开发跨平台应用的工具,包含针对安卓的B4A、针对iOS的B4i以及针对Java的B4J。它使用现代化的Basic语言,可以快速开发应用(RAD)。所编写的Basic代码会被转译到对应平台的代码,比如Java、Objective-C、C、JavaScript等等。

主要优点:

1. 现代化的Basic语言

B4X目前最重要的产品是B4A,它将Basic转译为Java,实现原生开发。因为基于Java,所以B4X也是一种面向对象的语言,在很多方面可以看到受到了Java影响。不过B4X的面向对象比较简单,对象有属性和方法,但是不能继承。而转译到Java的一个好处就是可以使用JVM平台上的各种类库。

当然,作为Basic风格的语言,使用Basic风格的关键字,比如If…Then、For…Next、Sub…End Sub、Dim等。

2. 跨平台

B4X支持的平台:

  • 移动端:Android(B4A)、iOS(B4i)
  • 三大操作系统(B4J):Windows、macOS、Linux
  • 嵌入式:Arduino(B4R)、树莓派(B4J+arm版Linux)
  • 另外还可以开发Web应用(B4J)

B4X目前不能做到编写一次代码,在各个平台上运行。但这给了我们原生环境编程的体验。我们需要了解Android、iOS的生命周期,了解它们的常用控件,一直到软件如何发布。很多原生平台的类库,可以直接进行封装,供B4X语言调用。

而纯粹使用B4X语言编写的代码,则可以在多个平台中共享。UI的跨平台方面,作者也在使用XUI进行尝试。

3. 强大的集成开发环境

安装包只有10几MB,配置所需环境也很简单,有详细的说明。

IDE功能强大,支持智能提示、自动补全、断点调试、调试代码热交换等等,有很好的图形化界面设计器。

针对Android和iOS的界面设计,还提供了远程的界面预览功能。iOS开发需要Mac电脑,还提供了Mac编译主机服务。

4. 活跃的社区

B4X作者Erel是一个非常勤奋的开发者,他会非常耐心地回答用户的问题。主要的讨论场所就是B4X的论坛。论坛基于xenforo构建,Erel还做了各种加强,比如一个好用的搜索引擎。

B4X虽然不是很热门,但也有很多粉丝用户,其中有现实中从事程序员工作的技术大牛,也有普通的希望学习软件开发的新手。技术高手除了开发各种类库、写教程外,也会热心地回答其它用户的问题。

论文的秩序维持是一件重要的事,比如发的帖子不能跑题,提与主题无关的问题要另开一个新帖子,提问时要贴出代码而不是图片等等。虽然严肃,但也创造了很多B4X用户才知道的梗,比如这个帖子提到了很多:B4X Forum memes

5. 丰富的学习资源

文档齐全,手册、教程还有各种函数、类库的文档。

一些集合帖:

很多内容,比如各种网络协议、安全问题、SQL和数据库等复杂的东西,B4X上的帖子都有清楚地讲解,而且B4X代码比较容易读懂,所以也可以用B4X来快速了解和应用各种技术。

除了文档,Erel还专门录制了教学视频:B4X Video Tutorials

我的博客也会继续发与B4X相关的内容。

另外讲讲B4X的在国内的情况。国内的用户不多,也没看到哪家公司招聘时说需要B4X开发者。不过应该是存在使用B4X作为主力开发语言的公司的。而个人用户可以使用B4X快速开发相关工具,帮助自己提高工作效率或者为他人定制软件。

B4X的推广,早期有沉默蜂,在163上写了很多B4A的博客,他也创建了QQ群。还有几个其它的群,有一个群的群主是刺鱼,管理员有王爷、icefairy333等人。但B4X的主要交流场所还是论坛,交流的语言是英文。

B4X套件是闭源软件,其中,B4A和B4i是收费产品,B4J和B4R则是免费的。平时论坛里用户经常会贴出自己的源码,不过在GitHub和StackOverFlow等地方并不活跃。如果想使用主流语言,还是推荐使用Java、Python之类的,关于这点,可以看我之前的文章:小众编程语言

看了下B4X论坛上我的注册信息,算算我从2009年左右接触basic4ppc,学习编写PPC软件,到后来大一时利用B4A编写听雨书房,大二时利用B4i编写听雨BBS客户端,再到现在一直专注于用B4J开发桌面端和网页应用,也已经过了10年了。

我业余时间学习了Autoit、C、Pascal、B4X、Python、C#、Swift、JavaScript等各种语言,但是目前使用得最顺手的还是B4X。

]]>
博文写作 2019-06-02T02:35:50+00:00 xulihang blog.xulihang.me/how-do-I-write-blog-posts 博文写作和一般的写作一样,要经过采集、构思、表述等多个步骤。

写作首先得有一个想法。很多人运营公众号,他们追逐时事热点,因为这可以获得更多的点击。而我的想法怎么来呢,我想了下,主要是因为我经历了一些事情,想用文字对其进行记录。比如,看完了一本书、参加了一次社团活动、完成了一个编程任务等等。

但也有的时候,我的想法是散步的时候或者网上搜索的时候,自然而然地产生的。

我发现散步的时候,人的思绪才会开始奔驰。有时候,在电脑前做几个小时也解决不了的问题,出去散会儿步就有了解决办法。

网上搜索呢,一般人都是带着目的去搜索的,但是根据采莓模型(berry-picking model),人一开始的检索词并不是完美的,通常是较为宽泛的。人会根据检索得到的内容,找到新的兴趣点,不断地调整自己的检索词。比如我搜索matrix67,发现知乎上一篇帖子,其中提到了她夫人的博客,于是我又访问她夫人的博客,看到了很多有趣的博文。

有了想法后,我一般就直接开始文字的书写(表述)。收集资料和写提纲之类的我一般真的懒得做。当然,如果这个想法是一个实践性任务,比如编写一个程序,那我会先进行实践,过程中肯定也要收集大量的信息。

表述就是把我的想法用文字表示出来,但是用文字表示总归是有失真的地方,而且因为组织文字还是挺费脑的,有时候会不耐烦。

博文写好后,我一般就直接发布了。发布后,我会再阅读一遍,检查有没有错别字。过段时间后,如果发现博文有明显的错误或者有需要补充的地方,会进行一些完善。

]]>
事实与观点 2019-05-30T11:58:50+00:00 xulihang blog.xulihang.me/fact-and-opinion 最近看到Sparrho的一篇文章:Science Can Transform The Post-Truth Society,文章提到皮尤的一次研究。该研究从新闻中挑出5条事实和5条观点,让美国人判断。结果判断对全部事实和全部观点的比例分别只有26%和35%。

具体问题和调查结果如下图:

判断事实与观点(Fact or Opinion)是英语写作、英语新闻课上常提到的话题。网上还有很多的视频和小游戏,教孩子如何判断。一些论述,比如苹果是一种水果,狗是最好的宠物,会展示给孩子,让孩子判断。这类论述一般比较简单有趣,不过对于大人可能有点无聊。

但我发现,现在人们在网上花大量的时间获取信息,其中的大部分都是观点。

大家可以看一下知乎的热榜(截取自2019/05/30 20:24):

  1. 大家如何看待太原师范学院「女生自述遭受室友的校园暴力」事件?
  2. 如何看待韩国球员完胜中国队后脚踏熊猫杯的行为?
  3. 如何看待 5 月 30 日 CGTN 主播刘欣与 FOX 主播的这场辩论?有哪些值得关注的信息?
  4. 为什么用剑插入人身体后,人在未死亡前无力还击了?
  5. 演员亲自答:如何评价《隐形守护者》中的各个角色?
  6. 请问有女孩子愿意陪一个男生长大吗?
  7. 太原师范学院怎么样?
  8. 有什么事是你租房以后才知道的?
  9. 你活到现在为止,总结出最大的人生经验是什么?
  10. 为什么《新闻联播》结束后总有播音员在收拾稿子的片段?

基本上都是在问别人的观点,很少有关于事实的问题。

现在人们做出的每个决定,基本都要参考别人的观点。找饭店要看评价,买东西要看评价,选专业要看评价,找工作要看评价。

其实如果用户的基数很大,那么对于一个事物的评价就会变得越来越和事实接近。比如一家饭店的饭菜为大多数人喜爱,这是可以通过评价得出的事实。

而如果只是一篇软文,因为它只能表示一方的观点,那就很难判断它是否和实际情况一致。因为这种情况的存在,我们就想去阅读大量的相关文章,来获得一个相对客观的认识。这个过程会耗费大量的时间,而且因为我们接受的都是二手的经验,缺少主观的感受。

但是主观的感受也不一定准确,你看到的不一定是事实,就比如各种魔术表演。而我们在认识事物的时候,还常常会产生偏见。

类似于这个明星长得好看不好看这样的问题,本来就有很大的主观因素,它永远也不会是一个事实问题。但是人们就是喜欢这类问题,希望发现和自己的观点相似的观点,也想看看一些不一样的观点。

观点应该是基于事实的,现在很多键盘侠,看到一条新闻,没仔细看就发表观点。我之前也写过一篇文章:谁主张谁举证——谈网络黑子

一篇同样关于该研究的文章:你分得清新闻消息里哪些是事实陈述,哪些是观点吗? - 好奇心日报

]]>