第166章解析小C的初步成果

一种。

    ??如果资源足够，苏航大可以像谷歌一样，上亿的数据集砸下去，然後硬生生炼出一个自然语言识别程序。

    ??就像是

    ??如果数据集更加规范有序，进一步让程序能够自动生成文章也不是不行。

    ??但是小C明显不是这样的。

    ??当初小C所有的数据不过是字典词典和一些书籍，对了，还有团团和主流媒体的文章等等。

    ??数据量少，而识别相契合度高，说明小C有着更加先进的算法。

    ??尤其是自然语言有着大量的隐性信息。

    ??汉语尤其如此。

    ??比如，这是什麽意思？

    ??根据不同的语气就有不同的解读方式。

    ??所以，对於模糊的汉语识别是非常困难的。

    ??但是，理解诗词韵味对小C而言也许有些困难，但是结合语境理解自然语言的含义却是不在话下。

    ??通过对小C的代码分析，苏航大概摸索清楚了小C的“逻辑”。

    ??数据的价值不仅取决於量，还取决於质。

    ??就像有些人可以见微知着，数据量虽少，但是却能够通过分析发挥更大的作用。

    ??纯粹的用大量数据进行“筛选”，用淘汰的方式来选择合适的拟合路径，对算力的浪费是极大的。

    ??小C则不一样。

    ??在收集到数据後，首先建立了特殊的读写数据库。

    ??就像是小学生学组词造句一样，小C也把每一个汉字给建立了知识图谱。

    ??让数据变成了结构化的知识！

    ??与其说是数据库，不如说是知识库。

第166章 解析小C的初步成果

第166章解析小C的初步成果