这些服务通常涵盖了感知智能(让机器能“看”和“听”)和认知智能(让机器能“理解”和“思考”)两个层面。

(图片来源网络,侵删)
以下是当前主流的人工智能认知服务,并按照功能类别进行详细划分:
视觉智能
这类服务让计算机能够“看懂”图像和视频。
-
图像识别
- 核心功能:识别图像中的物体、场景、人物、动作等。
- 典型服务:
- 物体检测与识别:识别出图片中的具体物体(如汽车、猫、椅子)并框出其位置。
- 场景分类:判断图片的整体场景(如“海滩”、“办公室”、“生日派对”)。
- 地标识别:识别出图片中的著名地标建筑(如埃菲尔铁塔、长城)。
- 品牌Logo识别:在图片中检测出特定的品牌标志。
-
计算机视觉
(图片来源网络,侵删)- 核心功能:更深入地分析和理解图像内容。
- 典型服务:
- 光学字符识别:从图片中提取文本信息,并将其转换为机器可读的文本格式,从发票、名片、路牌图片中识别文字。
- 人脸识别:包括人脸检测(在图片中找到人脸)、人脸验证(判断两张照片是否为同一人)、人脸识别(在数据库中匹配身份)等。
- 审核:自动识别图片中的不当内容,如成人内容、暴力血腥、恐怖主义、广告等。
- 图像描述生成:自动为图片生成一段描述性的文字,类似于为图片“写说明”。
- 色彩分析:分析图片中的主色调、辅色调等。
-
视频智能
- 核心功能:分析视频流或视频文件。
- 典型服务:
- 分析:识别视频中的物体、场景和动作。
- 视频摘要:自动生成视频的精彩片段或关键帧。
- 视频字幕/翻译:为视频自动生成字幕,甚至进行实时翻译。
听觉智能
这类服务让计算机能够“听懂”语音。
-
语音识别
- 核心功能:将人类语音转换为文本。
- 典型服务:
- 语音转文本:将实时或录制的音频流转换为文字,常用于会议记录、语音输入等。
- 实时语音转写:低延迟地将语音实时转为文字,适用于直播字幕、实时字幕等场景。
- 口音/方言识别:识别说话人的口音或方言。
-
语音合成
- 核心功能:将文本转换为自然流畅的语音。
- 典型服务:
- 文本转语音:将输入的文字用特定的人声、语速和情感朗读出来。
- 个性化语音定制:使用少量特定人物的声音样本,训练出独一无二的、高度仿真的语音模型。
-
语音分析
- 核心功能:从语音中提取更深层次的信息。
- 典型服务:
- 声纹识别:通过声音特征识别说话人的身份,类似于声音的“指纹”。
- 情感分析:分析说话人的情绪状态(如高兴、悲伤、愤怒)。
- 关键词提取/话题检测:从长段语音中自动提取关键信息或判断讨论的主题。
语言智能
这类服务让计算机能够“理解”和“运用”人类语言。
-
自然语言处理
- 核心功能:分析和理解文本的结构与含义。
- 典型服务:
- 情感分析:判断一段文本(如评论、社交媒体帖子)所表达的情感倾向(正面、负面、中性)。
- 实体识别:从文本中识别出特定类型的信息,如人名、地名、组织机构名、日期、金额等。
- 关键词提取:自动从文本中提取核心词汇。
- 语言检测:自动判断输入文本的语言种类。
-
自然语言理解
- 核心功能:更深入地理解文本的“意图”和“需求”。
- 典型服务:
- 意图识别:理解用户输入文本的真实目的,用户说“订一张去北京的机票”,意图是“订票”。
- 槽位填充:从用户输入中提取关键信息,在订票意图中,提取出目的地(北京)、时间、乘客数等“槽位”信息。
- 阅读理解:提供一段文本和问题,让AI从文本中找到答案。
-
自然语言生成
- 核心功能:让计算机自动生成流畅、自然的文本。
- 典型服务:
- 智能摘要:自动将长篇文章、报告总结成简短的摘要。
- 对话生成/聊天机器人:生成有逻辑、有上下文的回复,用于构建智能客服、虚拟伴侣等。
- 报告自动生成:根据数据自动生成结构化的报告或新闻稿。
-
翻译服务
- 核心功能:在不同语言之间进行文本翻译。
- 典型服务:
- 机器翻译:支持多种语言之间的互译,包括文档、网页和实时文本翻译。
- 神经机器翻译:基于深度学习模型的翻译,相比传统翻译更准确、更自然。
决策与知识智能
这类服务建立在感知和认知之上,让计算机能够进行推理、决策和管理知识。
-
推荐系统
- 核心功能:根据用户的历史行为、偏好和相似用户群体,预测并推荐其可能感兴趣的内容或商品。
- 典型应用:电商网站的商品推荐、视频平台的影片推荐、音乐App的歌曲推荐。
-
知识图谱
- 核心功能:将现实世界中的实体(如人物、地点、概念)及其关系(如“出生于”、“是...的首都”)以图的形式进行结构化存储和管理。
- 典型服务:
- 语义搜索:理解用户的真实意图,提供更精准的搜索结果。
- 智能问答:基于知识图谱直接回答用户问题,如“周杰伦的妻子是谁?”
- 决策支持:为金融、医疗等领域的复杂决策提供数据支持和关系分析。
-
预测性分析
- 核心功能:利用历史数据训练模型,预测未来可能发生的事件。
- 典型应用:
- 销量预测:预测未来一段时间的产品销量。
- 设备故障预测:预测工业设备何时可能发生故障,提前进行维护。
- 用户流失预测:预测哪些客户可能会流失,以便进行挽留。
主流云服务商提供的认知服务平台
提到的几乎所有服务,各大云服务商都以API的形式打包成服务提供:
- 微软 Azure AI:提供全面的认知服务套件,包括Azure Computer Vision, Azure Speech, Azure Language Service, Azure Bot Service等。
- Google Cloud AI:提供Cloud Vision API, Cloud Speech-to-Text, Cloud Natural Language, Dialogflow等。
- Amazon Web Services (AWS) AI:提供Amazon Rekognition(图像识别), Amazon Transcribe(语音转文本), Amazon Comprehend(文本分析), Amazon Polly(语音合成)等。
- 百度智能云 AI:提供图像识别、语音技术、自然语言处理、知识图谱等一站式AI开发平台。
- 阿里云 AI:提供视觉智能、语音交互、自然语言处理等AI能力服务。
人工智能认知服务的核心价值在于降低了AI技术的使用门槛,它使得开发者可以像调用水电煤一样,方便地获取AI能力,从而专注于自身业务逻辑的创新,而不是耗费大量时间和资源去研究复杂的算法和模型,从手机上的拍照识物,到智能客服的自动回复,再到视频平台的精准推荐,认知服务已经深度融入了我们的日常生活和各行各业。
标签: 人工智能认知服务平台 企业认知智能服务方案 AI认知技术有哪些应用场景
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。